1、从今天开始我们将开始学习python爬虫相关的知识等等。
2、首先了解什么是爬虫?
我们打开百度搜索“什么是爬虫”
一个简单的回答“爬虫通俗来说就是抓取网页数据,比如说大家都喜欢的妹子图、小视频呀,还有电子书、文字评论、商品详情等等。”
自动对数据信息等等的抓取就是爬虫。
3、我们在来看一下爬虫有什么用?
1)数据分析/人工智能数据集
2)作为社交软件冷启动(就是一个产品上线没有数据,那么就通过抓取别人的数据作为产品的原始数据)
3)舆论监控
4)竞争对手监控
4、我们在来看一下爬虫怎么实现?
爬虫作为一种技术手段当然有着语言的无关性,我们可以使用java、python、go等等语言去实现,今天我们要讨论的是python的爬虫,之前我也有用java实现过爬虫,当然只是一些简单的爬虫,像java中httpclient+jsoup或者使用webmagic等等去实现爬虫。
在python中我们通过一系列的库或者工具对数据进行抓取,如;
Library:requests、urllib、pycurl
Tools:curl、wget、httpie
如图: