01 爬虫介绍

2020年04月27日 147点热度 2人点赞 0条评论

1. 什么是爬虫

爬虫就是代替人去模拟浏览器进网页操作,爬虫我们也叫做蜘蛛(Spider)按照一定的规则,自动抓取一些互联网的信息,只要浏览器能做的事情,那么爬虫也能做。

1. 1 为什么需要爬虫

(A)减少重复性的动作,提高效率,实现自动化

(B)大数据时代,人工智能的崛起,爬虫能获取数据,进行数据分析

1. 2 为什么要选择Python做爬虫

(A)代码简洁,开发效率高

(B)第三方库,使用方面资源丰富

(C)调用其他接口方便

1. 3 获取数据方式(数据来源)

(A)公司自有的用户数据(如:淘宝、抖音等等)

(B)通过第三方平台购买数据(百度指数、数据堂)

(C)爬虫爬取的数据

1. 4 爬虫的分类
  • 通用爬虫:搜索引擎,如:谷歌、百度
  • 聚焦爬虫 :根据目标抓取某一特定的内容
  • 增量式爬虫:指针对抓取新的内容或产生变化的内容
  • 深层爬虫:指爬取那些隐藏的内容,如需要用户登入才能看见的内容,需要特定的权限才能访问获取的页面信息

通用爬虫和聚焦爬虫工作流程:

YenYoong☕

当你能梦的时候就不要放弃梦~😎

文章评论