一般上我们会在网页要登录的时候,会要求要输入图形验证码,而这些验证码则会阻碍我们进行爬虫,因此我们能够使用一种能将图片的文字翻译出来。而能够将图片从中翻译出来的文字,我们称为光学文字识别(Optical Character Recognition),简写为OCR。

2020年07月11日 1条评论 203点热度 3人点赞 阅读全文

上一篇,我们讲到Selenium是一个web的自动化测试工具,可以模拟人去浏览网页,那么我们来看看Selenium的使用方法。

2020年06月19日 0条评论 243点热度 0人点赞 阅读全文

Python中执行JS代码,通常两个库:js2py,pyexecjs。js2py是纯python实现的库,用在python中执行的js代码,本质上是将js代码翻译成python代码。js2py安装方法:

2020年06月03日 0条评论 245点热度 0人点赞 阅读全文

Beautiful Soup最主要的功能是在网页上抓取数据,可以从HTML或XML文件中解析提取到网页的数据,进行处理信息导航、搜索以及修改节点等功能。

2020年05月29日 0条评论 136点热度 0人点赞 阅读全文

XPath(XML Path Language)是一款高性能的HTML/XML解析器,最初设计是用来搜寻XML文档的,它也同样适用于HTML文档的搜索。我们在做爬虫的时候,可以用Xpath来抽取节点的信息,快速帮我们定位元素和属性进行遍历。

2020年05月16日 0条评论 188点热度 0人点赞 阅读全文
12