02 爬虫概念

2020年04月29日 206点热度 0人点赞 0条评论

2.1 HTTP请求

HTTP分别为GET和POST请求,GET是从服务器上获取数据,POST是向服务器传送数据。

GET:查询参数都会显示在URL上,例子:https://www.yybloger.com/?s=python

POST:查询参数和需要提交的数据都会隐藏在表单里,不会显示出来,例子:网页的登入页面

2.2 URL组成部分

URL(Uniform Resource Locator)也称统一资源定位符

主机名也就是网站名,一个域名(Domain Name)可以有很多个子域名。

一般网站的端口号默认为HTTP(80)/HTTPS(443),默认端口号会自动隐藏在浏览器URL地址上。例子:https://www.yybloger.com:443

域名的后续地址我们称路径:https://www.yybloger.com/about-me (/about-me)目录下

#anchor:网站锚点,加载Ajax(浏览器不刷新的情况下,加载页面)例子:单页网站的导航

在浏览器请求URL地址的时候,浏览器会对URL进行一个编码(除了英文字母、数字的部分标识符,其他全部使用% 加十六进制码进行编码)

例子:https://www.yybloger.com/?s=%E4%BD%A0%E5%A5%BD

%E4%BD%A0%E5%A5%BD = 你好

2.3 User-Agent 用户代理

User-Agent:客户浏览器的名称

作业:记录用户浏览器、操作系统等信息,目的是为了让用户有更好的HTML页面效果

User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36

Trident:(IE内核)

Mozilla Firefox:(Gecko内核)

WebKit:(Safari内核,Chrome内核原型)

2.4 Referer(页面跳转处)

Referer是说明发送的请求是从哪一个URL访问的当前页面,跟踪URL请求源头,一般上可以用来做反爬技术。

2.5 响应状态码

  • 200:表示请求成功(发送请求的整个过程可以正常接收)

  • 301:永久重定向(把旧的URL地址永久重定向到一个新的URL地址)

  • 302:临时重定向(所请求的页面临时转到另一个新的URL地址)

  • 403:服务器拒绝访问(文件无权访问的时候,权限问题)

  • 404:请求失败(服务器无法找到请求的页面,页面不存在的意思)

  • 500:服务器内部请求(服务器内存爆满时会出现的情况)

2.6 开发者工具

  • Elements:网页中的元素(网页源代码),用于提取数据和分析数据

  • Console:控制台(Terminal)用来打印信息(前端)

  • Source:信息来源,网站所加载的文件(资源)

  • Network:网络工作,可以看见很多的网页请求

YenYoong☕

当你能梦的时候就不要放弃梦~😎

文章评论