1818 * [ HTTP 请求] ( #http-请求 )
1919 * [ HTTP 响应] ( #http-响应 )
2020 * [ HTTPS] ( #https )
21-
2221# 爬虫预备知识
2322> 爬虫课程中所需要的相关知识储备
2423
127126>
128127> HTTP1.1 新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。
129128
130- 请求方式 | 描述
131- ---------|
132- GET | 请求指定的页面信息,并返回实体主体。
133- HEAD | 类似于 get 请求,只不过返回的响应中没有具体的内容,用于获取报头
134- POST | 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。
135- PUT | 从客户端向服务器传送的数据取代指定的文档的内容
136- DELETE | 请求服务器删除指定的页面。
137- CONNECT | HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。
138- OPTIONS | 允许客户端查看服务器的性能。
139- TRACE | 回显服务器收到的请求,主要用于测试或诊断。
129+ | 请求方式 | 描述 |
130+ | --------- | --------------------------------------------------------------------------------------------------------------------------------- ---------|
131+ | GET | 请求指定的页面信息,并返回实体主体。 |
132+ | HEAD | 类似于 get 请求,只不过返回的响应中没有具体的内容,用于获取报头 |
133+ | POST | 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。 |
134+ | PUT | 从客户端向服务器传送的数据取代指定的文档的内容 |
135+ | DELETE | 请求服务器删除指定的页面。 |
136+ | CONNECT | HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。 |
137+ | OPTIONS | 允许客户端查看服务器的性能。 |
138+ | TRACE | 回显服务器收到的请求,主要用于测试或诊断。 |
140139
141140- ** 常见请求头**
142141
143- 请求头 | 作用
144- ----------------------------------|
145- ** Cookie** | Cookie
146- ** User-Agent** | 浏览器名称
147- ** Referer** | 页面跳转处
148- Host | 主机和端口号
149- Connection | 链接类型
150- Upgrade-Insecure-Requests | 升级为 HTTPS 请求
151- Accept | 传输文件类型
152- Accept-Encoding | 文件编解码格式
153- x-requested-with : XMLHttpRequest | ajax 请求
142+ | 请求头 | 作用 |
143+ | ----------------------------------- | -------------------|
144+ | ** Cookie** | Cookie |
145+ | ** User-Agent** | 浏览器名称 |
146+ | ** Referer** | 页面跳转处 |
147+ | Host | 主机和端口号 |
148+ | Connection | 链接类型 |
149+ | Upgrade-Insecure-Requests | 升级为 HTTPS 请求 |
150+ | Accept | 传输文件类型 |
151+ | Accept-Encoding | 文件编解码格式 |
152+ | x-requested-with : XMLHttpRequest | ajax 请求 |
154153
155154[ 点击查看更多] ( https://github.com/CriseLYJ/Python-crawler-tutorial-starts-from-zero/blob/master/HTTP%E8%AF%B7%E6%B1%82%E5%88%97%E8%A1%A8.md )
156155
@@ -164,14 +163,14 @@ x-requested-with : XMLHttpRequest | ajax 请求
164163- ** 响应头**
165164
166165
167- 响应头 | 作用
168- ---------------|
169- ** Location** | 这个头配合 302 状态码使用,告诉用户端找谁。
170- ** Set-Cookie** | 设置和页面关联的 Cookie
171- Content-Type | 服务器通过这个头,回送数据的类型
172- Server | 服务器通过这个头,告诉浏览器服务器的类型
173- Content-Length | 服务器通过这个头,告诉浏览器回送数据的长度
174- Connection | 服务器通过这个头,响应完是保持链接还是关闭链接
166+ | 响应头 | 作用 |
167+ | ---------------- | --------------------------------- ---------------|
168+ | ** Location** | 这个头配合 302 状态码使用,告诉用户端找谁。 |
169+ | ** Set-Cookie** | 设置和页面关联的 Cookie |
170+ | Content-Type | 服务器通过这个头,回送数据的类型 |
171+ | Server | 服务器通过这个头,告诉浏览器服务器的类型 |
172+ | Content-Length | 服务器通过这个头,告诉浏览器回送数据的长度 |
173+ | Connection | 服务器通过这个头,响应完是保持链接还是关闭链接 |
175174
176175- ** HTTP 状态码**
177176
@@ -181,13 +180,13 @@ Connection | 服务器通过这个头,响应完是保持链接还是关闭
181180>
182181> HTTP 状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP 状态码共分为 5 种类型
183182
184- 分类 | 分类描述
185- -----|
186- 1** | 信息,服务器收到请求,需要请求者继续执行操作
187- 2** | 成功,操作被成功接收并处理
188- 3** | 重定向,需要进一步的操作以完成请求
189- 4** | 客户端错误,请求包含语法错误或无法完成请求
190- 5** | 服务器错误,服务器在处理请求的过程中发生了错误
183+ | 分类 | 分类描述 |
184+ | ------ | ------------------------------------------- -----|
185+ | 1** | 信息,服务器收到请求,需要请求者继续执行操作 |
186+ | 2** | 成功,操作被成功接收并处理 |
187+ | 3** | 重定向,需要进一步的操作以完成请求 |
188+ | 4** | 客户端错误,请求包含语法错误或无法完成请求 |
189+ | 5** | 服务器错误,服务器在处理请求的过程中发生了错误 |
191190
192191- 常见的 HTTP 状态码:
193192 - 200 - 请求成功
0 commit comments