We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
1 parent 3182d95 commit d8a2034Copy full SHA for d8a2034
README.md
@@ -206,5 +206,25 @@ cglib工具:利用asm开源包,对代理对象类的class文件加载进来
206
207
## Lucene原理
208
### 倒排索引
209
+不是由记录来确定属性值,而是由属性值来确定记录的位置。
210
-### Lucene存储原理
211
+构建过程:分词 - Hash去重 - 根据单词生成索引表,同时得到“词典文件”(词-> 单词Id),最后得到“倒排索引文件”(单词Id -> 倒排列表)
212
+
213
+词典文件
214
215
+
216
217
+倒排索引文件
218
219
+
220
221
+### Lucene存储原理
222
223
+## 爬虫优化
224
+### 如何抓取需要登录的页面
225
+模拟登录之后将sessionId保存到request header的cookie中
226
227
+### 如何解决IP限制问题
228
+1. 买个支持ADSL的拨号服务器,便宜的一个月80,然后在上面搭建代理服务器,用爬虫连上去
229
+2. 自己探索不同网站的访问频率限制规则
230
+3. 寻找网站访问频率访问限制漏洞
0 commit comments