Skip to content

Commit d8a2034

Browse files
author
Tianyi Wang
authored
Update README.md
1 parent 3182d95 commit d8a2034

File tree

1 file changed

+21
-1
lines changed

1 file changed

+21
-1
lines changed

README.md

Lines changed: 21 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -206,5 +206,25 @@ cglib工具:利用asm开源包,对代理对象类的class文件加载进来
206206

207207
## Lucene原理
208208
### 倒排索引
209+
不是由记录来确定属性值,而是由属性值来确定记录的位置。
209210

210-
### Lucene存储原理
211+
构建过程:分词 - Hash去重 - 根据单词生成索引表,同时得到“词典文件”(词-> 单词Id),最后得到“倒排索引文件”(单词Id -> 倒排列表)
212+
213+
词典文件
214+
215+
![](http://img.my.csdn.net/uploads/201209/10/1347269599_3828.jpg)
216+
217+
倒排索引文件
218+
219+
![](http://hi.csdn.net/attachment/201202/13/0_1329141580k34Q.gif)
220+
221+
### Lucene存储原理
222+
223+
## 爬虫优化
224+
### 如何抓取需要登录的页面
225+
模拟登录之后将sessionId保存到request header的cookie中
226+
227+
### 如何解决IP限制问题
228+
1. 买个支持ADSL的拨号服务器,便宜的一个月80,然后在上面搭建代理服务器,用爬虫连上去
229+
2. 自己探索不同网站的访问频率限制规则
230+
3. 寻找网站访问频率访问限制漏洞

0 commit comments

Comments
 (0)