1- #CppJieba是"结巴"中文分词的C++版本
1+ # CppJieba
22
3- 功能性的代码全写成hpp文件,文件依赖一直是很让人讨厌的东西,全做成hpp头文件形式的目的就是为了省去链接的依赖。
3+ ## Introduction
44
5- ** 没有依赖,就没有伤害。 **
5+ CppJieba是"结巴"中文分词的C++版本
66
7- 实践证明写成hpp使用起来真的很爽,在后面提到的在iOS应用中的使用,和包装成 ` Node.js ` 的扩展 [ NodeJieba ] 都特别顺利。
7+ 代码细节详解请见 [ 代码详解 ]
88
9- 如果对代码细节感兴趣的请见 [ 代码详解 ]
9+ ## Feature
1010
11- ## 中文编码
11+ + 源代码都写进头文件hpp里,` include ` 即可使用。
12+ + 支持` utf-8, gbk ` 编码,但是推荐使用` utf-8 ` 编码。
13+ + 内置分词服务,在linux环境下可安装使用。mac因为没有自带` epoll ` ,使用示例请看[ libcppjieba] 。
14+ + [ libcppjieba] 最简单易懂的CppJieba头文件库使用示例。
15+ + 项目自带较为完善的单元测试,核心功能中文分词的稳定性接受过线上环境检验。
1216
13- 现在支持utf8,gbk编码的分词。
17+ ## Usage & Example
1418
15- ## 安装与使用
16-
17- ### 依赖
19+ ### Dependency
1820
1921* g++ (version >= 4.1 recommended);
2022* cmake (version >= 2.6 recommended);
2123
22- ### 下载和安装
24+ ### Download & Demo
2325
2426``` sh
2527wget https://github.com/aszxqw/cppjieba/archive/master.zip -O cppjieba-master.zip
3436sudo make install
3537```
3638
37- #### 测试
39+ #### testing
3840
3941``` sh
4042make test
4143```
4244
43- ### 启动服务
44-
45- 因为服务的后台运行需要` start-stop-daemon ` ,在ubuntu下是自带的。但是在CentOS下就需要自己安装了。
45+ ### server start & stop
4646
4747```
4848#Usage: /etc/init.d/cjserver {start|stop|restart|force-reload}
49- #启动
5049/etc/init.d/cjserver.start
51- #停止
5250/etc/init.d/cjserver.stop
5351```
5452
55- #### 测试服务
53+ #### testing server
5654
5755然后用chrome浏览器打开` http://127.0.0.1:11200/?key=南京市长江大桥 `
5856(用chrome的原因是chrome的默认编码就是utf-8)
@@ -89,13 +87,15 @@ curl -d "南京市长江大桥" "http://127.0.0.1:11200/"
8987["南京市", "长江大桥"]
9088```
9189
92- ### 卸载
90+ ### uninstall
9391``` sh
9492cd build/
9593cat install_manifest.txt | sudo xargs rm -rf
9694```
9795
98- ## 分词效果
96+ ## Demo
97+
98+ 最简单易懂的使用示例请看[ libcppjieba] 。它是根据[ issue25] 的建议专门弄的头文件库。
9999
100100### MPSegment's demo
101101
@@ -172,7 +172,6 @@ Output:
172172
173173```
174174
175- ### 效果分析
176175
177176以上依次是MP,HMM,Mix三种方法的效果。
178177
@@ -212,7 +211,7 @@ __词性标注是一个未完成的部分,现在只是一个简单版本。__
212211
213212
214213
215- ## 相关应用
214+ ## Application
216215
217216### 关于CppJieba的跨语言包装使用
218217
@@ -228,26 +227,26 @@ __词性标注是一个未完成的部分,现在只是一个简单版本。__
228227
229228如果有需要在处理中文文档的的相似度计算,不妨试一下[ simhash] 。
230229
231- ## 演示
230+ ## Online Demo
232231
233232http://cppjieba-webdemo.herokuapp.com/
234233(建议使用chrome打开)
235234
236- ## 客服
235+ ## Contact
237236
238- 如果有运行问题或者任何疑问,欢迎联系 : wuyanyi09@gmail .com
237+ I will appreciate that if you issue any question or send mails to me( wuyanyi09@foxmail .com ).
239238
240- ## 鸣谢
239+ ## Thanks
241240
242241"结巴"中文分词作者: SunJunyi
243242https://github.com/fxsjy/jieba
244243
245- 顾名思义,之所以叫CppJieba,是参照Jieba分词Python程序写成的,所以饮水思源,再次感谢SunJunyi。
246-
247244[ CppJieba ] :https://github.com/aszxqw/cppjieba
248245[ jannson ] :https://github.com/jannson
249246[ cppjiebapy ] :https://github.com/jannson/cppjiebapy
250247[ cppjiebapy_discussion ] :https://github.com/aszxqw/cppjieba/issues/1
251248[ NodeJieba ] :https://github.com/aszxqw/nodejieba
252249[ simhash ] :https://github.com/aszxqw/simhash
253250[ 代码详解 ] :http://aszxqw.github.io/jekyll/update/2014/02/10/cppjieba-dai-ma-xiang-jie.html
251+ [ libcppjieba ] :https://github.com/aszxqw/libcppjieba
252+ [ issue25 ] :https://github.com/aszxqw/cppjieba/issues/25
0 commit comments