ictclas4j的一个bug
不知道用ictclas4j的人多不多,该项目地址是http://code.google.com/p/ictclas4j/ 关于ictclas分词系统讨论组地址是http://groups.google.com/group/ictclas
其中在ictclas4j项目的issues中有人提到一个问题“程序分词最后结果会吃掉一些字”,问题地址为http://code ...
by chencang 2008-10-09 浏览 (26) 回复 (0)
IKAnalyzer和庖丁分词性能对比
paoding和IK分词效果差不多,IK分词多些但速度差些。
原文:
http://www.zgkw.cn/FORUMS/blogs/dyx/archive/2008/02/18/59776.aspx
by keller 2008-02-18 浏览 (526) 回复 (0)
je分词的问题
我现在用的是je-analysis-1.5.2.jar的分词,当我建立索引大约有几百条的时候,就出现一下异常,看看,是什么原因?谢谢了
java.lang.ArrayIndexOutOfBoundsException: 1056
at jeasy.analysis.lIIllIlIlIIIllll._$3(Unknown Source:264)
at jeasy.an ...
by zzxplayful 2007-11-26 浏览 (876) 回复 (2)
庖丁分词(2.0.4-alpha)的分词策略
public class AnalyzerTest extends TestCase {
protected PaodingAnalyzer analyzer = new PaodingAnalyzer();
protected StringBuilder sb = new StringBuilder();
protected ...
by Qieqie 2007-09-25 浏览 (3611) 回复 (5)
使用 庖丁分词(2.0.4-alpha)
开始使用
庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。
在linux下,我们可以考虑将词典安装在一个专门存储数据的分区下某目录,以笔者为例,笔者将/data作为系统的一个独立分区,笔者便是 ...
by Qieqie 2007-09-25 浏览 (4949) 回复 (14)
Paoding 2.0.2记录
Paoding 2.0.2记录
paoding 现在在svn上的代码能够支持 自动动态装载词典,并检测词典是否发生了更新、删除。
也支持关闭自动监测(paoding.stopAutoDetecting),而提供一个方法paoding.forceDetecting手动执行一次检测。
现在这个版本为2.0.2,但是现在不打算打成jar包和zip包。
待之后2.0.3支持简繁体、提供GBK->UTF ...
by Qieqie 2007-08-28 浏览 (1490) 回复 (3)
中文分词 庖丁解牛 版本号 2.0.1
庖丁解牛 中文分词 版本号 2.0.1
---------------------------------------------------
相对2.0.0版本变更如下:
重构(!):
svn上的代码和字典从原来的GBK编码转化为UTF-8编码(使用Eclipse下载代码的同学需要改变工程的encoding)
->从统计上,更多人使用UTF-8而非GBK,故改之;望谅。
重构(!):
重构 ...
by Qieqie 2007-08-14 浏览 (2391) 回复 (11)
中文分词 庖丁解牛 2.0.0版本发布
庖丁解牛 最新版本2.0.0
主要变更:
1)调整了package命名 改为net.paoding.analysis开头;调整了一些类的命名,主要是XAnalyzer改为
PaodingAnalyzer之类的。
2)并调整了部分代码的相对位置:代码集中在三个包中:
net.paoding.analysis.dictionary 字典抽象--这是核心代码之一
net.paoding ...
by Qieqie 2007-08-08 浏览 (9766) 回复 (28)

