ictclas4j的一个bug

不知道用ictclas4j的人多不多,该项目地址是http://code.google.com/p/ictclas4j/ 关于ictclas分词系统讨论组地址是http://groups.google.com/group/ictclas 其中在ictclas4j项目的issues中有人提到一个问题“程序分词最后结果会吃掉一些字”,问题地址为http://code ...
by chencang 2008-10-09 浏览 (26) 回复 (0)

IKAnalyzer和庖丁分词性能对比

  paoding和IK分词效果差不多,IK分词多些但速度差些。 原文:  http://www.zgkw.cn/FORUMS/blogs/dyx/archive/2008/02/18/59776.aspx
by keller 2008-02-18 浏览 (526) 回复 (0)

je分词的问题

我现在用的是je-analysis-1.5.2.jar的分词,当我建立索引大约有几百条的时候,就出现一下异常,看看,是什么原因?谢谢了 java.lang.ArrayIndexOutOfBoundsException: 1056  at jeasy.analysis.lIIllIlIlIIIllll._$3(Unknown Source:264)  at jeasy.an ...
by zzxplayful 2007-11-26 浏览 (876) 回复 (2)

庖丁分词(2.0.4-alpha)的分词策略

public class AnalyzerTest extends TestCase { protected PaodingAnalyzer analyzer = new PaodingAnalyzer(); protected StringBuilder sb = new StringBuilder(); protected ...
by Qieqie 2007-09-25 浏览 (3611) 回复 (5)

使用 庖丁分词(2.0.4-alpha)

开始使用 庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。 在linux下,我们可以考虑将词典安装在一个专门存储数据的分区下某目录,以笔者为例,笔者将/data作为系统的一个独立分区,笔者便是 ...
by Qieqie 2007-09-25 浏览 (4949) 回复 (14)

Paoding 2.0.2记录

Paoding 2.0.2记录 paoding 现在在svn上的代码能够支持 自动动态装载词典,并检测词典是否发生了更新、删除。 也支持关闭自动监测(paoding.stopAutoDetecting),而提供一个方法paoding.forceDetecting手动执行一次检测。 现在这个版本为2.0.2,但是现在不打算打成jar包和zip包。 待之后2.0.3支持简繁体、提供GBK->UTF ...
by Qieqie 2007-08-28 浏览 (1490) 回复 (3)

中文分词 庖丁解牛 版本号 2.0.1

庖丁解牛 中文分词 版本号 2.0.1 --------------------------------------------------- 相对2.0.0版本变更如下: 重构(!): svn上的代码和字典从原来的GBK编码转化为UTF-8编码(使用Eclipse下载代码的同学需要改变工程的encoding) ->从统计上,更多人使用UTF-8而非GBK,故改之;望谅。 重构(!): 重构 ...
by Qieqie 2007-08-14 浏览 (2391) 回复 (11)

中文分词 庖丁解牛 2.0.0版本发布

庖丁解牛 最新版本2.0.0 主要变更: 1)调整了package命名 改为net.paoding.analysis开头;调整了一些类的命名,主要是XAnalyzer改为 PaodingAnalyzer之类的。 2)并调整了部分代码的相对位置:代码集中在三个包中: net.paoding.analysis.dictionary 字典抽象--这是核心代码之一 net.paoding ...
by Qieqie 2007-08-08 浏览 (9766) 回复 (28)