博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
jcseg 1.7.2 版发布了
阅读量:6079 次
发布时间:2019-06-20

本文共 329 字,大约阅读时间需要 1 分钟。

jcseg 1.7.2版发布了:

1。去除了英文无用标点的切分。

2。新加入字母和标点组合词的识别,例如:c++, g++, c#等等。

    (为此jcseg新加入了一个词库 lex-en-pun.lex,专门用于存放该类词条。)

3。加入中文数字单字单位的识别,例如:五折,十年……,并且jcseg会自动将其转换成阿拉伯数字和单位的组合加入到分词结果中,例如上述会转换为:5折,10年 。

4。为了统一和方便,将英文的切分结果全部转换了为小写,并且lex-mixed.lex中英混合词中的英文字母全部变成了小写,并且优化了英文识别代码。

 

各位哥们要是发现了什么问题,或者有本软件相关的建议,请不吝赐教,欢迎大家交流学习。

 

详细了解jcseg:

下载jcseg:

转载地址:http://pmqgx.baihongyu.com/

你可能感兴趣的文章
GCT之语文细节知识
查看>>
【网站国际化必备】Asp.Net MVC 集成Paypal(贝宝)快速结账 支付接口 ,附源码demo...
查看>>
VC中使用GetModuleFileName获取应用程序路径
查看>>
Ecshop 最小起订量如何设置
查看>>
简单JavaScript语句实现搜索关键字高亮功能
查看>>
CentOS 6上安装xfce桌面环境
查看>>
SharedPreferences的工具类
查看>>
屏幕适配那点事
查看>>
nyoj-----幸运三角形
查看>>
C166 Interfacing C to Assembler
查看>>
wcf服务编程(第3版)文摘
查看>>
T4批量生成多文件
查看>>
论述Android通过HttpURLConnection与HttpClient联网代理网关设置
查看>>
数据存储之ContentProvide
查看>>
九度 1455:珍惜现在,感恩生活(多重背包)
查看>>
同步机制
查看>>
玩了一下SDN:MININET+FLOODLIGHT,感觉这确实是一个趋势啊
查看>>
C语言printf()输出格式大全
查看>>
可执行文件(ELF)格式之讲解
查看>>
JAVA中获取当前系统时间 - Matrix54 - 博客园
查看>>