cdZWj 686f9dec80 英译汉批改 | 2 éve | |
---|---|---|
.. | ||
cilin | 2 éve | |
fanyi | 2 éve | |
hownet | 2 éve | |
other_eval_data | 2 éve | |
2016-7基于知网与词林的词语语义相似度计算_朱新华.pdf | 2 éve | |
Hybrid_Sim.py | 2 éve | |
LICENSE | 2 éve | |
Pearson.py | 2 éve | |
README.md | 2 éve | |
__init__.py | 2 éve | |
example.py | 2 éve |
综合词林扩展版与Hownet的相似度计算策略和评价指标,来自文献1,代码为本人实现。采用融合计算方式,扩大了词汇覆盖面,也改进了计算结果的合理性。
具体算法选择:
词林扩展版
(1)最初采用了【词林相似度计算:实现了3种算法】 中的2016版代码(文献1),比另2种算法效果更好。知网Hownet
(1)开源的代码大多均参考刘群的论文,但效果与主观感受有差距。目前选用:【知网相似度计算】。本人修改了其中读取词表遗漏的bug,改善了代码的风格,提高了可读性。【3】《基于信息内容的词林词语相似度计算》彭琦, 朱新华, 陈意山,等.2018年2月《计算机应用研究》 【4】《基于多重继承与信息内容的知网词语相似度计算》张波,陈宏朝,朱新华等.2017年10月 《计算机应用研究》【1】《基于知网与词林的词语语义相似度计算》朱新华,马润聪,孙柳,陈宏朝,2016年7月《中文信息学报》
【2】《基于路径与深度的同义词词林词语相似度计算》陈宏朝, 李飞, 朱新华,马润聪. 2016年9月《中文信息学报》
相似度方法 | 所用语义词典 | 词汇量 | 皮尔逊系数 |
---|---|---|---|
田久乐 赵蔚(2010) | 同义词词林 | 77456 | 0.53 |
吕立辉等(2013) | 同义词词林 | 77456 | 0.74 |
陈宏朝等(2016-9) | 同义词词林 | 77456 | 0.856 |
yaleimeng(2018) | 改进的词林 | 77490 | 0.917 |
相似度方法 | 所用语义词典 | 词汇量 | 皮尔逊系数 |
---|---|---|---|
刘群、李素建(2002) | HowNet(知网) | 53335 | 0.699 |
Seco(2004)+Lin方法 | HowNet(知网) | 53335 | 0.738 |
李峰、李芳(2007) | HowNet(知网) | 53335 | 0.793 |
张波等(2017) | 改进HowNet | 53335 | 0.84 |
相似度方法 | 所用语义词典 | 词汇量 | 皮尔逊系数 |
---|---|---|---|
yaleimeng(2018) | 词林+HowNet | 85777 | 0.885 |
2 本混合方法计算可调节词林与hownet计算结果的权重,表格中成绩可能为最大值(两词均被同时收录)。注:
1 上面的皮尔逊系数均在MC30数据集上测得。
如需了解预训练词向量计算的中文词语相关度,可参见:中文近义词工具包Synonyms
原创不易,欢迎打赏、捐赠: