陈叶旺Chen Yewang

硕士生导师

性别:男

学历:博士研究生

学位:理学博士学位

入职时间:2009-08-11

办公地点:机电实验大楼 A409

电子邮箱:

在职信息:在岗

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

一种基于百度百科的中文文本关键词抽取方法

发表时间:2013-11-01 点击次数:

发表刊物:小型微型计算机系统
刊物所在地:中国科学院沈阳计算技术研究所
关键字:网络文本 百度百科 语义主题
摘要:网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Naïve Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现.
页面范围:2422-2427
字数:86110000
是否译文:
发表时间:2013-11-01
第一作者:陈叶旺