陈叶旺Chen Yewang

硕士生导师

性别:男

学历:博士研究生

学位:理学博士学位

入职时间:2009-08-11

办公地点:机电实验大楼 A409

电子邮箱:

在职信息:在岗

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于百度百科与文本分类的网络文本语义主题抽取方法

发表时间:2011-11-02 点击次数:

发表刊物:小型微型计算机系统
刊物所在地:中国科学院沈阳计算技术研究所
关键字:百度百科,语义主题,主题抽取,语义离散度
摘要:网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘. 百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
页面范围:2605-2610
字数:71770000
是否译文:
发表时间:2011-11-02
第一作者:陈锻生,李海波,钟必能,王华珍,陈叶旺