Supervisor of Master's Candidates
Hits:
Journal:小型微型计算机系统
Place of Publication:中国科学院沈阳计算技术研究所
Key Words:网络文本 百度百科 语义主题
Abstract:网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Naïve Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现.
Page Number:2422-2427
Number of Words:86110000
Translation or Not:no
Date of Publication:2013-11-01
First Author:Chen Yewang