LDA模型下不同分詞方法對文本分類性能的影響研究
[Abstract]:By defining three indexes of clustering density, class complexity and class clarity, the paper studies the influence of several representative Chinese word segmentation methods on text classification performance under the implicit probability topic model (LDA) from the perspective of corpus information measurement. This paper quantitatively and qualitatively analyzes the applicability of different word segmentation methods in the corpus of different types of texts, such as web pages and academic documents, and the reasons that affect the classification performance. The results show that the three indexes can effectively indicate the influence of word segmentation on the classification of corpus. Ik Analyzer and ICTCLAS participle are influenced by the class complexity and cluster density respectively, while the binary participle is equally affected by the three indexes. So that it has better adaptability to different corpus. For the corpus of academic literature, the classification effect of binary participle method is better than 80%, while the data of web page type is more adaptable to all kinds of word segmentation methods. This paper attempts to choose the best word segmentation method to improve the classification performance of the corpus by measuring the information of the corpus rather than simply experimenting. It is expected to provide a reference for different types of text such as web pages and academic documents to select suitable Chinese word segmentation methods in the classification system based on LDA model.
【作者單位】: 武漢大學信息管理學院;武漢大學信息資源研究中心;
【基金】:國家社會科學基金資助項目(15BTQ066)
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 張江;基于規(guī)則的分詞方法[J];計算機與現(xiàn)代化;2005年04期
2 楊柳;袁方;霍亮;;基于漸進式豐富詞典的分詞方法研究[J];計算機工程與應(yīng)用;2006年32期
3 彭正龍;許炎義;;一種新的詞典分詞方法[J];計算機與信息技術(shù);2009年12期
4 傅賽香,袁鼎榮,黃柏雄,鐘智;基于統(tǒng)計的無詞典分詞方法[J];廣西科學院學報;2002年04期
5 張聰品;趙理莉;吳長茂;;基于字詞分類的層次分詞方法[J];計算機應(yīng)用;2010年08期
6 李斌;陳小荷;;面向中文陌生文本的人機交互式分詞方法[J];中文信息學報;2007年03期
7 高軍,陳錫先;無監(jiān)督的動態(tài)分詞方法[J];北京郵電大學學報;1997年04期
8 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計的分詞方法[J];計算機工程與應(yīng)用;2008年10期
9 王忠建;王悅;;歸納學習與規(guī)則結(jié)合的分詞方法的有效性考察[J];哈爾濱師范大學自然科學學報;2010年01期
10 徐秉錚,詹劍,賀前華;基于神經(jīng)網(wǎng)絡(luò)的分詞方法[J];中文信息學報;1993年02期
相關(guān)會議論文 前4條
1 王俞霖;孫樂;李文波;;基于單字消除和實體識別的查詢切分研究[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
2 張玉連;張敏;張波;;一種無詞典分詞方法的分析與研究[A];第二十二屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2005年
3 李斌;陳小荷;;面向中文陌生文本的人機交互式分詞方法[A];第三屆學生計算語言學研討會論文集[C];2006年
4 趙偉;路永剛;吳瓊;;一種新的基于BMM和RMM分詞方法的研究與實現(xiàn)[A];第二十三屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2006年
相關(guān)碩士學位論文 前7條
1 周利軍;中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究[D];四川農(nóng)業(yè)大學;2015年
2 石金銘;面向微博文本的分詞及情感分析研究[D];鄭州大學;2016年
3 李慧;詞典與統(tǒng)計相結(jié)合的傣文分詞方法與實現(xiàn)[D];云南大學;2016年
4 游治勇;基于字的分詞方法的研究與實現(xiàn)[D];電子科技大學;2015年
5 李衛(wèi)紅;一種新的并發(fā)分詞算法的研究與實現(xiàn)[D];山東大學;2005年
6 劉浩;面向情感搜索的中文語料分析及其分詞[D];北京郵電大學;2014年
7 田占霄;中英文混合分詞方法及應(yīng)用研究[D];河北農(nóng)業(yè)大學;2009年
,本文編號:2144437
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2144437.html