天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

融合HowNet和BTM模型的短文本聚類方法

發(fā)布時間:2019-06-14 07:58
【摘要】:針對常規(guī)技術對短文本聚類時出現(xiàn)的相似度計算準確度較差、聚類結果不穩(wěn)定等問題,提出一種以HowNet語義詞庫和BTM主題建模為基礎的相似度計算方法,將兩者進行線性組合,綜合考察短文本的相似性。建立基于聚類質(zhì)量和聚類差異度的聚類結果評價指標,進行優(yōu)劣評價,過濾出質(zhì)量較好的結果,利用CSPA融合算法進行聚類融合。實驗結果表明,該方法提高了短文本相似度計算的準確性,改進了融合結果穩(wěn)定性。
[Abstract]:In order to solve the problems of poor accuracy and unstable clustering results in short text clustering by conventional techniques, a similarity calculation method based on HowNet semantic thesaurus and BTM topic modeling is proposed, which combines them linearly to comprehensively investigate the similarity of short texts. The evaluation index of clustering results based on clustering quality and clustering difference is established, the advantages and disadvantages are evaluated, the results with good quality are filtered out, and the CSPA fusion algorithm is used for clustering fusion. The experimental results show that the method improves the accuracy of similarity calculation of short text and improves the stability of fusion results.
【作者單位】: 武昌理工學院信息工程學院;武漢大學計算機學院;
【基金】:湖北省自然科學基金項目(2014CFB356)
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 趙亞琴;周獻中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計算機工程;2006年06期

2 劉務華;羅鐵堅;王文杰;;文本聚類技術的有效性驗證[J];計算機工程;2007年01期

3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領域的計量研究[J];科學學研究;2007年S1期

4 孫愛香;楊鑫華;;關于文本聚類有效性評價的研究[J];山東理工大學學報(自然科學版);2007年05期

5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學報;2007年06期

6 吳啟明;易云飛;;文本聚類綜述[J];河池學院學報;2008年02期

7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計算機應用;2008年09期

8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期

9 章成志;;文本聚類結果描述研究綜述[J];現(xiàn)代圖書情報技術;2009年02期

10 馬娜;;文本聚類研究[J];電腦知識與技術;2009年20期

相關會議論文 前10條

1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學生計算語言學研討會論文集[C];2006年

2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學術會議(NCIRCS-2005)論文集[C];2005年

3 胡吉祥;許洪波;劉悅;王斌;程學旗;;基于重復串的短文本聚類研究[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應用[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年

5 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

6 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年

7 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學基金委員會管理科學部宏觀管理與政策學科青年基金獲得者交流研討會論文集[C];2010年

8 邱立坤;程葳;龍志yN;孫嬌華;;面向BBS的話題挖掘初探[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

9 羅娜;左萬利;袁福宇;張靖波;張慧杰;;使用本體語義提高文本聚類(英文)[A];全國語域web與本體能研討會論文集[C];2006年

10 孫承杰;朱文煥;林磊;劉遠超;;BBS短文本聚類技術研究[A];第五屆全國信息檢索學術會議論文集[C];2009年

相關博士學位論文 前3條

1 徐森;文本聚類集成關鍵技術研究[D];哈爾濱工程大學;2010年

2 高茂庭;文本聚類分析若干問題研究[D];天津大學;2007年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年

相關碩士學位論文 前10條

1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡輿情管理研究[D];西南交通大學;2015年

2 張培偉;基于改進Single-Pass算法的熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];華中師范大學;2015年

3 郭士串;結合權重因子與特征向量的文本聚類研究與應用[D];江西理工大學;2015年

4 邵明來;中文文本聚類關鍵技術研究[D];廣西大學;2015年

5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學;2015年

6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學;2015年

7 樊兆欣;個性化新聞推薦系統(tǒng)關鍵技術研究與實現(xiàn)[D];北京理工大學;2015年

8 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];復旦大學;2014年

9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學;2015年

10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡輿情分析系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2014年



本文編號:2499242

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2499242.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ed642***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com