天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于語義相關(guān)度的中文文本聚類方法研究

發(fā)布時(shí)間:2017-07-03 16:02

  本文關(guān)鍵詞:基于語義相關(guān)度的中文文本聚類方法研究


  更多相關(guān)文章: 維基百科 語義相關(guān)度 文本相似度 文本聚類


【摘要】:[目的/意義]在基于向量空間模型的文本聚類中,文本相似度計(jì)算忽略特征項(xiàng)間語義關(guān)聯(lián),針對此問題,提出一種改進(jìn)的語義文本相似度計(jì)算方法。[方法/過程]新方法利用維基百科知識(shí)庫計(jì)算語義相關(guān)度,結(jié)合特征項(xiàng)在文本中的表示權(quán)重,構(gòu)造文本相似度語義加權(quán)因子,并進(jìn)行K-means文本聚類實(shí)驗(yàn)。[結(jié)果/結(jié)論]與傳統(tǒng)的余弦相似度相比,改進(jìn)后的語義文本相似度應(yīng)用在文本聚類上,能有效提高聚類的準(zhǔn)確度。[局限]語義相關(guān)度的計(jì)算沒有對詞語進(jìn)行消歧處理。
【作者單位】: 西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院;
【關(guān)鍵詞】維基百科 語義相關(guān)度 文本相似度 文本聚類
【基金】:國家自然科學(xué)基金項(xiàng)目“基于復(fù)雜網(wǎng)絡(luò)的中文文本語義相似度研究”的成果,項(xiàng)目編號(hào):71373200
【分類號(hào)】:TP391.1
【正文快照】: 隨著網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展以及計(jì)算機(jī)的普及應(yīng)用,網(wǎng)絡(luò)社會(huì)產(chǎn)生了海量的數(shù)據(jù)信息。作為國內(nèi)互聯(lián)網(wǎng)文檔信息的主要內(nèi)容形式,中文文本的信息處理能夠幫助用戶快速、準(zhǔn)確獲得所需信息。通過聚類可以有效地管理文本數(shù)據(jù),而文本間相似性度量是文本聚類的重要基礎(chǔ)。文本相似度通過

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計(jì)量研究[J];科學(xué)學(xué)研究;2007年S1期

2 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報(bào);2007年06期

3 馬娜;;文本聚類研究[J];電腦知識(shí)與技術(shù);2009年20期

4 王崇國;;以事件為特征的文本聚類方法[J];計(jì)算機(jī)應(yīng)用與軟件;2010年08期

5 王利峰;;動(dòng)態(tài)索引樹文本聚類方法中節(jié)點(diǎn)閥值的優(yōu)化[J];電腦開發(fā)與應(yīng)用;2010年09期

6 高松;馮志偉;;基于依存樹庫的文本聚類研究[J];中文信息學(xué)報(bào);2011年03期

7 曲超;潘曉衡;朱君;蔡少仲;胡天明;;基于單詞超團(tuán)的文本聚類方法[J];計(jì)算機(jī)工程;2011年11期

8 周揚(yáng);屈武斌;盧一鳴;張成崗;楊毅;;基于文本頻譜的中文文本聚類方法[J];四川大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期

9 明均仁;;基于本體圖的文本聚類模型研究[J];情報(bào)科學(xué);2013年02期

10 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[J];中文信息學(xué)報(bào);2007年02期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

7 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

8 王樂;田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

9 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年

10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會(huì)管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會(huì)論文集[C];2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年


  本文關(guān)鍵詞:基于語義相關(guān)度的中文文本聚類方法研究


  更多相關(guān)文章: 維基百科 語義相關(guān)度 文本相似度 文本聚類




本文編號(hào):514252

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/514252.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e2393***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com