基于詞嵌入文本聚類技術(shù)的研究與實現(xiàn)
本文關(guān)鍵詞:基于詞嵌入文本聚類技術(shù)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展和電子媒體的繁榮,新聞文本數(shù)據(jù)的規(guī)模日益增長,而對新聞文本的組織、摘要和瀏覽會花費大量的時間。為了保證新聞的時效性,同時讓讀者方便地獲取特定種類的新聞,并使新聞的閱讀量最大化,需要對大規(guī)模的新聞文檔集進行快速的分組。文本聚類技術(shù)做為一種非監(jiān)督的機器學(xué)習(xí)方法,能夠在沒有人工標注的情況下,對未分類的文本進行快速的初步分組,因此具有一定的靈活性和較高的自動化處理能力,故而使用文本聚類技術(shù)可以對大規(guī)模的新聞文本集進行有效地組織、摘要和導(dǎo)航。然而,傳統(tǒng)的基于詞袋模型(Bag of Words)的文本聚類方法可以根據(jù)詞頻統(tǒng)計信息等特征對文本中詞性進行加權(quán),區(qū)別特征貢獻度,但無法捕捉文本中詞匯的語義關(guān)系;基于主題模型的文本聚類方法可以捕捉到新聞中詞語與文章的共現(xiàn),提取新聞的隱含主題,卻不能捕捉詞與詞之間的共現(xiàn)關(guān)系;近年由Mikolov[1]等人提出的Skip-Gram方法通過統(tǒng)計詞與上下文的共現(xiàn),訓(xùn)練得到的詞向量能夠攜帶詞匯間的語義關(guān)聯(lián),在很多機器學(xué)習(xí)任務(wù)中表現(xiàn)優(yōu)秀,但卻無法處理漢語中約20%的多義詞、同義詞和近義詞對文本語義的影響;而且,流行的文本聚類方法大都在詞語、短語這樣短文本上進行聚類是表現(xiàn)較好,卻無法有效在新聞這樣的長文本上進行聚類。本文提出一個新的新聞文本聚類方法TDE-DC(Topic Document Embedding based Document Clustering),通過結(jié)合Skip-Gram模型、主題模型和TF-IDF加權(quán)方法的優(yōu)點,克服各模型單獨使用時的缺陷來獲得更好的新聞長文本聚類效果。TDE-DC文本聚類方法主要完成了如下工作:1)使用詞匯和詞匯所在文本的隱含主題一起作為輸入,通過Skip-Gram模型對上下文(Context)中的詞匯進行預(yù)測,從而得到同時攜帶詞匯間隱含語義關(guān)系和隱含主題的主題詞向量(Topic Word Embedding),即獲得了高質(zhì)量的詞向量表示,也有效地克服了漢語中高頻出現(xiàn)的多義詞、同義詞及近義詞對文本含義的特殊影響;2)以TF-IDF值為權(quán)重,將主題詞向量進行加權(quán)線性累加得到新聞文本的向量表示,即主題文檔向量(Topic Document Embedding),獲得了一種低維度的文本向量表示,有效地對長文本的向量表示進行了降維。3)使用主題文檔向量之間的余弦距離最為文本的相似度函數(shù),并利用傳統(tǒng)的聚類方法對新聞長文本向量進行聚類。實驗表明,使用TDEDC模型對新聞長文本聚類能夠獲得較為滿意的結(jié)果。
【關(guān)鍵詞】:TDE-DC 長文本聚類 LDA Skip-Gram TF-IDF
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第1章 緒論10-17
- 1.1 課題研究背景和意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-15
- 1.3 課題研究內(nèi)容15
- 1.4 論文組織結(jié)構(gòu)15-17
- 第2章 文本聚類的方法和過程17-28
- 2.1 引言17
- 2.2 文本預(yù)處理17-21
- 2.2.1 文本格式化18-19
- 2.2.2 文本分詞及詞性標注19
- 2.2.3 去停用詞和詞性過濾19-21
- 2.3 文本向量表示與特征降維21-26
- 2.3.1 文本向量表示21-22
- 2.3.2 特征降維(Dimensionality Reduction)22-23
- 2.3.3 詞袋模型與降維23-24
- 2.3.4 主題模型與降維24-26
- 2.4 常見文本聚類方法26-27
- 2.4.1 K-均值聚類(K-means)26
- 2.4.2 二分K均值聚類(Bisecting K-means)26-27
- 2.5 本章小節(jié)27-28
- 第3章 TDE-DC新聞文本聚類方法28-37
- 3.1 TDE-DC模型基本思想28-29
- 3.1.1 新聞長文本聚類的困難28-29
- 3.1.2 解決方法29
- 3.2 主題文檔向量TDE的獲取29-35
- 3.2.1 通過Skip-Gram獲取詞向量(Word Embedding)29-33
- 3.2.2 通過LDA獲取主題向量(Topic Embedding)33-34
- 3.2.3 主題詞向量TWE(Topic Word Embedding)34-35
- 3.2.4 主題文檔向量TDE(Topic Document Embedding)35
- 3.3 TDE-DC文本聚類35-36
- 3.3.2 聚類方法的選擇35-36
- 3.4 本章小結(jié)36-37
- 第4章 算法實現(xiàn)與實驗分析37-47
- 4.1 TDE-DC文本聚類的實現(xiàn)37-40
- 4.1.0 數(shù)據(jù)集38
- 4.1.1 預(yù)處理38-39
- 4.1.2 參數(shù)設(shè)定39-40
- 4.1.3 對比試驗40
- 4.2 文本聚類評估指標40-43
- 4.2.1 熵值(Entropy)40-41
- 4.2.2 純度(purity)41
- 4.2.3 標準化互信息(NMI)41
- 4.2.4 F值41-43
- 4.3 實驗分析43-46
- 4.3.1 實驗環(huán)境43
- 4.3.2 內(nèi)存使用測試43-44
- 4.3.3 訓(xùn)練消耗時間測試44
- 4.3.4 聚類效果分析44-46
- 4.4 本章小結(jié)46-47
- 第5章 總結(jié)和展望47-48
- 5.1 總結(jié)47
- 5.2 展望47-48
- 參考文獻48-51
- 致謝51-52
- 附錄52-54
- 附錄1計算所漢語詞性標記集52-53
- 附錄2常用的中文分詞工具53-54
- 附錄3停用詞庫54
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙亞琴;周獻中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計算機工程;2006年06期
2 劉務(wù)華;羅鐵堅;王文杰;;文本聚類技術(shù)的有效性驗證[J];計算機工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評價的研究[J];山東理工大學(xué)學(xué)報(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報;2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報;2008年02期
7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計算機應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 王明文;付劍波;羅遠勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
7 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進Single-Pass算法的熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
本文關(guān)鍵詞:基于詞嵌入文本聚類技術(shù)的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:441132
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/441132.html