基于詞對偽文檔的短文本主題模型研究

發(fā)布時間：2017-09-05 03:12

本文關(guān)鍵詞：基于詞對偽文檔的短文本主題模型研究

【摘要】：隨著信息技術(shù)的不斷發(fā)展,人們每天都會面對超過自身接受范圍的信息量。因此對文本進(jìn)行主題分類,并為人們推送特定的信息就成了一個熱門的研究議題。眾多在線社交平臺和在線新聞媒體出現(xiàn)在人們的生活之中,包括微博、新聞門戶、在線問答網(wǎng)站等。從這些網(wǎng)絡(luò)平臺和媒體上人們可以獲取各種短文本形式的文本數(shù)據(jù),絕大多數(shù)的數(shù)據(jù)都是沒有類別的,因此短文本的主題自動聚類研究有非常廣闊的應(yīng)用前景。理解這些短文本數(shù)據(jù)內(nèi)潛在的主題結(jié)構(gòu)是非常重要的。本文的工作圍繞短文本數(shù)據(jù)集上的主題聚類問題展開研究。針對短文本數(shù)據(jù)集的稀疏性問題,基于共現(xiàn)詞語能夠體現(xiàn)更多語義信息的思想,本文提出了一個基于詞共現(xiàn)網(wǎng)絡(luò)的詞對偽文檔主題模型(BPDTM)。本文在新聞標(biāo)題和知乎問題標(biāo)題數(shù)據(jù)集上進(jìn)行主題聚合度、文本聚類和文本分類的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明BPDTM模型表現(xiàn)優(yōu)于LDA和BTM模型,這證明了BPDTM模型在短文本主題聚類問題上是有效的。本文的主要工作有：1) 定義了詞共現(xiàn)網(wǎng)絡(luò)中的詞對三角關(guān)系,并據(jù)此構(gòu)造詞對偽文檔集。2) 基于詞對偽文檔集,提出了針對短文本數(shù)據(jù)集的詞對偽文檔主題模型。3) 提出了一種降低模型時間開銷的方法,在保證了模型性能的基礎(chǔ)上,顯著減少模型運(yùn)行時間。
【關(guān)鍵詞】：主題模型 主題聚類 機(jī)器學(xué)習(xí) 短文本 文本分析
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1
【目錄】：

中文摘要6-7
英文摘要7-12
第一章緒論12-16
1.1 研究背景及意義12-13
1.2 論文的內(nèi)容和貢獻(xiàn)13-14
1.3 論文組織結(jié)構(gòu)14-16
第二章背景知識16-26
2.1 引言16
2.2 背景知識16-20
2.2.1 詞袋模型16
2.2.2 詞權(quán)重計(jì)算16-18
2.2.3 詞語相似性度量18-19
2.2.4 潛在狄利克雷分配模型與吉布斯采樣19-20
2.3 研究現(xiàn)狀20-24
2.3.1 非概率主題模型21-22
2.3.2 概率主題模型22-23
2.3.3 短文本主題模型23-24
2.4 本章小結(jié)24-26
第三章基于詞共現(xiàn)網(wǎng)絡(luò)的偽文檔構(gòu)造26-36
3.1 引言26-27
3.2 詞共現(xiàn)網(wǎng)絡(luò)27-28
3.3 詞三角關(guān)系28-29
3.4 詞三角關(guān)系挖掘與偽文檔集構(gòu)造29-31
3.4.1 詞三角關(guān)系挖掘29-30
3.4.2 偽文檔集構(gòu)造30-31
3.5 偽文檔集規(guī)模削減算法31-35
3.5.1 主題模型時間復(fù)雜度分析31-33
3.5.2 偽文檔集規(guī)模削減算法33-35
3.6 本章小結(jié)35-36
第四章詞對偽文檔集主題模型36-59
4.1 引言36-37
4.2 詞對偽文檔集主題模型37-41
4.2.1 詞對偽文檔集主題模型生成式算法37-40
4.2.2 原文檔主題判定40-41
4.3 BPDTM模型參數(shù)學(xué)習(xí)41-45
4.4 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置45-49
4.4.1 數(shù)據(jù)集45-47
4.4.2 數(shù)據(jù)預(yù)處理47-49
4.4.3 實(shí)驗(yàn)環(huán)境49
4.5 實(shí)驗(yàn)對比和分析49-58
4.5.1 主題聚合度49-52
4.5.2 文本聚類52-56
4.5.3 文本分類56-58
4.6 本章小結(jié)58-59
第五章總結(jié)與展望59-61
5.1 總結(jié)59-60
5.2 展望60-61
參考文獻(xiàn)61-64
致謝64-65
附錄65-66

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 何堯;張順淼;;利用未標(biāo)識文檔提高中心分類法性能的研究[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年16期

2 付劍波;王明文;羅遠(yuǎn)勝;張華偉;;基于團(tuán)模型的文檔重排算法研究[J];中文信息學(xué)報;2009年01期

3 陳釩;馮志勇;李曉紅;趙庚;;基于語言節(jié)奏的大規(guī)模文檔去重算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年11期

4 顏學(xué)雄;王清賢;;基于屬性的內(nèi)部文檔訪問控制[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年05期

5 羅三定,馮元勇,沈德耀,賈維嘉;基于概念的文檔評價模型[J];計(jì)算機(jī)工程;2002年08期

6 毛存禮;余正濤;吳則建;郭劍毅;線巖團(tuán);;專家證據(jù)文檔識別無向圖模型[J];軟件學(xué)報;2013年11期

7 馬維亞;基于PDF文檔的網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)[J];長春理工大學(xué)學(xué)報;2004年04期

8 許繼紅;;淺談基于PDF文檔的網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)[J];天津職業(yè)院校聯(lián)合學(xué)報;2006年05期

9 安亮;;PDF文檔的網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)[J];科教文匯(下半月);2006年04期

10 鄭瑞銀;史曉紅;胡文偉;;談基于PDF文檔的網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)[J];科技廣場;2007年09期

中國重要會議論文全文數(shù)據(jù)庫前9條

1 李立;何婷婷;瞿國忠;張勇;;基于文檔擴(kuò)展的中文信息檢索系統(tǒng)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

2 曹慧;;一種xml文檔相似性距離的計(jì)算方法[A];山東省計(jì)算機(jī)學(xué)會2005年信息技術(shù)與信息化研討會論文集（一）[C];2005年

3 沙蕓;周俊武;張國英;;基于主題關(guān)鍵詞的新聞去重算法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集（上）[C];2008年

4 溫俊;陽國貴;;XML文檔集公共模式獲取技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報告篇）[C];2003年

5 張剛;王斌;程學(xué)旗;;基于鏈接的分布式信息檢索文檔劃分研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議（NCIRCS-2005）論文集[C];2005年

6 梁紅;李偉生;;XML文檔的并行聚類算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報告篇）[C];2004年

7 楊潔;季鐸;蔡東風(fēng);白宇;;基于聯(lián)合權(quán)重的多文檔關(guān)鍵詞抽取技術(shù)[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會會議論文集[C];2008年

8 楊建武;陳曉鷗;;XML文檔集的聚類研究[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報告篇）[C];2001年

9 賈候萍;萬小軍;黃小江;楊建武;肖建國;;多文檔摘要系統(tǒng)中句子排序研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集（上）[C];2008年

中國重要報紙全文數(shù)據(jù)庫前2條

1 ;中國軟件首個國際聯(lián)盟標(biāo)準(zhǔn)UOML誕生[N];網(wǎng)絡(luò)世界;2008年

2 Linux逍遙客;用好OpenOffice的細(xì)小功能[N];電腦報;2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫前4條

1 岳琳;文檔融合關(guān)鍵技術(shù)研究[D];吉林大學(xué);2016年

2 李旭;基于指紋和語義知識表示的中文文檔復(fù)制檢測方法[D];燕山大學(xué);2010年

3 劉喜平;XML文檔搜索中的查詢處理技術(shù)研究[D];江西財經(jīng)大學(xué);2010年

4 龔書;抽取式多文檔文摘的文本表示研究[D];北京交通大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 蔣瀾;基于詞對偽文檔的短文本主題模型研究[D];南京大學(xué);2016年

2 岳大鵬;基于話題的多文檔文摘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

3 李延龍;基于查詢網(wǎng)絡(luò)的文檔推薦策略研究[D];東北大學(xué);2011年

4 李旭;基于串匹配方法的文檔復(fù)制檢測系統(tǒng)研究[D];燕山大學(xué);2006年

5 張志濤;基于參考文檔的信息檢索模型的研究[D];哈爾濱工業(yè)大學(xué);2010年

6 管冬根;Web文檔中信息的獲取與表示研究[D];重慶大學(xué);2003年

7 周丹;基于子主題的多文檔摘要關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2008年

8 衡偉;面向多文檔摘要的主題建模方法研究[D];北京郵電大學(xué);2014年

9 姚超;中文多文檔文摘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

10 李大任;基于參考文檔模型的個性化Web檢索研究[D];哈爾濱工業(yè)大學(xué);2011年

，

本文編號：795478

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/795478.html

上一篇：高速鐵路GIS平臺研究與實(shí)現(xiàn)
下一篇：圖書館應(yīng)用RFID的安全防護(hù)技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于詞對偽文檔的短文本主題模型研究