基于詞對偽文檔的短文本主題模型研究
本文關鍵詞:基于詞對偽文檔的短文本主題模型研究
更多相關文章: 主題模型 主題聚類 機器學習 短文本 文本分析
【摘要】:隨著信息技術的不斷發(fā)展,人們每天都會面對超過自身接受范圍的信息量。因此對文本進行主題分類,并為人們推送特定的信息就成了一個熱門的研究議題。眾多在線社交平臺和在線新聞媒體出現在人們的生活之中,包括微博、新聞門戶、在線問答網站等。從這些網絡平臺和媒體上人們可以獲取各種短文本形式的文本數據,絕大多數的數據都是沒有類別的,因此短文本的主題自動聚類研究有非常廣闊的應用前景。理解這些短文本數據內潛在的主題結構是非常重要的。本文的工作圍繞短文本數據集上的主題聚類問題展開研究。針對短文本數據集的稀疏性問題,基于共現詞語能夠體現更多語義信息的思想,本文提出了一個基于詞共現網絡的詞對偽文檔主題模型(BPDTM)。本文在新聞標題和知乎問題標題數據集上進行主題聚合度、文本聚類和文本分類的實驗。實驗結果表明BPDTM模型表現優(yōu)于LDA和BTM模型,這證明了BPDTM模型在短文本主題聚類問題上是有效的。本文的主要工作有:1) 定義了詞共現網絡中的詞對三角關系,并據此構造詞對偽文檔集。2) 基于詞對偽文檔集,提出了針對短文本數據集的詞對偽文檔主題模型。3) 提出了一種降低模型時間開銷的方法,在保證了模型性能的基礎上,顯著減少模型運行時間。
【關鍵詞】:主題模型 主題聚類 機器學習 短文本 文本分析
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 中文摘要6-7
- 英文摘要7-12
- 第一章 緒論12-16
- 1.1 研究背景及意義12-13
- 1.2 論文的內容和貢獻13-14
- 1.3 論文組織結構14-16
- 第二章 背景知識16-26
- 2.1 引言16
- 2.2 背景知識16-20
- 2.2.1 詞袋模型16
- 2.2.2 詞權重計算16-18
- 2.2.3 詞語相似性度量18-19
- 2.2.4 潛在狄利克雷分配模型與吉布斯采樣19-20
- 2.3 研究現狀20-24
- 2.3.1 非概率主題模型21-22
- 2.3.2 概率主題模型22-23
- 2.3.3 短文本主題模型23-24
- 2.4 本章小結24-26
- 第三章 基于詞共現網絡的偽文檔構造26-36
- 3.1 引言26-27
- 3.2 詞共現網絡27-28
- 3.3 詞三角關系28-29
- 3.4 詞三角關系挖掘與偽文檔集構造29-31
- 3.4.1 詞三角關系挖掘29-30
- 3.4.2 偽文檔集構造30-31
- 3.5 偽文檔集規(guī)模削減算法31-35
- 3.5.1 主題模型時間復雜度分析31-33
- 3.5.2 偽文檔集規(guī)模削減算法33-35
- 3.6 本章小結35-36
- 第四章 詞對偽文檔集主題模型36-59
- 4.1 引言36-37
- 4.2 詞對偽文檔集主題模型37-41
- 4.2.1 詞對偽文檔集主題模型生成式算法37-40
- 4.2.2 原文檔主題判定40-41
- 4.3 BPDTM模型參數學習41-45
- 4.4 數據集與實驗設置45-49
- 4.4.1 數據集45-47
- 4.4.2 數據預處理47-49
- 4.4.3 實驗環(huán)境49
- 4.5 實驗對比和分析49-58
- 4.5.1 主題聚合度49-52
- 4.5.2 文本聚類52-56
- 4.5.3 文本分類56-58
- 4.6 本章小結58-59
- 第五章 總結與展望59-61
- 5.1 總結59-60
- 5.2 展望60-61
- 參考文獻61-64
- 致謝64-65
- 附錄65-66
【相似文獻】
中國期刊全文數據庫 前10條
1 何堯;張順淼;;利用未標識文檔提高中心分類法性能的研究[J];電腦知識與技術(學術交流);2007年16期
2 付劍波;王明文;羅遠勝;張華偉;;基于團模型的文檔重排算法研究[J];中文信息學報;2009年01期
3 陳釩;馮志勇;李曉紅;趙庚;;基于語言節(jié)奏的大規(guī)模文檔去重算法研究[J];計算機工程與應用;2011年11期
4 顏學雄;王清賢;;基于屬性的內部文檔訪問控制[J];計算機工程與設計;2009年05期
5 羅三定,馮元勇,沈德耀,賈維嘉;基于概念的文檔評價模型[J];計算機工程;2002年08期
6 毛存禮;余正濤;吳則建;郭劍毅;線巖團;;專家證據文檔識別無向圖模型[J];軟件學報;2013年11期
7 馬維亞;基于PDF文檔的網絡學習資源建設[J];長春理工大學學報;2004年04期
8 許繼紅;;淺談基于PDF文檔的網絡學習資源建設[J];天津職業(yè)院校聯合學報;2006年05期
9 安亮;;PDF文檔的網絡學習資源建設[J];科教文匯(下半月);2006年04期
10 鄭瑞銀;史曉紅;胡文偉;;談基于PDF文檔的網絡學習資源建設[J];科技廣場;2007年09期
中國重要會議論文全文數據庫 前9條
1 李立;何婷婷;瞿國忠;張勇;;基于文檔擴展的中文信息檢索系統(tǒng)[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
2 曹慧;;一種xml文檔相似性距離的計算方法[A];山東省計算機學會2005年信息技術與信息化研討會論文集(一)[C];2005年
3 沙蕓;周俊武;張國英;;基于主題關鍵詞的新聞去重算法[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
4 溫俊;陽國貴;;XML文檔集公共模式獲取技術研究[A];第二十屆全國數據庫學術會議論文集(技術報告篇)[C];2003年
5 張剛;王斌;程學旗;;基于鏈接的分布式信息檢索文檔劃分研究[A];第二屆全國信息檢索與內容安全學術會議(NCIRCS-2005)論文集[C];2005年
6 梁紅;李偉生;;XML文檔的并行聚類算法[A];第二十一屆中國數據庫學術會議論文集(技術報告篇)[C];2004年
7 楊潔;季鐸;蔡東風;白宇;;基于聯合權重的多文檔關鍵詞抽取技術[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
8 楊建武;陳曉鷗;;XML文檔集的聚類研究[A];第十八屆全國數據庫學術會議論文集(研究報告篇)[C];2001年
9 賈候萍;萬小軍;黃小江;楊建武;肖建國;;多文檔摘要系統(tǒng)中句子排序研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
中國重要報紙全文數據庫 前2條
1 ;中國軟件首個國際聯盟標準UOML誕生[N];網絡世界;2008年
2 Linux逍遙客;用好OpenOffice的細小功能[N];電腦報;2004年
中國博士學位論文全文數據庫 前4條
1 岳琳;文檔融合關鍵技術研究[D];吉林大學;2016年
2 李旭;基于指紋和語義知識表示的中文文檔復制檢測方法[D];燕山大學;2010年
3 劉喜平;XML文檔搜索中的查詢處理技術研究[D];江西財經大學;2010年
4 龔書;抽取式多文檔文摘的文本表示研究[D];北京交通大學;2013年
中國碩士學位論文全文數據庫 前10條
1 蔣瀾;基于詞對偽文檔的短文本主題模型研究[D];南京大學;2016年
2 岳大鵬;基于話題的多文檔文摘技術研究[D];國防科學技術大學;2011年
3 李延龍;基于查詢網絡的文檔推薦策略研究[D];東北大學;2011年
4 李旭;基于串匹配方法的文檔復制檢測系統(tǒng)研究[D];燕山大學;2006年
5 張志濤;基于參考文檔的信息檢索模型的研究[D];哈爾濱工業(yè)大學;2010年
6 管冬根;Web文檔中信息的獲取與表示研究[D];重慶大學;2003年
7 周丹;基于子主題的多文檔摘要關鍵技術研究[D];北京郵電大學;2008年
8 衡偉;面向多文檔摘要的主題建模方法研究[D];北京郵電大學;2014年
9 姚超;中文多文檔文摘關鍵技術研究[D];哈爾濱工業(yè)大學;2007年
10 李大任;基于參考文檔模型的個性化Web檢索研究[D];哈爾濱工業(yè)大學;2011年
,本文編號:795478
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/795478.html