基于短語(yǔ)主題模型和多文檔自動(dòng)摘要技術(shù)的文獻(xiàn)綜述內(nèi)容推薦
發(fā)布時(shí)間:2017-10-14 12:15
本文關(guān)鍵詞:基于短語(yǔ)主題模型和多文檔自動(dòng)摘要技術(shù)的文獻(xiàn)綜述內(nèi)容推薦
更多相關(guān)文章: 信息檢索 文獻(xiàn)綜述內(nèi)容推薦 短語(yǔ)主題挖掘 多文檔自動(dòng)摘要
【摘要】:互聯(lián)網(wǎng)信息資源的快速增長(zhǎng)對(duì)信息檢索領(lǐng)域的研究和應(yīng)用提出了極大的挑戰(zhàn)。信息檢索,特別是對(duì)檢索結(jié)果的處理工作越來(lái)越受到學(xué)者們的重視。如何幫助用戶更快地、更有效地進(jìn)行信息獲取是一個(gè)值得研究和深入的話題。學(xué)術(shù)文獻(xiàn)是一種相比其他如新聞文章,博客,網(wǎng)頁(yè)等包含信息更加標(biāo)準(zhǔn)和豐富的資源。對(duì)從網(wǎng)絡(luò)上得到的大量學(xué)術(shù)文獻(xiàn)中進(jìn)行快速有效的信息獲取,對(duì)學(xué)者們而言是具有重大的價(jià)值和意義的。本文搭建的文獻(xiàn)綜述系統(tǒng)旨在為用戶提供一個(gè)方便的文獻(xiàn)資源利用平臺(tái),中英文文獻(xiàn)資源檢索、文獻(xiàn)檢索結(jié)果可視化分析和人機(jī)協(xié)同綜述撰寫等服務(wù)。其中文獻(xiàn)資源檢索是利用開源工具Lucene對(duì)從網(wǎng)絡(luò)文獻(xiàn)數(shù)據(jù)庫(kù)下載的文獻(xiàn)數(shù)據(jù)創(chuàng)建索引從而提供檢索支持。而檢索結(jié)果可視化分析是對(duì)檢索結(jié)果的文獻(xiàn)列表的元數(shù)據(jù)分析和統(tǒng)計(jì),通過(guò)可視化展示為用戶提供一個(gè)文獻(xiàn)隨時(shí)間、地域、熱點(diǎn)等因素的如何變化的視角。在人機(jī)協(xié)同綜述撰寫中,通過(guò)提供綜述參考目錄和參考內(nèi)容來(lái)輔助用戶綜述的撰寫。綜述參考目錄是利用對(duì)檢索結(jié)果聚類的工具carrot2提供簡(jiǎn)單的綜述參考目錄。綜述參考內(nèi)容是本文介紹的重點(diǎn)部分,主要是通過(guò)短語(yǔ)主題建模來(lái)實(shí)現(xiàn)文獻(xiàn)文檔中與用戶提供的主題相關(guān)的參考內(nèi)容推薦服務(wù)。本文在短語(yǔ)主題模型PhraseLDA的基礎(chǔ)上進(jìn)行改進(jìn),使用SmoothPhraseLDA計(jì)算文檔中句子的主題權(quán)重,并在SumBasic多文檔自動(dòng)摘要算法基礎(chǔ)上完成了文獻(xiàn)綜述參考內(nèi)容推薦的功能。
【關(guān)鍵詞】:信息檢索 文獻(xiàn)綜述內(nèi)容推薦 短語(yǔ)主題挖掘 多文檔自動(dòng)摘要
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-10
- 第1章 緒論10-17
- 1.1 課題背景10-11
- 1.2 信息檢索11-12
- 1.3 多文檔自動(dòng)摘要12-13
- 1.4 本文的主要工作13-15
- 1.5 本文的組織結(jié)構(gòu)15-16
- 1.6 本章小結(jié)16-17
- 第2章 主題模型相關(guān)研究17-27
- 2.1 主題模型的提出與發(fā)展17-18
- 2.2 概率隱性語(yǔ)義分析模型18-21
- 2.3 LDA模型21-26
- 2.3.1 LDA模型表示21-23
- 2.3.2 LDA參數(shù)估計(jì)23-24
- 2.3.3 LDA模型的擴(kuò)展24-26
- 2.4 主題模型評(píng)價(jià)標(biāo)準(zhǔn)26
- 2.4.1 Perplexity26
- 2.5 本章小結(jié)26-27
- 第3章 文檔自動(dòng)摘要相關(guān)研究27-37
- 3.1 單文檔自動(dòng)摘要27-29
- 3.2 多文檔自動(dòng)摘要29-33
- 3.2.1 信息混合摘要30
- 3.2.2 主題驅(qū)動(dòng)的摘要和MMR30-31
- 3.2.3 基于Centroid的摘要31
- 3.2.4 基于句子壓縮的多文檔摘要31-33
- 3.3 國(guó)內(nèi)文檔自動(dòng)摘要的研究33-34
- 3.4 文檔自動(dòng)摘要的評(píng)價(jià)標(biāo)準(zhǔn)34-36
- 3.4.1 文檔摘要自動(dòng)評(píng)價(jià)方法34-36
- 3.5 本章小結(jié)36-37
- 第4章 平滑的PhraseLDA主題建模37-49
- 4.1 短語(yǔ)主題模型PhraseLDA38-42
- 4.1.1 頻率短語(yǔ)挖掘38
- 4.1.2 基于短語(yǔ)袋假設(shè)的PhraseLDA主題建模38-41
- 4.1.3 PhraseLDA的缺點(diǎn)41-42
- 4.2 平滑的參數(shù)估計(jì)的短語(yǔ)主題模型SmoothPhraseLDA42
- 4.3 實(shí)驗(yàn)結(jié)果42-48
- 4.3.1 Perplexity43-45
- 4.3.2 Perplexity+45-46
- 4.3.3 主題結(jié)果質(zhì)量評(píng)估46-48
- 4.4 本章小結(jié)48-49
- 第5章 基于短語(yǔ)主題建模的多文檔自動(dòng)摘要49-56
- 5.1 SumBasic文檔自動(dòng)摘要生成算法49-50
- 5.2 基于主題的文檔自動(dòng)摘要技術(shù)50
- 5.3 綜合SmoothPhraseLDA與SumBasic的綜述內(nèi)容推薦50-53
- 5.3.1 基于SmoothPhraseLDA的主題權(quán)重計(jì)算51-52
- 5.3.2 基于SumBasic算法的綜述內(nèi)容推薦52
- 5.3.3 適用于應(yīng)用的綜述內(nèi)容推薦算法52-53
- 5.4 語(yǔ)句壓縮和精簡(jiǎn)53
- 5.5 實(shí)驗(yàn)結(jié)果53-55
- 5.6 本章小結(jié)55-56
- 第6章 文獻(xiàn)綜述系統(tǒng)的實(shí)現(xiàn)56-66
- 6.1 文獻(xiàn)檢索56-58
- 6.1.1 文獻(xiàn)數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)56-58
- 6.2 文獻(xiàn)檢索服務(wù)58-61
- 6.2.1 關(guān)鍵詞檢索58-61
- 6.3 檢索結(jié)果可視化服務(wù)61-63
- 6.4 人機(jī)協(xié)同綜述系統(tǒng)63-65
- 6.5 本章小結(jié)65-66
- 第7章 總結(jié)與展望66-67
- 7.1 總結(jié)66
- 7.2 展望66-67
- 參考文獻(xiàn)67-71
- 攻讀碩士學(xué)位期間主要的研究成果71-72
- 致謝72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;主題模型LDA的多文檔自動(dòng)文摘[J];智能系統(tǒng)學(xué)報(bào);2010年02期
2 鄭義,黃萱菁,吳立德;文本自動(dòng)綜述系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;2003年11期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 趙林;面向查詢的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 劉紅艷;基于hLDA層次主題模型的多文檔摘要技術(shù)研究[D];北京郵電大學(xué);2012年
,本文編號(hào):1031000
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1031000.html
最近更新
教材專著