面向新聞文檔的自動(dòng)微博生成算法研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-10-13 11:35
本文關(guān)鍵詞:面向新聞文檔的自動(dòng)微博生成算法研究與實(shí)現(xiàn)
更多相關(guān)文章: 自動(dòng)微博生成 潛在語(yǔ)義分析 奇異值分解 關(guān)鍵短語(yǔ)提取 自動(dòng)微博評(píng)估
【摘要】:網(wǎng)上每天產(chǎn)生巨量新聞,普通用戶不容易通過(guò)手機(jī)瀏覽這些信息。從海量新聞信息中找到自己感興趣的信息非常耗時(shí),因此我們迫切需要有效的壓縮工具對(duì)大量信息進(jìn)行提煉、濃縮。文本的總結(jié)不僅可以壓縮文本信息,而且可以支持文本的其它處理,如信息存儲(chǔ)、信息檢索和數(shù)據(jù)挖掘等。本文在面向新聞文檔的總結(jié)技術(shù)的基礎(chǔ)上,為了提高用戶閱覽和選擇感興趣信息的效率,提出新聞文檔自動(dòng)生成微博這一全新概念,采用不同方法實(shí)現(xiàn)生成微博,并利用不同方式進(jìn)行對(duì)比分析。本文主要內(nèi)容和貢獻(xiàn)如下:第一,提出面向新聞文檔的自動(dòng)生成微博的概念。通過(guò)文本信息處理,并生成不超過(guò)140字的主題后,人們只需閱讀少量信息就能確定是否需要進(jìn)行全文閱覽,這將大大提高人們獲取電子文本信息的效率。第二,本文探索了面向中文新聞文檔自動(dòng)總結(jié)技術(shù)的研究。通過(guò)對(duì)現(xiàn)階段幾種流行的自動(dòng)總結(jié)技術(shù),如基于統(tǒng)計(jì)的自動(dòng)總結(jié),基于自然語(yǔ)言理解的文檔總結(jié),得到它們自身的優(yōu)點(diǎn)和缺點(diǎn),并在此基礎(chǔ)上提出采用基于關(guān)鍵短語(yǔ)自動(dòng)生成微博。提取出能夠代表和抽象原文的關(guān)鍵詞短語(yǔ)為第一級(jí)總結(jié),根據(jù)生成的關(guān)鍵短語(yǔ)選擇總結(jié)性句子作為微博。第三,采用基于潛在語(yǔ)義分析模型生成微博。這種方法識(shí)別語(yǔ)義重要的句子來(lái)創(chuàng)建微博,努力選擇具有較高排序分?jǐn)?shù),且彼此不同的句子。嘗試創(chuàng)建對(duì)文檔主要內(nèi)容有較大覆蓋范圍且較小冗余度的微博。對(duì)由不同模型生成的微博結(jié)果采用不同的方法進(jìn)行比較和分析。第四,實(shí)現(xiàn)新聞文檔的自動(dòng)微博生成系統(tǒng)。實(shí)現(xiàn)了兩種自動(dòng)生成微博的方法,方面,采用基于統(tǒng)計(jì)方法生成關(guān)鍵概念作為文檔的第一級(jí)別的總結(jié),然后根據(jù)關(guān)鍵概念和句子之間的關(guān)系選擇總結(jié)性的句子作為微博。另一方面,采用基于潛在語(yǔ)義分析方法提取潛在重要的句子作為微博結(jié)果。
【關(guān)鍵詞】:自動(dòng)微博生成 潛在語(yǔ)義分析 奇異值分解 關(guān)鍵短語(yǔ)提取 自動(dòng)微博評(píng)估
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1;TP393.092
【目錄】:
- 摘要6-7
- Abstract7-11
- 第1章 緒論11-16
- 1.1 課題的研究背景和意義11-12
- 1.2 文檔的自動(dòng)微博生成12-14
- 1.2.1 文本自動(dòng)微博生成研究現(xiàn)狀12-13
- 1.2.2 典型自動(dòng)微博系統(tǒng)分析13-14
- 1.3 本文的主要內(nèi)容和結(jié)構(gòu)安排14-16
- 第2章 自動(dòng)微博生成綜述16-22
- 2.1 自動(dòng)微博生成定義16
- 2.2 自動(dòng)微博生成影響因素16-18
- 2.3 自動(dòng)生成微博評(píng)價(jià)方法18-19
- 2.4 文本預(yù)處理技術(shù)19
- 2.5 自動(dòng)微博生成研究中的關(guān)鍵技術(shù)19-21
- 2.6 本章小結(jié)21-22
- 第3章 基于關(guān)鍵短語(yǔ)自動(dòng)生成微博22-34
- 3.1 關(guān)鍵短語(yǔ)生成22-25
- 3.1.1 候選關(guān)鍵短語(yǔ)選擇22-24
- 3.1.2 候選關(guān)鍵短語(yǔ)權(quán)重計(jì)算24-25
- 3.1.3 關(guān)鍵短語(yǔ)提取25
- 3.2 基于關(guān)鍵短語(yǔ)生成微博25-29
- 3.2.1 微博句子選擇26-27
- 3.2.2 基于關(guān)鍵短語(yǔ)生成微博的詳細(xì)算法27-28
- 3.2.3 候選句子位置閾值選擇28-29
- 3.3 實(shí)驗(yàn)結(jié)果29-33
- 3.3.1 數(shù)據(jù)集29-30
- 3.3.2 微博生成效果的評(píng)價(jià)方法30
- 3.3.3 基于關(guān)鍵短語(yǔ)自動(dòng)生成微博算法分析30-33
- 3.4 本章小結(jié)33-34
- 第4章 基于LSA自動(dòng)微博生成34-55
- 4.1 基于LSA的自動(dòng)生成微博算法框架34-35
- 4.2 潛在語(yǔ)義分析(LSA)技術(shù)35-39
- 4.2.1 文本的矩陣表示36
- 4.2.2 奇異值分解36-38
- 4.2.3 潛在語(yǔ)義空間定義38-39
- 4.3 詞項(xiàng)權(quán)重計(jì)算模型39-42
- 4.3.1 詞項(xiàng)權(quán)重的定義39-40
- 4.3.2 權(quán)重計(jì)算方法40-42
- 4.4 基于LSA生成微博技術(shù)42-45
- 4.4.1 文本分析與權(quán)重計(jì)算42-43
- 4.4.2 語(yǔ)義分析43-44
- 4.4.3 自動(dòng)微博生成44-45
- 4.5 實(shí)驗(yàn)結(jié)果45-53
- 4.5.1 實(shí)驗(yàn)數(shù)據(jù)集介紹45
- 4.5.2 評(píng)價(jià)方法45-48
- 4.5.3 基于LSA生成微博實(shí)驗(yàn)結(jié)果48-53
- 4.6 本章小結(jié)53-55
- 第5章 自動(dòng)微博生成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)55-64
- 5.1 系統(tǒng)總體設(shè)計(jì)55-56
- 5.1.1 系統(tǒng)主要功能模塊55-56
- 5.1.2 系統(tǒng)處理流程56
- 5.2 自動(dòng)微博生成系統(tǒng)實(shí)現(xiàn)56-59
- 5.2.1 基于關(guān)鍵短語(yǔ)生成微博模塊57-58
- 5.2.2 基于潛在語(yǔ)義分析模型生成微博模塊58-59
- 5.3 系統(tǒng)應(yīng)用分析59-63
- 5.4 小結(jié)63-64
- 結(jié)論64-65
- 致謝65-66
- 參考文獻(xiàn)66-71
- 攻讀碩士學(xué)位期間發(fā)表的論文及科研成果71
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 王建波,杜春玲,王開(kāi)鑄;基于篇章理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1995年03期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 劉云峰;基于潛在語(yǔ)義分析的中文概念檢索研究[D];華中科技大學(xué);2005年
,本文編號(hào):1024655
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1024655.html
最近更新
教材專著