天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向新聞文檔的自動微博生成算法研究與實現(xiàn)

發(fā)布時間:2017-10-13 11:35

  本文關(guān)鍵詞:面向新聞文檔的自動微博生成算法研究與實現(xiàn)


  更多相關(guān)文章: 自動微博生成 潛在語義分析 奇異值分解 關(guān)鍵短語提取 自動微博評估


【摘要】:網(wǎng)上每天產(chǎn)生巨量新聞,普通用戶不容易通過手機(jī)瀏覽這些信息。從海量新聞信息中找到自己感興趣的信息非常耗時,因此我們迫切需要有效的壓縮工具對大量信息進(jìn)行提煉、濃縮。文本的總結(jié)不僅可以壓縮文本信息,而且可以支持文本的其它處理,如信息存儲、信息檢索和數(shù)據(jù)挖掘等。本文在面向新聞文檔的總結(jié)技術(shù)的基礎(chǔ)上,為了提高用戶閱覽和選擇感興趣信息的效率,提出新聞文檔自動生成微博這一全新概念,采用不同方法實現(xiàn)生成微博,并利用不同方式進(jìn)行對比分析。本文主要內(nèi)容和貢獻(xiàn)如下:第一,提出面向新聞文檔的自動生成微博的概念。通過文本信息處理,并生成不超過140字的主題后,人們只需閱讀少量信息就能確定是否需要進(jìn)行全文閱覽,這將大大提高人們獲取電子文本信息的效率。第二,本文探索了面向中文新聞文檔自動總結(jié)技術(shù)的研究。通過對現(xiàn)階段幾種流行的自動總結(jié)技術(shù),如基于統(tǒng)計的自動總結(jié),基于自然語言理解的文檔總結(jié),得到它們自身的優(yōu)點和缺點,并在此基礎(chǔ)上提出采用基于關(guān)鍵短語自動生成微博。提取出能夠代表和抽象原文的關(guān)鍵詞短語為第一級總結(jié),根據(jù)生成的關(guān)鍵短語選擇總結(jié)性句子作為微博。第三,采用基于潛在語義分析模型生成微博。這種方法識別語義重要的句子來創(chuàng)建微博,努力選擇具有較高排序分?jǐn)?shù),且彼此不同的句子。嘗試創(chuàng)建對文檔主要內(nèi)容有較大覆蓋范圍且較小冗余度的微博。對由不同模型生成的微博結(jié)果采用不同的方法進(jìn)行比較和分析。第四,實現(xiàn)新聞文檔的自動微博生成系統(tǒng)。實現(xiàn)了兩種自動生成微博的方法,方面,采用基于統(tǒng)計方法生成關(guān)鍵概念作為文檔的第一級別的總結(jié),然后根據(jù)關(guān)鍵概念和句子之間的關(guān)系選擇總結(jié)性的句子作為微博。另一方面,采用基于潛在語義分析方法提取潛在重要的句子作為微博結(jié)果。
【關(guān)鍵詞】:自動微博生成 潛在語義分析 奇異值分解 關(guān)鍵短語提取 自動微博評估
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
  • 摘要6-7
  • Abstract7-11
  • 第1章 緒論11-16
  • 1.1 課題的研究背景和意義11-12
  • 1.2 文檔的自動微博生成12-14
  • 1.2.1 文本自動微博生成研究現(xiàn)狀12-13
  • 1.2.2 典型自動微博系統(tǒng)分析13-14
  • 1.3 本文的主要內(nèi)容和結(jié)構(gòu)安排14-16
  • 第2章 自動微博生成綜述16-22
  • 2.1 自動微博生成定義16
  • 2.2 自動微博生成影響因素16-18
  • 2.3 自動生成微博評價方法18-19
  • 2.4 文本預(yù)處理技術(shù)19
  • 2.5 自動微博生成研究中的關(guān)鍵技術(shù)19-21
  • 2.6 本章小結(jié)21-22
  • 第3章 基于關(guān)鍵短語自動生成微博22-34
  • 3.1 關(guān)鍵短語生成22-25
  • 3.1.1 候選關(guān)鍵短語選擇22-24
  • 3.1.2 候選關(guān)鍵短語權(quán)重計算24-25
  • 3.1.3 關(guān)鍵短語提取25
  • 3.2 基于關(guān)鍵短語生成微博25-29
  • 3.2.1 微博句子選擇26-27
  • 3.2.2 基于關(guān)鍵短語生成微博的詳細(xì)算法27-28
  • 3.2.3 候選句子位置閾值選擇28-29
  • 3.3 實驗結(jié)果29-33
  • 3.3.1 數(shù)據(jù)集29-30
  • 3.3.2 微博生成效果的評價方法30
  • 3.3.3 基于關(guān)鍵短語自動生成微博算法分析30-33
  • 3.4 本章小結(jié)33-34
  • 第4章 基于LSA自動微博生成34-55
  • 4.1 基于LSA的自動生成微博算法框架34-35
  • 4.2 潛在語義分析(LSA)技術(shù)35-39
  • 4.2.1 文本的矩陣表示36
  • 4.2.2 奇異值分解36-38
  • 4.2.3 潛在語義空間定義38-39
  • 4.3 詞項權(quán)重計算模型39-42
  • 4.3.1 詞項權(quán)重的定義39-40
  • 4.3.2 權(quán)重計算方法40-42
  • 4.4 基于LSA生成微博技術(shù)42-45
  • 4.4.1 文本分析與權(quán)重計算42-43
  • 4.4.2 語義分析43-44
  • 4.4.3 自動微博生成44-45
  • 4.5 實驗結(jié)果45-53
  • 4.5.1 實驗數(shù)據(jù)集介紹45
  • 4.5.2 評價方法45-48
  • 4.5.3 基于LSA生成微博實驗結(jié)果48-53
  • 4.6 本章小結(jié)53-55
  • 第5章 自動微博生成系統(tǒng)設(shè)計與實現(xiàn)55-64
  • 5.1 系統(tǒng)總體設(shè)計55-56
  • 5.1.1 系統(tǒng)主要功能模塊55-56
  • 5.1.2 系統(tǒng)處理流程56
  • 5.2 自動微博生成系統(tǒng)實現(xiàn)56-59
  • 5.2.1 基于關(guān)鍵短語生成微博模塊57-58
  • 5.2.2 基于潛在語義分析模型生成微博模塊58-59
  • 5.3 系統(tǒng)應(yīng)用分析59-63
  • 5.4 小結(jié)63-64
  • 結(jié)論64-65
  • 致謝65-66
  • 參考文獻(xiàn)66-71
  • 攻讀碩士學(xué)位期間發(fā)表的論文及科研成果71

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 王建波,杜春玲,王開鑄;基于篇章理解的自動文摘研究[J];中文信息學(xué)報;1995年03期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 劉云峰;基于潛在語義分析的中文概念檢索研究[D];華中科技大學(xué);2005年

,

本文編號:1024655

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1024655.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶87c89***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com