天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

面向事件的社交媒體文本自動摘要研究

發(fā)布時間:2017-12-14 10:03

  本文關(guān)鍵詞:面向事件的社交媒體文本自動摘要研究


  更多相關(guān)文章: 自動摘要 Encoder-Decoder 聚類算法 社交媒體 事件


【摘要】:自動文本摘要技術(shù)是自然語言處理領(lǐng)域重要的一個分支,初期主要廣泛應(yīng)用于長文本摘要任務(wù)中,例如科技論文、新聞領(lǐng)域等。近年來微博、Twitter等短文本形式的社交媒體快速廣泛地流行起來,其方便和快捷的使用方式以及平臺上的海量信息資源,使得人們開始通過社交媒體平臺來實時地獲取各種信息資源,尤其是真實的社會熱點事件信息。然而社交媒體文本具有篇幅短小、內(nèi)容碎片化等特點,且海量數(shù)據(jù)伴隨著巨大的冗余,給用戶識別和理解帶來了很大的困難。因此,以社交媒體文本為目標(biāo)數(shù)據(jù)集的自動摘要任務(wù)受到重視。已有的自動摘要方法大多是基于關(guān)鍵句子抽取的方式來組合形成摘要,但是該類方法由于忽略了對文本結(jié)構(gòu)和語言特征的分析和理解,生成的摘要可讀性較差,也不可避免地存在冗余問題。隨著深度學(xué)習(xí)技術(shù)的不斷進(jìn)步,其在自動摘要領(lǐng)域的表現(xiàn)很好地彌補了抽取式摘要方法的不足,然而當(dāng)前的研究對象僅在句子和段落級別,對于實際任務(wù)缺乏應(yīng)用性。本文針對社交媒體上引起廣泛討論的真實社會事件,應(yīng)用自動摘要技術(shù)生成一段可以較為全面地概括該事件的摘要文本來提供給用戶,從而節(jié)省用戶獲取事件信息的時間和精力。第一,通過結(jié)合抽取式和抽象式摘要方法各自的優(yōu)勢,提出了將事件摘要任務(wù)劃分為兩步走的策略。第二,通過使用Canopy和K-means相結(jié)合的聚類技術(shù)和時間戳技術(shù)對事件的關(guān)鍵方面或其發(fā)展過程進(jìn)行識別,形成了事件下的多個子主題簇。第三,受到人工摘要產(chǎn)生過程的啟發(fā),提出了一種改進(jìn)的基于注意力模型的Encoder-Decoder框架模型MEOD作為本文使用的摘要生成模型,將第一步產(chǎn)生的子主題文本作為模型輸入來生成子摘要,進(jìn)而組合形成最終的事件摘要。通過對實驗結(jié)果進(jìn)行自動評測和人工評測,均顯示本文摘要方法優(yōu)于對比方法,有效證明了本文摘要方法的有效性。其中,子主題識別環(huán)節(jié)添加的社會特征和時間戳等信息有效地提高了子主題劃分的準(zhǔn)確性和完整性,基于Encoder-Decoder框架的摘要生成模型顯著地提升了摘要質(zhì)量,尤其是可讀性方面。另外,本文提出的結(jié)合抽取式和抽象式兩種摘要方法的思路,為面向短文本的多文檔事件摘要研究提供了新的思考方向。
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 林濱;;K-Means聚類的多種距離計算方法的文本實驗比較[J];福建工程學(xué)院學(xué)報;2016年01期

2 胡俠;林曄;王燦;林立;;自動文本摘要技術(shù)綜述[J];情報雜志;2010年08期

,

本文編號:1287472

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1287472.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶450b7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com