基于中文微博的自動文摘研究

發(fā)布時間：2017-11-26 15:27

本文關(guān)鍵詞：基于中文微博的自動文摘研究

更多相關(guān)文章： 中文微博 LDA主題模型 自動文摘 空間向量模型

【摘要】：隨著互聯(lián)網(wǎng)的普及和計算機信息技術(shù)的高速發(fā)展,社交網(wǎng)絡(luò)服務(wù)平臺也隨之飛速迅猛的發(fā)展起來,并漸漸滲透進社會各個用戶群里,很大程度上提高了人們的交流速度與交流頻率。如今,微博已經(jīng)成為廣大用戶發(fā)布和獲取信息的重要渠道之一。正是因為微博能夠快捷方便的獲取信息,微博平臺上集聚著大量的用戶群體和文本信息資源。信息量的急劇增長,不僅極大的促進了人們之間的交流與溝通,同時也為人類文明和經(jīng)濟的發(fā)展做出了巨大的貢獻。但是,隨著微博平臺已經(jīng)成為人們獲取信息的重要來源,信息產(chǎn)生和傳播的速度遠遠超出了用戶處理的能力。隨之而來的問題是,用戶如何從大量的微博信息中快速準確的找到他們所需要的感興趣事件,并繼續(xù)了解該事件的后續(xù)報道。如果用戶想要知道整個事件的發(fā)展經(jīng)過,則需要花大量時間閱讀以過濾掉大量的不相關(guān)信息,其中包括大量意思相同的信息,這大大降低了用戶獲取有效信息的效率。因此,針對如何有效的從大量微博文本中獲取同一話題的內(nèi)容,生成自動文摘技術(shù)是至關(guān)重要的。本文主要探索和研究自動文摘方法及其相關(guān)的知識體系和知識理論,提出了兩種中文微博自動文摘方法并進行了評測和對比。本文的研究工作主要包括以下三個方面：首先,爬取得到新浪微博的文本內(nèi)容,將其制成分類的數(shù)據(jù)集。通過新浪微博平臺上提供的API接口獲取微博文本數(shù)據(jù),去噪后通過人工標注,得到一個分類的數(shù)據(jù)集。最終選定5625條微博數(shù)據(jù),分為訓(xùn)練數(shù)據(jù)3612條和測試數(shù)據(jù)1013條。其次,分別實現(xiàn)了基于VSM的微博自動文摘方法與基于LDA的微博自動文摘方法。在對VSM模型和LDA主題模型的細致研究的基礎(chǔ)上,分別構(gòu)建基于這兩種方法的中文微博自動文摘方法,并對兩種方法進行評測和對比。最后,提出基于VSM和LDA模型相結(jié)合的中文微博自動文摘方法。通過對VSM和LDA兩種方法的結(jié)果進行分析,提出了將兩者相結(jié)合的中文微博自動文摘方法。在生成文摘時,主要以主題的重要度、句子中含有的關(guān)鍵詞的覆蓋度、句子的詞頻、句子的長度、評論數(shù)和轉(zhuǎn)發(fā)數(shù)這些特征因素來衡量句子的權(quán)重值。通過計算空間夾角余弦值來衡量句子之間的相似性,以此進行語句的壓縮,完成中文微博的文摘生成。最終對該方法進行評測,并將其評測值與基于VSM生成的微博文摘和基于LDA生成的微博文摘實驗結(jié)果的進行對比分析。實驗結(jié)果證明,將VSM和LDA主題模型相結(jié)合的方法,相對于基于VSM生成的微博文摘方法和基于LDA生成的微博文摘方法,更為準確的抽取微博文本的文摘內(nèi)容,從而實現(xiàn)用戶對實時消息的搜索。
【學(xué)位授予單位】：內(nèi)蒙古師范大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 金博,史彥軍,滕弘飛,艾景波;自動文摘技術(shù)及應(yīng)用[J];計算機應(yīng)用研究;2004年12期

2 陸和健;李祝啟;;網(wǎng)絡(luò)信息自動文摘研究[J];情報科學(xué);2008年10期

3 林莉;;自動文摘的生成方法與評價研究[J];圖書館學(xué)刊;2009年05期

4 王建波,王開鑄;自然語言篇章理解及基于理解的自動文摘研究[J];中文信息學(xué)報;1992年02期

5 王開鑄,李俊杰,李秀坤,吳巖,張軍;自動文摘系統(tǒng)的歷史和現(xiàn)狀[J];電腦學(xué)習(xí);1995年04期

6 王開鑄,吳巖,劉挺,張軍;自動文摘設(shè)計模型[J];電腦學(xué)習(xí);1995年05期

7 王開鑄,吳巖,劉挺;基于理解的自動文摘系統(tǒng)設(shè)計[J];電腦學(xué)習(xí);1996年02期

8 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動文摘系統(tǒng)[J];計算機研究與發(fā)展;2000年04期

9 胡舜耕,鐘義信,魏超成;基于多Agent技術(shù)的自動文摘研究[J];計算機工程與應(yīng)用;2000年09期

10 宋今,趙東巖;基于語料庫與層次詞典的自動文摘研究(英文)[J];軟件學(xué)報;2000年03期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動文摘系統(tǒng)實現(xiàn)方法[A];中國計算機語言學(xué)研究前沿進展（2007-2009）[C];2009年

2 劉茂福;金可佳;姬東鴻;張曉龍;;統(tǒng)計與規(guī)則相結(jié)合的指代消解在事件自動文摘中的應(yīng)用[A];中國計算機語言學(xué)研究前沿進展（2007-2009）[C];2009年

3 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現(xiàn)特征的中文自動文摘研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

4 劉海濤;老松楊;吳玲達;;基于段落自適應(yīng)聚類的自動文摘系統(tǒng)研究[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議（HHME2005）論文集[C];2005年

5 李成城;;基于修辭結(jié)構(gòu)理論的自動文摘研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

6 呂靜;昝紅英;;基于語義統(tǒng)計的中文自動文摘研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

7 王紅玲;黃超超;張明慧;周國棟;;面向冗余度控制的中文多文檔自動文摘[A];中國計算語言學(xué)研究前沿進展（2009-2011）[C];2011年

8 盧冶;林鴻飛;趙晶;;中文自動文摘系統(tǒng)的綜合評價模式[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議（JSCL-2005）論文集[C];2005年

9 邵偉;何婷婷;胡珀;肖華松;;一種面向查詢的多文檔文摘句選擇策略[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

10 王小磊;張瑾;許洪波;;基于交互增強原理的多文檔自動文摘算法[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

中國重要報紙全文數(shù)據(jù)庫前1條

1 教育部語言文字應(yīng)用研究所副所長靳光瑾　中國社會科學(xué)院語言文字應(yīng)用系研究生易江燕;話題發(fā)現(xiàn)技術(shù)：決策參考的“探測器”[N];中國社會科學(xué)報;2014年

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 趙林;面向查詢的多文檔自動文摘關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2008年

2 李鵬;面向主題的多文檔自動文摘關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2013年

3 胡珀;融合上下文信息的自動文摘研究[D];武漢大學(xué);2013年

4 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁自動文摘方法研究[D];華南理工大學(xué);2010年

5 韋福如;基于圖模型多文檔自動文摘研究[D];武漢大學(xué);2009年

6 徐永東;多文檔自動文摘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

7 張琳;基于引用聚類的多文檔自動文摘技術(shù)研究[D];大連海事大學(xué);2013年

8 陳勁光;基于云模型的中文面向查詢多文檔自動文摘研究[D];華中師范大學(xué);2011年

9 劉德喜;基于基本要素的多文檔自動文摘研究[D];武漢大學(xué);2007年

10 鄭義;多媒體信息自動摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 陳奕辰;基于句子權(quán)重和篇章結(jié)構(gòu)的自動文摘算法的研究與實現(xiàn)[D];湖南師范大學(xué);2015年

2 蘇彬;基于Word2Vec的自動文摘系統(tǒng)的設(shè)計與實現(xiàn)[D];河北科技大學(xué);2015年

3 孫佩佩;面向事件的自動文摘研究[D];安徽理工大學(xué);2016年

4 曹洋;基于TextRank算法的單文檔自動文摘研究[D];南京大學(xué);2016年

5 劉俊斐;自動文摘后處理算法的研究和實現(xiàn)[D];湖南師范大學(xué);2016年

6 李方馨;基于中文微博的自動文摘研究[D];內(nèi)蒙古師范大學(xué);2016年

7 朱荷香;中文自動文摘系統(tǒng)的研究與實現(xiàn)[D];南京師范大學(xué);2008年

8 石子言;用戶驅(qū)動的特定領(lǐng)域自動文摘系統(tǒng)設(shè)計與實現(xiàn)[D];東北師范大學(xué);2009年

9 孟慶富;生物醫(yī)學(xué)多文檔自動文摘系統(tǒng)設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年

10 馬長林;中文自動文摘技術(shù)若干問題的研究[D];華中師范大學(xué);2002年

，

本文編號：1230273

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1230273.html

上一篇：AngularJS前端框架與后端代碼自動生成系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：車載便攜式交通違章智能抓拍系統(tǒng)關(guān)鍵技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于中文微博的自動文摘研究