基于中文微博的自動(dòng)文摘研究
本文關(guān)鍵詞:基于中文微博的自動(dòng)文摘研究
更多相關(guān)文章: 中文微博 LDA主題模型 自動(dòng)文摘 空間向量模型
【摘要】:隨著互聯(lián)網(wǎng)的普及和計(jì)算機(jī)信息技術(shù)的高速發(fā)展,社交網(wǎng)絡(luò)服務(wù)平臺(tái)也隨之飛速迅猛的發(fā)展起來(lái),并漸漸滲透進(jìn)社會(huì)各個(gè)用戶群里,很大程度上提高了人們的交流速度與交流頻率。如今,微博已經(jīng)成為廣大用戶發(fā)布和獲取信息的重要渠道之一。正是因?yàn)槲⒉┠軌蚩旖莘奖愕墨@取信息,微博平臺(tái)上集聚著大量的用戶群體和文本信息資源。信息量的急劇增長(zhǎng),不僅極大的促進(jìn)了人們之間的交流與溝通,同時(shí)也為人類文明和經(jīng)濟(jì)的發(fā)展做出了巨大的貢獻(xiàn)。但是,隨著微博平臺(tái)已經(jīng)成為人們獲取信息的重要來(lái)源,信息產(chǎn)生和傳播的速度遠(yuǎn)遠(yuǎn)超出了用戶處理的能力。隨之而來(lái)的問(wèn)題是,用戶如何從大量的微博信息中快速準(zhǔn)確的找到他們所需要的感興趣事件,并繼續(xù)了解該事件的后續(xù)報(bào)道。如果用戶想要知道整個(gè)事件的發(fā)展經(jīng)過(guò),則需要花大量時(shí)間閱讀以過(guò)濾掉大量的不相關(guān)信息,其中包括大量意思相同的信息,這大大降低了用戶獲取有效信息的效率。因此,針對(duì)如何有效的從大量微博文本中獲取同一話題的內(nèi)容,生成自動(dòng)文摘技術(shù)是至關(guān)重要的。本文主要探索和研究自動(dòng)文摘方法及其相關(guān)的知識(shí)體系和知識(shí)理論,提出了兩種中文微博自動(dòng)文摘方法并進(jìn)行了評(píng)測(cè)和對(duì)比。本文的研究工作主要包括以下三個(gè)方面:首先,爬取得到新浪微博的文本內(nèi)容,將其制成分類的數(shù)據(jù)集。通過(guò)新浪微博平臺(tái)上提供的API接口獲取微博文本數(shù)據(jù),去噪后通過(guò)人工標(biāo)注,得到一個(gè)分類的數(shù)據(jù)集。最終選定5625條微博數(shù)據(jù),分為訓(xùn)練數(shù)據(jù)3612條和測(cè)試數(shù)據(jù)1013條。其次,分別實(shí)現(xiàn)了基于VSM的微博自動(dòng)文摘方法與基于LDA的微博自動(dòng)文摘方法。在對(duì)VSM模型和LDA主題模型的細(xì)致研究的基礎(chǔ)上,分別構(gòu)建基于這兩種方法的中文微博自動(dòng)文摘方法,并對(duì)兩種方法進(jìn)行評(píng)測(cè)和對(duì)比。最后,提出基于VSM和LDA模型相結(jié)合的中文微博自動(dòng)文摘方法。通過(guò)對(duì)VSM和LDA兩種方法的結(jié)果進(jìn)行分析,提出了將兩者相結(jié)合的中文微博自動(dòng)文摘方法。在生成文摘時(shí),主要以主題的重要度、句子中含有的關(guān)鍵詞的覆蓋度、句子的詞頻、句子的長(zhǎng)度、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)這些特征因素來(lái)衡量句子的權(quán)重值。通過(guò)計(jì)算空間夾角余弦值來(lái)衡量句子之間的相似性,以此進(jìn)行語(yǔ)句的壓縮,完成中文微博的文摘生成。最終對(duì)該方法進(jìn)行評(píng)測(cè),并將其評(píng)測(cè)值與基于VSM生成的微博文摘和基于LDA生成的微博文摘實(shí)驗(yàn)結(jié)果的進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果證明,將VSM和LDA主題模型相結(jié)合的方法,相對(duì)于基于VSM生成的微博文摘方法和基于LDA生成的微博文摘方法,更為準(zhǔn)確的抽取微博文本的文摘內(nèi)容,從而實(shí)現(xiàn)用戶對(duì)實(shí)時(shí)消息的搜索。
【學(xué)位授予單位】:內(nèi)蒙古師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 金博,史彥軍,滕弘飛,艾景波;自動(dòng)文摘技術(shù)及應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2004年12期
2 陸和健;李祝啟;;網(wǎng)絡(luò)信息自動(dòng)文摘研究[J];情報(bào)科學(xué);2008年10期
3 林莉;;自動(dòng)文摘的生成方法與評(píng)價(jià)研究[J];圖書(shū)館學(xué)刊;2009年05期
4 王建波,王開(kāi)鑄;自然語(yǔ)言篇章理解及基于理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1992年02期
5 王開(kāi)鑄,李俊杰,李秀坤,吳巖,張軍;自動(dòng)文摘系統(tǒng)的歷史和現(xiàn)狀[J];電腦學(xué)習(xí);1995年04期
6 王開(kāi)鑄,吳巖,劉挺,張軍;自動(dòng)文摘設(shè)計(jì)模型[J];電腦學(xué)習(xí);1995年05期
7 王開(kāi)鑄,吳巖,劉挺;基于理解的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];電腦學(xué)習(xí);1996年02期
8 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
9 胡舜耕,鐘義信,魏超成;基于多Agent技術(shù)的自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2000年09期
10 宋今,趙東巖;基于語(yǔ)料庫(kù)與層次詞典的自動(dòng)文摘研究(英文)[J];軟件學(xué)報(bào);2000年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 劉茂福;金可佳;姬東鴻;張曉龍;;統(tǒng)計(jì)與規(guī)則相結(jié)合的指代消解在事件自動(dòng)文摘中的應(yīng)用[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現(xiàn)特征的中文自動(dòng)文摘研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 劉海濤;老松楊;吳玲達(dá);;基于段落自適應(yīng)聚類的自動(dòng)文摘系統(tǒng)研究[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 李成城;;基于修辭結(jié)構(gòu)理論的自動(dòng)文摘研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
6 呂靜;昝紅英;;基于語(yǔ)義統(tǒng)計(jì)的中文自動(dòng)文摘研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
7 王紅玲;黃超超;張明慧;周國(guó)棟;;面向冗余度控制的中文多文檔自動(dòng)文摘[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
8 盧冶;林鴻飛;趙晶;;中文自動(dòng)文摘系統(tǒng)的綜合評(píng)價(jià)模式[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
9 邵偉;何婷婷;胡珀;肖華松;;一種面向查詢的多文檔文摘句選擇策略[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
10 王小磊;張瑾;許洪波;;基于交互增強(qiáng)原理的多文檔自動(dòng)文摘算法[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 教育部語(yǔ)言文字應(yīng)用研究所副所長(zhǎng) 靳光瑾 中國(guó)社會(huì)科學(xué)院語(yǔ)言文字應(yīng)用系研究生 易江燕;話題發(fā)現(xiàn)技術(shù):決策參考的“探測(cè)器”[N];中國(guó)社會(huì)科學(xué)報(bào);2014年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙林;面向查詢的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2008年
2 李鵬;面向主題的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2013年
3 胡珀;融合上下文信息的自動(dòng)文摘研究[D];武漢大學(xué);2013年
4 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁(yè)自動(dòng)文摘方法研究[D];華南理工大學(xué);2010年
5 韋福如;基于圖模型多文檔自動(dòng)文摘研究[D];武漢大學(xué);2009年
6 徐永東;多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
7 張琳;基于引用聚類的多文檔自動(dòng)文摘技術(shù)研究[D];大連海事大學(xué);2013年
8 陳勁光;基于云模型的中文面向查詢多文檔自動(dòng)文摘研究[D];華中師范大學(xué);2011年
9 劉德喜;基于基本要素的多文檔自動(dòng)文摘研究[D];武漢大學(xué);2007年
10 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳奕辰;基于句子權(quán)重和篇章結(jié)構(gòu)的自動(dòng)文摘算法的研究與實(shí)現(xiàn)[D];湖南師范大學(xué);2015年
2 蘇彬;基于Word2Vec的自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
3 孫佩佩;面向事件的自動(dòng)文摘研究[D];安徽理工大學(xué);2016年
4 曹洋;基于TextRank算法的單文檔自動(dòng)文摘研究[D];南京大學(xué);2016年
5 劉俊斐;自動(dòng)文摘后處理算法的研究和實(shí)現(xiàn)[D];湖南師范大學(xué);2016年
6 李方馨;基于中文微博的自動(dòng)文摘研究[D];內(nèi)蒙古師范大學(xué);2016年
7 朱荷香;中文自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[D];南京師范大學(xué);2008年
8 石子言;用戶驅(qū)動(dòng)的特定領(lǐng)域自動(dòng)文摘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
9 孟慶富;生物醫(yī)學(xué)多文檔自動(dòng)文摘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年
10 馬長(zhǎng)林;中文自動(dòng)文摘技術(shù)若干問(wèn)題的研究[D];華中師范大學(xué);2002年
,本文編號(hào):1230273
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1230273.html