基于深度學(xué)習(xí)的多文檔自動(dòng)文摘研究
本文選題:多文檔自動(dòng)文摘 + 玻爾茲曼機(jī); 參考:《吉林大學(xué)》2017年碩士論文
【摘要】:互聯(lián)網(wǎng)迅速發(fā)展,每天產(chǎn)生大量文本、圖像、視頻等類型的數(shù)據(jù)。其中文本數(shù)據(jù)是最常見的,用戶想查詢和了解自己關(guān)注的話題需要花費(fèi)大量時(shí)間進(jìn)行選擇文章和閱讀文章。自動(dòng)文摘技術(shù)為我們提供了一種快速了解相關(guān)話題的方式,該技術(shù)可以快速地對(duì)文檔進(jìn)行總結(jié),用戶只需閱讀短短十幾句或幾十句的總結(jié)便可以了解相關(guān)信息。用戶的需求驅(qū)動(dòng)使得很多類型的文摘方法應(yīng)運(yùn)而生,例如:基于主題模型的,基于詞袋的等。這些模型初步解決了單文檔文摘問題,然而多文檔涉及話題較多、特征提取困難,很多模型不能得到令人滿意的效果。近年來(lái)深度學(xué)習(xí)在文本處理領(lǐng)域取得了長(zhǎng)足的進(jìn)步,最先進(jìn)的神經(jīng)機(jī)器翻譯模型在多種語(yǔ)言上超過了傳統(tǒng)的算法模型,因此本文考慮將深度學(xué)習(xí)的方法應(yīng)用到多文檔自動(dòng)文摘中。受限波爾茲曼機(jī)是深度學(xué)習(xí)中的經(jīng)典模型,可以對(duì)數(shù)據(jù)進(jìn)行編碼,廣泛應(yīng)用在特征降維以及神經(jīng)網(wǎng)絡(luò)權(quán)重初始化中。由于文本數(shù)據(jù)特征提取困難,很多特征的作用很難理解,所以本文使用由多個(gè)受限波爾茲曼機(jī)構(gòu)建的多層網(wǎng)絡(luò)模型進(jìn)行特征降維,這種多層網(wǎng)絡(luò)結(jié)構(gòu)使我們更容易的獲取特征并且使特征包含的文本信息更加完整;然后使用支持向量機(jī)模型對(duì)文檔中的句子進(jìn)行評(píng)分,從多篇文檔中抽取代表性句子并進(jìn)行句子冗余控制,依次選擇單位長(zhǎng)度質(zhì)量評(píng)分最高的句子生成文摘集;最后對(duì)文摘集進(jìn)行排序,以文摘句在文檔中的相對(duì)順序?yàn)榛鶞?zhǔn),把同話題的句子聚集到一起,使文摘集合的順序更合理。主要流程如下:(1)關(guān)于多文檔的信息表示,我們通過對(duì)自然語(yǔ)言處理以及文摘方法的研究,了解到文本理解一般在詞-句子-文章-多個(gè)文檔集合這幾個(gè)層次表示文檔信息。我們使用基于空間向量模型的方式表示文本,盡可能在文檔的多個(gè)層次提取特征,例如:句子中詞的重要性信息,句子內(nèi)容信息,句子在文檔中位置的重要性,句子與文章標(biāo)題或者查詢?cè)~的相似度等。(2)關(guān)于特征降維,我們使用一層局部特征提取層和兩層受限波爾茲曼機(jī)模型組合成的多層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征降維,從收集到的大量特征中學(xué)習(xí)到更加抽象的特征。(3)關(guān)于文摘集生成以及文摘句排序,首先我們使用支持向量機(jī)模型獲取句子評(píng)分,將評(píng)分較高的句子組合成候選文摘,然后對(duì)每個(gè)候選文摘句求單位長(zhǎng)度文摘質(zhì)量評(píng)分,依次獲取評(píng)分最高的文摘句組成文摘集,我們稱之為增量式的生成文摘方案,這種方法使我們的文摘結(jié)果在覆蓋度和冗余度都表現(xiàn)良好,最后我們對(duì)文摘結(jié)果進(jìn)行文摘句排序使其在邏輯上更合理,我們以遵循句子在文章中的相對(duì)順序?yàn)榛鶞?zhǔn),然后把話題類似的句子聚集到一起。
[Abstract]:The rapid development of the Internet, daily production of a large number of text, images, video and other types of data. Among them, text data is the most common. It takes a lot of time for users to select articles and read articles. Automatic summarization provides us with a way to quickly understand the relevant topics. This technology can quickly summarize the documents, and users can understand the relevant information only by reading only a dozen or dozens of summary sentences. Many kinds of abstracting methods come into being because of the user's demand driving, such as theme-based model, word bag based and so on. These models have solved the problem of single document abstracting initially, however, many documents involve more topics, feature extraction is difficult, and many models can not get satisfactory results. In recent years, deep learning has made great progress in the field of text processing. The most advanced neural machine translation model has surpassed the traditional algorithm model in many languages. In this paper, we consider applying the method of deep learning to multi-document automatic abstracting. Limited Boltzmann machine is a classical model in depth learning. It can encode data and is widely used in feature dimensionality reduction and neural network weight initialization. Because the feature extraction of text data is difficult and the function of many features is difficult to understand, this paper uses a multi-layer network model built by multiple constrained Boltzmann mechanisms to reduce the feature dimension. This multi-layer network structure makes it easier for us to get features and make the text information contained in the features more complete. Then we use the support vector machine model to evaluate the sentences in the document. The representative sentences are extracted from multiple documents and the redundant sentences are controlled, and the sentences with the highest score of unit length and quality are selected in turn to generate abstracts. Finally, the summarization sets are sorted, and the relative order of abstract sentences in the document is taken as the benchmark. Bring together sentences on the same topic to make the order of abstracts more reasonable. The main flow is as follows: (1) through the research of natural language processing and abstracting methods, we know that text understanding generally represents document information at the level of word, sentence, article and multiple document sets. We use a spatial vector model to represent the text and extract features at as many levels of the document as possible, such as the importance of the word in the sentence, the content of the sentence, the importance of the sentence's position in the document. (2) about feature dimension reduction, we use a local feature extraction layer and a two-layer constrained Boltzmann machine model to reduce the feature dimension. We learn more abstract features from a large number of features collected. (3) on the generation of abstracts and the ranking of abstract sentences, we first use support vector machine model to obtain sentence scores, and combine the higher-scoring sentences into candidate abstracts. Then for each candidate summary sentence, the unit length summarization quality score is obtained, and the summarization sentence with the highest score is obtained in turn. We call it an incremental summarization scheme. This method makes our summary results perform well in coverage and redundancy. Finally, we sort the abstract sentences to make them more logical. We follow the relative order of sentences in the article as a benchmark. Then bring together sentences similar to the topic.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊建林;自動(dòng)文摘的邏輯解釋[J];情報(bào)理論與實(shí)踐;2002年02期
2 金博,史彥軍,滕弘飛,艾景波;自動(dòng)文摘技術(shù)及應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2004年12期
3 陸和健;李祝啟;;網(wǎng)絡(luò)信息自動(dòng)文摘研究[J];情報(bào)科學(xué);2008年10期
4 林莉;;自動(dòng)文摘的生成方法與評(píng)價(jià)研究[J];圖書館學(xué)刊;2009年05期
5 王建波,王開鑄;自然語(yǔ)言篇章理解及基于理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1992年02期
6 王開鑄,李俊杰,李秀坤,吳巖,張軍;自動(dòng)文摘系統(tǒng)的歷史和現(xiàn)狀[J];電腦學(xué)習(xí);1995年04期
7 王開鑄,吳巖,劉挺,張軍;自動(dòng)文摘設(shè)計(jì)模型[J];電腦學(xué)習(xí);1995年05期
8 王開鑄,吳巖,劉挺;基于理解的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];電腦學(xué)習(xí);1996年02期
9 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
10 胡舜耕,鐘義信,魏超成;基于多Agent技術(shù)的自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2000年09期
相關(guān)會(huì)議論文 前10條
1 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 劉茂福;金可佳;姬東鴻;張曉龍;;統(tǒng)計(jì)與規(guī)則相結(jié)合的指代消解在事件自動(dòng)文摘中的應(yīng)用[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現(xiàn)特征的中文自動(dòng)文摘研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 劉海濤;老松楊;吳玲達(dá);;基于段落自適應(yīng)聚類的自動(dòng)文摘系統(tǒng)研究[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 李成城;;基于修辭結(jié)構(gòu)理論的自動(dòng)文摘研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
6 呂靜;昝紅英;;基于語(yǔ)義統(tǒng)計(jì)的中文自動(dòng)文摘研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
7 王紅玲;黃超超;張明慧;周國(guó)棟;;面向冗余度控制的中文多文檔自動(dòng)文摘[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
8 盧冶;林鴻飛;趙晶;;中文自動(dòng)文摘系統(tǒng)的綜合評(píng)價(jià)模式[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
9 邵偉;何婷婷;胡珀;肖華松;;一種面向查詢的多文檔文摘句選擇策略[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
10 王小磊;張瑾;許洪波;;基于交互增強(qiáng)原理的多文檔自動(dòng)文摘算法[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
相關(guān)重要報(bào)紙文章 前1條
1 教育部語(yǔ)言文字應(yīng)用研究所副所長(zhǎng) 靳光瑾 中國(guó)社會(huì)科學(xué)院語(yǔ)言文字應(yīng)用系研究生 易江燕;話題發(fā)現(xiàn)技術(shù):決策參考的“探測(cè)器”[N];中國(guó)社會(huì)科學(xué)報(bào);2014年
相關(guān)博士學(xué)位論文 前10條
1 趙林;面向查詢的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2008年
2 李鵬;面向主題的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2013年
3 胡珀;融合上下文信息的自動(dòng)文摘研究[D];武漢大學(xué);2013年
4 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁(yè)自動(dòng)文摘方法研究[D];華南理工大學(xué);2010年
5 韋福如;基于圖模型多文檔自動(dòng)文摘研究[D];武漢大學(xué);2009年
6 徐永東;多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
7 張琳;基于引用聚類的多文檔自動(dòng)文摘技術(shù)研究[D];大連海事大學(xué);2013年
8 陳勁光;基于云模型的中文面向查詢多文檔自動(dòng)文摘研究[D];華中師范大學(xué);2011年
9 劉德喜;基于基本要素的多文檔自動(dòng)文摘研究[D];武漢大學(xué);2007年
10 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 陳奕辰;基于句子權(quán)重和篇章結(jié)構(gòu)的自動(dòng)文摘算法的研究與實(shí)現(xiàn)[D];湖南師范大學(xué);2015年
2 孫佩佩;面向事件的自動(dòng)文摘研究[D];安徽理工大學(xué);2016年
3 曹洋;基于TextRank算法的單文檔自動(dòng)文摘研究[D];南京大學(xué);2016年
4 劉俊斐;自動(dòng)文摘后處理算法的研究和實(shí)現(xiàn)[D];湖南師范大學(xué);2016年
5 李方馨;基于中文微博的自動(dòng)文摘研究[D];內(nèi)蒙古師范大學(xué);2016年
6 李杰;漢語(yǔ)句群自動(dòng)劃分方法及其在自動(dòng)文摘中的應(yīng)用[D];杭州電子科技大學(xué);2015年
7 孫月偉;基于事件要素網(wǎng)絡(luò)的多主題文本自動(dòng)文摘方法研究[D];安徽理工大學(xué);2017年
8 王佳松;基于深度學(xué)習(xí)的多文檔自動(dòng)文摘研究[D];吉林大學(xué);2017年
9 朱荷香;中文自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[D];南京師范大學(xué);2008年
10 石子言;用戶驅(qū)動(dòng)的特定領(lǐng)域自動(dòng)文摘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
,本文編號(hào):2104836
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2104836.html