基于深度學習的文本表示與分類方法研究
本文關(guān)鍵詞: 文本分類 文本表示 深度學習 詞向量 出處:《北京科技大學》2016年博士論文 論文類型:學位論文
【摘要】:隨著信息技術(shù)的廣泛應用以及信息化建設的廣泛開展,文本信息正爆炸式的增長,如何從眾多資源中獲取有效的信息成為關(guān)注的焦點。對文本內(nèi)容提取和分類將成為解決文本信息管理問題的關(guān)鍵手段。其中,文本分類的基石是文本表示。傳統(tǒng)的文本表示采用計數(shù)的表示形式。這種表示方法假設詞與詞之間是獨立的,忽略了文本語義信息;并且在特征選擇時引入很多人為的因素,提取到的特征具有高維度和高稀疏的特點,不能有效地表示文本。與此同時,現(xiàn)有文本種類多樣、主題豐富給文本分類帶來了新的挑戰(zhàn),尤其面對標簽分布不均衡樣本集時,傳統(tǒng)分類方法的泛化能力較差。因此,設計新的基于語義的文本表示和分類算法已成為研究熱點。近年來,深度學習通過所特有的層次結(jié)構(gòu),能夠從低(淺)層特征中提取高層特征,很好地解決了這些問題,為提取有效的文本表示與建立高效精準的文本分類模型提供了有力的支持。深度學習技術(shù)在圖像、語音和自然語言處理等領域都取得了重大進展,展示出了潛在的應用價值。因此,本文開展了基于深度學習模型的文本表示與文本分類相關(guān)研究,并取得了如下研究成果:1.基于混合深度信念網(wǎng)絡的多類文本表示與分類方法針對普通、規(guī)則且多類的分類任務(如新聞文本),傳統(tǒng)的Bag-of-words(BOW)表示面臨高維度高稀疏的問題。本文基于文本關(guān)鍵字,以關(guān)鍵字的詞向量表示作為文本輸入,同時結(jié)合深度信念網(wǎng)絡(Deep Belief Network, DBN)和深度玻爾茲曼機網(wǎng)絡(Deep Boltzmann Machine,DBM),設計了一種HDBN(Hybrid Deep Belief Network)模型。文本分類和文本檢索的實驗結(jié)果表明,基于詞向量嵌入的深度學習模型在性能上優(yōu)于傳統(tǒng)方法。此外,通過二維空間可視化實驗,由HDBN模型提取的高層文本表示具有高內(nèi)聚低耦合的特點。2.基于卷積神經(jīng)網(wǎng)絡結(jié)合深度玻爾茲曼機的多標簽摘要文本表示與分類方法針對摘要類型的多標簽文本分類任務(生物醫(yī)學摘要文本),除了每篇文檔有多個標簽以外,還面臨著該領域特殊的挑戰(zhàn):文本只含有題目和摘要信息,同時含有大量的醫(yī)學生物詞和縮寫詞。對此,本文分別提出了解決方案:首先,提出一種基于序列的文本輸入表示方式(Document word SequenceEmbedding,DSE)。DSE用維基百科和命名實體對題目和摘要的文本信息進行擴展特征,并嵌入詞向量表示,更好的保留文本上下文語義信息。其次,以擴展后的詞向量作為文本輸入,本文提出一種基于CNN(Convolutional Neural Network)模型提取文檔的局部特征,結(jié)合DBM融合全局特征的模型(Boltzmann-Convolutional Neural Network,B-CNN),更好的提取高層文本表示。最后,通過標簽聚類以及標簽共現(xiàn)的相關(guān)關(guān)系,本文構(gòu)建標簽層次樹,并設計有效的層次網(wǎng)絡實現(xiàn)標簽樹。除此之外,本文還推導了B-CNN模型的誤差傳遞求導公式,使得模型基于整體進行有監(jiān)督訓練和微調(diào)。實驗結(jié)果表明B-CNN模型不僅在生物醫(yī)學文本上獲得好的性能,在其它領域也獲得不錯的效果。3.基于長短時記憶模型的不均衡多標簽全文文本表示與分類方法對比多標簽摘要文本分類任務,多標簽全文分類任務面臨兩個新的挑戰(zhàn):(1)沒有明顯的文本關(guān)鍵詞,需要依靠全文的詞向量來進行文本表示;(2)樣本分布不均衡,嚴重影響分類效果。本文針對LSTM改進了一種基于序列預測的LSTM2模型。首先,本文以文檔單詞的詞向量序列為文本輸入,使用LSTM有效地對全文文本提取文檔全局特征。同時,分析文檔與標簽潛在關(guān)系,提取文檔局部特征。以文檔全局特征和局部特征整體作為高層文本表示,從而有效提高稀疏標簽預測的幾率。然后,本文使用Parser構(gòu)建語義標簽樹,提取包含文檔原始標簽集的最小子樹,并以遍歷子樹生成的序列作為該文檔的新標簽(序列)。使用LSTM模型對每個文檔的標簽(序列)進行學習和預測。實驗結(jié)果表明LSTM2算法有效解決不均衡多標簽全文文本的預測問題。
[Abstract]:With the extensive application of information technology and extensive development of information construction, the text information is explosive growth, how to get useful information from numerous resources become the focus of attention. The text content extraction and classification will become a key means to solve text information management problems. Among them, the cornerstone of text classification is the traditional text representation. The text representation form by counting. This representation between the word and the word is assumed independent, ignoring the semantic information of text; and many man-made factors are introduced in the feature selection, feature extraction to high dimension and sparse characteristics, can not effectively express the text. At the same time, the existing text variety the theme has brought new challenges to the rich text classification, especially in the face of the label uneven distribution of samples, the traditional classification method of poor generalization ability. Because of this,. New semantic text representation and classification algorithm based on has become a hot research topic. In recent years, deep learning through the hierarchy characteristic, from the low level features extraction (shallow) layer characteristics, a good solution to these problems, provide a strong support and text classification model built for high precision text extraction effectively. Deep learning technology in image, voice and Natural Language Processing and other fields have made significant progress, demonstrating the potential application value. Therefore, this paper carried out relevant studies on text representation and text classification model based on deep learning, and the findings are as follows: 1. multi class text mixed deep belief networks based on the representation and classification methods in general, and the multi class classification task rules (such as news text), the traditional Bag-of-words (BOW) said that faced with high dimension and high sparse problem. This paper Based on text keyword, keyword to word vector representation as text input, combined with a deep belief network (Deep Belief Network, DBN) and depth (Deep Boltzmann Machine Boltzmann machine network, DBM), the design of a HDBN (Hybrid Deep Belief Network) text classification and text retrieval model. The experimental results show that the learning model word vector embedded depth is superior to the traditional method based on two-dimensional space. In addition, through visualization experiment, high-level text extraction from the HDBN model that.2. has the characteristics of high cohesion and low coupling to the convolutional neural network with multi label text depth Boltzmann machine representation and classification method for multi label text classification task abstract types (Abstract biomedical text), in addition to each document has multiple tabs, also faces special challenges in this field: the text contains only questions The title and abstract information, containing both medical and biological words and abbreviations. Therefore, this paper proposes solutions: firstly, put forward a series of text input based on representation (Document word SequenceEmbedding, DSE.DSE) with Wikipedia and named entity text information on the topic and abstract of extended features, and embedded word vector representation, text semantic context information better. Secondly, the word vector expanded as text input, this paper proposes a method based on CNN (Convolutional Neural Network) local feature extraction model of documents, combined with the DBM fusion global features model (Boltzmann-Convolutional Neural Network, B-CNN), text extraction better. Finally the top the correlation between clustering and tag, tag co-occurrence, the tag hierarchy tree, and design level of network to achieve effective label Tree. In addition, this paper also deduces the error of the B-CNN model transfer derivative formula, which makes the model overall supervised training and fine-tuning based on B-CNN. The experimental results show that the model not only achieve good performance in biomedical text, in other areas also received good results.3. representation and classification method of multi label text classification task in contrast when the length of the memory model is not balanced multi label text based on multi label text classification tasks facing two new challenges: (1) no obvious text keywords, need to rely on the word vector for text representation; (2) uneven distribution of samples, seriously affect the classification results. This paper improved LSTM a LSTM2 model based on sequence prediction. Firstly, this paper takes the word document word vector sequence for text input, use the LSTM effectively to the full text of the document. The feature extraction At the same time, analysis of the document and label the potential relationship, extracting local features. Document to document global features and local features as high-level text representation, so as to improve the probability of sparse labeling prediction. Then, this paper use Parser to construct semantic tag tree, extract the original label set contains the document of minimal subtree, and the subtree traversal sequence generation as a new label of the document (sequence). Using LSTM model to label each document (sequence) were studied and predicted. The experimental results show that LSTM2 algorithm can effectively solve the problem of unbalanced prediction of multi label text.
【學位授予單位】:北京科技大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 彭佳;;另一種文本中心——回應尤里·洛特曼的文本觀[J];符號與傳媒;2011年02期
2 王霞;;巧將文本數(shù)值變?yōu)閿?shù)字[J];科學24小時;2006年09期
3 孫艷妙;CSS樣式在Flash MX 2004中的應用[J];中小學電教;2005年08期
4 尤里·M·洛特曼;彭佳;;文本運動過程——從作者到讀者,從作者到文本[J];符號與傳媒;2011年02期
5 薛笛;;打造多彩的文本[J];程序員;2006年03期
6 劉全升;姚天f ;黃高輝;劉軍;宋鴻彥;;漢語意見型主觀性文本類型體系的研究[J];中文信息學報;2008年06期
7 陳立強;;論電視頻道自文本導讀系統(tǒng)及其功能[J];新聞知識;2008年02期
8 許延祥;羅鐵堅;周佳;王竹;;評價文本中意見分布規(guī)律研究[J];中文信息學報;2014年03期
9 ?蓜;;在物理課件中讓文本滾動起來[J];實驗教學與儀器;2005年04期
10 陳立強;張宜遷;;電視導讀的多媒介聯(lián)動現(xiàn)象及其意義[J];中國廣播電視學刊;2008年08期
相關(guān)會議論文 前4條
1 張智軍;沈f ;朱偉;;文本組織方式對介紹性文章搜索績效的影響研究[A];中國人類工效學學會第六次學術(shù)交流會論文摘要匯編[C];2003年
2 岳福新;白玫;;淺析英語旅游信息文本的寫作與翻譯[A];譯學辭典與翻譯研究——第四屆全國翻譯學辭典與翻譯理論研討會論文集[C];2007年
3 劉全升;姚天f ;黃高輝;劉軍;宋鴻彥;;漢語意見型主觀性文本類型體系的研究[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
4 程世和;;“《詩》亡然后《春秋》作”——對一個文學缺失時代的文學反題之研究[A];東方叢刊(2004年第4輯 總第五十輯)[C];2004年
相關(guān)重要報紙文章 前8條
1 李承貴;學術(shù)視域中的文本[N];社會科學報;2001年
2 山東 王霞;巧將文本數(shù)值變數(shù)字[N];電子報;2006年
3 江蘇 許向前;在課件中讓文本滾動起來[N];電腦報;2004年
4 遼寧 鳴澗;為光盤制作漂亮的封套[N];電腦報;2002年
5 ;制作CD封套[N];電腦報;2002年
6 廣東 Pcking;FlashMX 2004新功能實戰(zhàn)[N];電腦報;2003年
7 王先明 李尹蒂;關(guān)于義和團各種記憶文本類型比較[N];團結(jié)報;2010年
8 編譯 李茂;美國統(tǒng)一課程標準定稿[N];中國教師報;2010年
相關(guān)博士學位論文 前8條
1 閆琰;基于深度學習的文本表示與分類方法研究[D];北京科技大學;2016年
2 劉健;基于近似文本分析的意見挖掘[D];上海大學;2007年
3 陳潔倩;閱讀理解的文本類型和答題形式對外語水平的效力[D];上海外國語大學;2006年
4 劉桂蘭;論重譯的世俗化取向[D];上海外國語大學;2011年
5 段瑞雪;基于依存關(guān)系的用戶意圖的研究[D];北京郵電大學;2011年
6 周順先;文本信息抽取模型及算法研究[D];湖南大學;2007年
7 孟朋;自然語言信息隱藏與檢測研究[D];中國科學技術(shù)大學;2012年
8 黃永文;中文產(chǎn)品評論挖掘關(guān)鍵技術(shù)研究[D];重慶大學;2009年
相關(guān)碩士學位論文 前10條
1 王愛;《與魯本·伍爾夫一起戰(zhàn)斗》翻譯實踐報告[D];內(nèi)蒙古大學;2015年
2 張曉葉;文本類型視角下《2011年經(jīng)濟合作與發(fā)展組織對醫(yī)療系統(tǒng)的審核:瑞士》的翻譯報告[D];華南理工大學;2015年
3 鐘超瑋;基于區(qū)間的文本相似搜索及其在檔案清洗中的應用[D];南京大學;2015年
4 張新宇;目的論視角下經(jīng)濟類文本的漢譯[D];蘭州大學;2015年
5 拓華;等效論指導下生態(tài)批評文本的翻譯探索[D];蘭州大學;2015年
6 薄璐璐;經(jīng)濟史文本漢譯技巧研究[D];蘭州大學;2015年
7 姚南;從目的論視角看說明書的英漢翻譯[D];華中師范大學;2015年
8 趙琴;文本類型理論視角下中國國防白皮書的英譯[D];華中師范大學;2015年
9 張琴;文本類型理論視角下的科技論文摘要英譯[D];南京理工大學;2015年
10 李丹卉;《當今的生活規(guī)劃—德國年輕人想要如何生活》節(jié)譯報告[D];四川外國語大學;2015年
,本文編號:1537167
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1537167.html