面向文本分類任務(wù)的主題強(qiáng)化詞句嵌入模型研究
[Abstract]:In recent years, more and more attention has been paid to deep learning in the field of natural language processing. Neural language models and sentence embedding models based on deep learning have been proposed one after another. The advantages of low complexity have been widely studied and applied in academia and industry. However, it is obviously inappropriate to embed words and sentences that rely on the hypothesis of linguistic model distribution to be directly used in tasks such as text categorization, because the task of text categorization requires highly polar thematic features. The original sentence embedding model only captures the language rules and does not pay attention to the topic information mining. In order to make the word-sentence embedding model based on in-depth learning more suitable for the task of text classification, this paper proposes a topic enhancement model for the original model, which is expected to achieve higher text classification performance. Because a word with opposite semantic polarity may have similar local context, the original model can only use local context to train the distributed embedded representation of the word, so it is impossible to capture the semantic with opposite polarity. Therefore, this paper proposes to embed the long term context in the model with high order pure dependency, so as to enhance the emotional or topic information expressed by the distributed embedding of words and phrases, and then improve the performance of emotion analysis and topic mining tasks. The high-order pure dependency method has strict theoretical basis to ensure that the dependency between words in long term context is "pure", that is, word dependency is a complete semantic entity. And the joint probability distribution of words can not be decomposed by condition (and certainly not by non-conditional decomposition). This ensures that high-order word dependencies cannot be decomposed into several low-order dependencies of random co-occurrence, so that high-order pure dependencies can effectively model semantic rich, non-ambiguous subject information. In this paper, we apply the topic enhanced sentence embedding model to the emotional analysis and topic mining tasks based on the standard data set, which is superior to the performance of all the existing models. In the classification items of Chinese news corpus, compared with word bag model and LDA thematic model, linear and nonlinear classifiers are used, and the classification results are investigated from many angles. It is proved that the topic-enhanced word-sentence embedding model can compete with the existing mainstream text feature extraction methods.
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李天鐸;利用塑料模型設(shè)計高技術(shù)產(chǎn)品[J];管理科學(xué)文摘;1999年02期
2 高俊波;安博文;王曉峰;;在線論壇中潛在影響力主題的發(fā)現(xiàn)研究[J];計算機(jī)應(yīng)用;2008年01期
3 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計算機(jī)應(yīng)用研究;2005年05期
4 常躍中;;計算機(jī)在建筑模型設(shè)計中的應(yīng)用[J];中國科技信息;2006年02期
5 王灝,王換招,劉洪斐;一個分布式入侵檢測系統(tǒng)模型的設(shè)計[J];微機(jī)發(fā)展;2003年01期
6 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2005年31期
7 劉洪星;陳明;;PowerDesigner設(shè)計XER模型的方法[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2006年02期
8 ;其它計算機(jī)與系統(tǒng)[J];電子科技文摘;2003年01期
9 ;TV Game秀[J];網(wǎng)絡(luò)與信息;2004年01期
10 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年08期
相關(guān)會議論文 前10條
1 馬智;杜雪濤;羅楓;;基于模式的網(wǎng)絡(luò)資源模型設(shè)計[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2009年年會論文集(上冊)[C];2009年
2 張霖;;面向復(fù)雜系統(tǒng)仿真的模型工程[A];新觀點新學(xué)說學(xué)術(shù)沙龍文集58:復(fù)雜系統(tǒng)建模仿真中的困惑和思考[C];2011年
3 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
4 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
5 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 李洪波;;從業(yè)務(wù)需求分析到軟件業(yè)務(wù)模型設(shè)計[A];創(chuàng)新驅(qū)動,加快戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展——吉林省第七屆科學(xué)技術(shù)學(xué)術(shù)年會論文集(上)[C];2012年
7 寧曉莉;尤揚;葛培勤;;基于狀態(tài)的Fuzz測試模型設(shè)計與實現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
8 李韜;周亮;;一種多屬性識別的模型設(shè)計[A];2008年中國西部青年通信學(xué)術(shù)會議論文集[C];2008年
9 鮑培明;;XML的語義結(jié)構(gòu)模型設(shè)計[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年
10 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
相關(guān)重要報紙文章 前5條
1 關(guān)石;層次化模型[N];計算機(jī)世界;2001年
2 本報記者 劉玉杰;模型藝術(shù):寓于建筑 超越建筑[N];建筑時報;2003年
3 邱桂奇;品筑模型:創(chuàng)新第一 服務(wù)制勝[N];中國房地產(chǎn)報;2012年
4 記者 李鵬;鄔榮領(lǐng):能預(yù)測生物未來的人[N];北京科技報;2012年
5 記者 沙星�!∫娏�(xí)記者 毛璽璽;一大學(xué)生開發(fā)出解決業(yè)內(nèi)難題軟件[N];平頂山日報;2010年
相關(guān)博士學(xué)位論文 前8條
1 余化鵬;復(fù)雜場景下的目標(biāo)檢測技術(shù)研究[D];電子科技大學(xué);2015年
2 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
3 馬威;云計算環(huán)境中高保證隔離模型及關(guān)鍵技術(shù)研究[D];北京交通大學(xué);2016年
4 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
5 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
6 薛利;面向證券應(yīng)用的WEB主題觀點挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
7 陶軍;基于非合作博弈模型的QoS分配中關(guān)鍵技術(shù)的研究[D];東南大學(xué);2005年
8 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應(yīng)用[D];浙江大學(xué);2017年
相關(guān)碩士學(xué)位論文 前10條
1 邢寧;面向文本分類任務(wù)的主題強(qiáng)化詞句嵌入模型研究[D];天津大學(xué);2016年
2 葛麗娟;基于出租汽車運營數(shù)據(jù)的交通基礎(chǔ)模型研究及計算[D];長安大學(xué);2015年
3 劉軒;最優(yōu)統(tǒng)計套利模型[D];上海交通大學(xué);2015年
4 鄭茂;篇章級聯(lián)想模型的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
6 楊春艷;基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
7 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
8 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年
9 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
10 任昱鳳;基于Hadoop的分布式主題爬蟲及其實現(xiàn)[D];陜西師范大學(xué);2015年
,本文編號:2383992
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2383992.html