短文本信息抽取若干技術(shù)研究
本文關(guān)鍵詞: 信息抽取 短文本 微博事件抽取 5W1H 情感分析 商品評論 情感詞擴(kuò)充 出處:《中國科學(xué)技術(shù)大學(xué)》2016年博士論文 論文類型:學(xué)位論文
【摘要】:隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲透到人們生活中的各個(gè)角落,成為人們生活中不可缺少的一部分。互聯(lián)網(wǎng)的飛速發(fā)展帶來了各種各樣數(shù)量巨大的信息,這些信息正以爆炸式的速度增長.如何有效地獲取、保存和利用這些信息是現(xiàn)在大數(shù)據(jù)時(shí)代的重要課題。在互聯(lián)網(wǎng)海量信息中,用戶在各種社交網(wǎng)絡(luò)平臺中發(fā)布的信息增長尤為迅速,這些社交網(wǎng)絡(luò)中的信息文本較短、用戶語言較為隨意、文本語法性較差,我們將其統(tǒng)稱為“短文本氣具有代表性的短文本有微博、商品評論、BBS論壇發(fā)言等。短文本的出現(xiàn)給傳統(tǒng)的Web信息抽取工作帶來了許多機(jī)遇和挑戰(zhàn)。由于社交網(wǎng)絡(luò)中的短文本信息最大、信息維度廣,使得一些在短文本中的信息抽取任務(wù)非常有價(jià)值,這些任務(wù)包括事件檢測和事件分析、情感分析、知識圖譜挖掘等。然而短文本的文本特性給在短文本中的信息抽取工作帶來了困難和挑戰(zhàn),如何有效地在短文本中進(jìn)行信息抽取也成為了一個(gè)研究熱點(diǎn)。本文針對短文本信息抽取中的幾個(gè)關(guān)鍵問題,即微博事件抽取、微博事件語義元素抽取和商品評論情感分析展開研究。微博事件抽取旨在從微博數(shù)據(jù)中抽取出用戶所需要的事件。微博平臺龐大的用戶群體帶來了數(shù)據(jù)量巨大的微博文本,這些微博文本中包含著許許多多事件信息,這使得微博在對事件的報(bào)道上比傳統(tǒng)新聞媒體更具優(yōu)勢。如何有效地從微博中抽取出相關(guān)事件也成為了一項(xiàng)有意義的研究工作。對于抽取出的微博事件,如何為這些事件尋找一種完整且直觀的表達(dá)方式也是一個(gè)重要的課題。本文使用新聞學(xué)中事件的語義元素5W1 H(When, Where, Who, What, Whom和How)對抽取出的微博事件進(jìn)行表達(dá)。事件的5W1 H語義元素對于完整地描述一個(gè)微博事件非常有幫助,如何在語言較為隨意的微博文本中抽取事件的語義元素也是一項(xiàng)有價(jià)值的工作。商品評論情感分析旨在于抽取用戶在商品評論中表現(xiàn)出的情感傾向性。在電子商務(wù)發(fā)展迅猛的今天,網(wǎng)上購物已經(jīng)成為許多人購物時(shí)的首選。通過對用戶商品評論的情感傾向性進(jìn)行有效挖掘,不僅能夠方便用戶做出購買決策,還能使商家更好地完善商品,提升銷量。本文針對以上幾個(gè)短文本信息抽取中的研究問題提出了一系列解決方法,本文的主要貢獻(xiàn)可以總結(jié)為如下幾點(diǎn):1.對于微博事件抽取問題,由于命名實(shí)體信息是一個(gè)事件的重要組成部分.對于不同類型的事件,事件文本中不同類型的命名實(shí)體分布也不相同,因此將命名實(shí)體信息加入到事件抽取的過程中,可以提升抽取的效果。本文將事件的類型定義為事件中不同類型命名實(shí)體的概率分布。通過提出一種基于機(jī)器學(xué)習(xí)的方法,自動抽取事件微博文本中的事件類型。通過文本聚類的方法抽取微博事件,在聚類的過程中,通過加入抽取出的事件類型信息,提升了聚類的效果。2.針對已有的對微博事件的表達(dá)方式不能完整地描述一個(gè)事件的問題,本文使用事件語義元素5W1H對事件進(jìn)行表達(dá)。由于微博的文本特點(diǎn),傳統(tǒng)在Web網(wǎng)頁上抽取事件語義元素的方法在微博文本中效果較差,因此本文提出了新的方法對徽博事件語義元素進(jìn)行抽取。對于When和Where元素,本文提出了一種基于粒度的自粗向細(xì)的抽取方法,該方法考慮了不同粒度上的時(shí)間/地理信息,通過粒度上自粗向細(xì)的逐層抽取方法提升了抽取效果。對于Who、What和Whom元素,本文提出了一種詞語聚類和鏈接的方法。該方法通過將不同句子成分中的詞語進(jìn)行聚類使得對同一實(shí)體的不同表達(dá)被聚類在相同的詞語簇中,再利用不同句子成分中詞語的共現(xiàn)關(guān)系將詞語簇進(jìn)行鏈接,得到事件語義元素。這種方法較為有效地解決了事件微博簇中對于同一實(shí)體存在不同表達(dá)方式的問題,因此提升了事件語義元素的抽取效果。3.對于商品評論情感分析問題.由于在一條評論文本中用戶對于商品的不同維度可能存在不同的情感傾向性,傳統(tǒng)基于句子、篇章等的情感分析方法并不適用。為此本文提出了一個(gè)多維度商品評論情感分析的方法框架,旨在于抽取用戶對不同商品維度的情感傾向性。在該方法中,對于一個(gè)初始的商品評論長句,本文提出使用基于卷積神經(jīng)網(wǎng)絡(luò)的方法對句子進(jìn)行切分。經(jīng)過切分后的每個(gè)短句中只包含用戶對最多一個(gè)商品維度的評價(jià)。對于每個(gè)短句.本文使用文本和維度關(guān)鍵詞之間的相關(guān)性將其與一個(gè)商品維度建立映射關(guān)系,并最后在該商品維度下進(jìn)行情感分類。針對情感分析中相同的情感詞在不同的商品維度下表現(xiàn)出的情感極性可能不同的問題,本文使用半自動的方法為每個(gè)商品維度構(gòu)建了維度情感詞典,通過使用維度情感詞典,情感分析的效果得到了提升。本文的研究較好地緩解了短文本用戶語言較為隨意、語法不規(guī)范等問題對傳統(tǒng)信息抽取工作帶來的影響。論文提出了微博事件類型抽取算法、基于事件類型的微博事件抽取方法、微博事件5W1H語義元素抽取算法、多維度商品評論情感分析方法等一系列新的設(shè)計(jì),并在真實(shí)數(shù)據(jù)集上驗(yàn)證了所有算法的有效性,為今后信息抽取技術(shù)在短文本上的應(yīng)用提供了參考。
[Abstract]:......
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報(bào)科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期
相關(guān)會議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年
相關(guān)博士學(xué)位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
5 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
6 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年
8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
9 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年
10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號:1537027
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1537027.html