基于多源異構(gòu)數(shù)據(jù)融合的概念層次體系構(gòu)建及其應(yīng)用研究
本文選題:概念層次體系 + 關(guān)鍵詞抽取; 參考:《南京理工大學(xué)》2017年碩士論文
【摘要】:領(lǐng)域?qū)<覙?gòu)建豐富的領(lǐng)域概念層次體系,將領(lǐng)域知識自頂向下、逐層分類,方便用戶檢索與獲取信息。同時,概念層次體系構(gòu)建還能為自動問答、機器翻譯等研究提供支持。目前,傳統(tǒng)的手工構(gòu)建與半自動構(gòu)建方法效率低、成本高、跨平臺使用難度大;而自動構(gòu)建方法則往往依賴于單一語料,抽取出的概念不夠準(zhǔn)確,層次關(guān)系比較單一。為此,本論文結(jié)合半結(jié)構(gòu)化的專業(yè)語料庫與非結(jié)構(gòu)化的用戶生成內(nèi)容(User Genetrated Conent,UGC),利用多源異構(gòu)數(shù)據(jù)融合的方法構(gòu)建概念層次體系。一方面,利用專業(yè)領(lǐng)域語料庫,初步構(gòu)建概念層次體系;另一方面,針對非結(jié)構(gòu)UGC,分別進行關(guān)鍵詞抽取、詞語相似度計算、概念層次體系構(gòu)建等三個方面的研究。首先,在關(guān)鍵詞抽取研究中,本文結(jié)合模式匹配、統(tǒng)計特征排序、序列標(biāo)注等多種關(guān)鍵詞抽取策略,提出一種基于種子詞擴展的關(guān)鍵詞抽取方法。首先,基于模式匹配與統(tǒng)計特征排序的策略獲得種子詞;其次,基于條件隨機場(Conditional Random Fields,CRFs)模型擴展種子詞。本文通過與 TF*IDF、TextRank、NC_value、CRFs 等算法進行對比試驗,證明本文策略不僅可以擺脫統(tǒng)計特征抽取對高頻詞的依賴,還能在一定程度上解決句法模板的限制,獲得更高的召回率。其次,在詞語相似度計算研究中,本文提出一種基于多源知識融合的詞語相似度計算方法。首先,分別基于語詞知識體系(同義詞詞林、知網(wǎng))、大規(guī)模語料資源(微博語料、新聞?wù)Z料)、搜索引擎資源(百度、必應(yīng)),通過單獨的算法計算詞語相似度;其次,基于支持向量機回歸機(Support Vector Regression,SVR)集成多個算法的計算結(jié)果,獲得最終的詞語相似度。實驗結(jié)果表明,當(dāng)訓(xùn)練集數(shù)據(jù)量足夠大時,本文方法在性能及算法穩(wěn)定性上,都要遠高于其他幾種單獨的算法。最后,在概念層次體系構(gòu)建研究中,本文通過Kmeans聚類算法獲得概念間的層次關(guān)系。由于不同聚類算法獲得的聚類結(jié)果存在較大差異,因此,本文對比相似性傳播算法(Affinity Propagation,AP)、層次聚類算法(Hierarchical Clustering),通過聚類評估量化評價其聚類效果,并據(jù)此確定合適的聚類算法。本文將基于UGC的概念層次體系與基于專業(yè)領(lǐng)域語料庫的概念層次體系進行融合,最終得到的該領(lǐng)域的概念層次體系。為了評價該概念層次體系的質(zhì)量,本文使用外部評估方法,即通過應(yīng)用來評價概念層次體系的質(zhì)量。通過情感分析任務(wù)的實驗表明,基于概念層次體系擴充情感向量空間維度,可以顯著提升情感分析系統(tǒng)的性能,同時也證明本文構(gòu)建的概念層次體系的有效性。
[Abstract]:This paper proposes a method of keyword extraction based on multi - source heterogeneous data fusion . Firstly , this paper combines semi - structured professional corpus and non - structured user - generated content ( UGC ) to construct conceptual hierarchy system . In order to evaluate the quality of the concept hierarchy system , this paper uses the concept hierarchy system of UGC to evaluate its clustering effect . Finally , this paper uses the concept hierarchy system of UGC to evaluate its clustering effect .
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 胡江滔,汪衛(wèi),周傲英;基于抽樣的概念層次挖掘算法[J];計算機應(yīng)用與軟件;2001年03期
2 溫春;石昭祥;張霄;;本體概念層次獲取方法綜述[J];計算機應(yīng)用與軟件;2010年09期
3 李穎,丁華東,許世蒙,羅九林,黃曾陽;概念層次網(wǎng)絡(luò)中對偶性設(shè)計[J];裝甲兵工程學(xué)院學(xué)報;2002年01期
4 王麗珍,周麗華,陳紅梅;基于概念層次樹的例外挖掘方法研究[J];計算機工程與應(yīng)用;2002年11期
5 楊學(xué)兵,蔡慶生;連續(xù)值屬性的概念層次自動提取算法[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2003年12期
6 溫春;石昭祥;張亮;;中文領(lǐng)域本體概念層次獲取方法對比研究[J];計算機應(yīng)用研究;2009年08期
7 田鳳珍;韓憲忠;陳晨;王克儉;;基于概念層次樹的用戶特征挖掘技術(shù)[J];微型機與應(yīng)用;2011年05期
8 張錦;馮嘉禮;史小宏;;基于定性映射模型的概念層次樹構(gòu)建方法[J];計算機輔助工程;2006年01期
9 宣士斌;;基于概念相容性的概念樹自動生成算法[J];計算機工程與應(yīng)用;2007年06期
10 楊學(xué)兵;基于概念層次的關(guān)聯(lián)規(guī)則挖掘算法[J];安徽工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2003年04期
相關(guān)會議論文 前5條
1 陳曉云;楊曉娟;張彥哲;;離散化與概念層次的產(chǎn)生[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
2 ;HNC(概念層次網(wǎng)絡(luò))理論[A];中國中文信息學(xué)會第六次全國會員代表大會暨成立二十五周年學(xué)術(shù)會議中文信息處理重大成果匯報展資料匯編[C];2006年
3 黃嫻;陶寧薇;;基于概念層次網(wǎng)絡(luò)(HNC)理論的省略恢復(fù)研究[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
4 陳紅梅;王麗珍;;對象概念層次樹的構(gòu)造[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年
5 熊亮;;優(yōu)先排除全局動詞假設(shè)的策略研究[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年
相關(guān)重要報紙文章 前1條
1 記者鄭千里;火眼金睛識別紅黑網(wǎng)絡(luò)信息[N];科技日報;2002年
相關(guān)碩士學(xué)位論文 前4條
1 周璐;云環(huán)境中基于語義特征的加密文檔檢索方案研究[D];南京信息工程大學(xué);2015年
2 張曉勇;基于多源異構(gòu)數(shù)據(jù)融合的概念層次體系構(gòu)建及其應(yīng)用研究[D];南京理工大學(xué);2017年
3 陳逸凡;基于概念層次的網(wǎng)絡(luò)挖掘技術(shù)[D];上海交通大學(xué);2008年
4 肖娟;基于概念層次樹的數(shù)據(jù)挖掘算法及在CRM中的應(yīng)用[D];浙江工業(yè)大學(xué);2004年
,本文編號:1943326
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1943326.html