一個大規(guī)模數(shù)據(jù)下的語義實體挖掘與語義實體關(guān)系歸并的新框架
本文關(guān)鍵詞:一個大規(guī)模數(shù)據(jù)下的語義實體挖掘與語義實體關(guān)系歸并的新框架
更多相關(guān)文章: 語義實體識別 新詞識別 決策樹 SVM 語義實體關(guān)系與聯(lián)系
【摘要】:眾所周知,大多數(shù)文本數(shù)據(jù)中的語義實體都包含著對于理解該文本的十分重要的語義信息。因此,語義實體的識別以及識別后語義實體之間關(guān)系的歸并就對于那些需要使用到文本數(shù)據(jù)的語義信息的多媒體應(yīng)用具有十分重要的意義。但是目前在各個領(lǐng)域針對語義實體的處理方法諸如語義實體識別,新詞識別以及語義實體之間關(guān)系歸并等仍然存在著如準確率以及召回率不夠高等很多問題。為了解決這些問題,本文提出了一個兩階段的語義實體處理框架來同時解決大規(guī)模文本數(shù)據(jù)中的語義實體識別以及語義實體關(guān)系歸并。在第一階段的語義實體識別中,我們提出了一個新策略即通過集成統(tǒng)計特征,決策樹算法(DT),以及支持向量機算法(SVM)來實現(xiàn)從文本中抽取語義實體。與傳統(tǒng)的方法進行比較后,我們發(fā)現(xiàn)本文所提出的新策略能夠更加有效地對語義實體進行識別與檢測,并且對新數(shù)據(jù)中出現(xiàn)的語義實體十分敏感,因此能較為準確地對新詞進行抽取。在第一階段高效的從文本數(shù)據(jù)中抽取出語義實體之后,本文提出的語義實體處理框架的第二階段即語義實體關(guān)系(SER)歸并算法將對第一階段中抽取出的語義實體進行聚類。在本文中,我們提出了一個新的分類方法并結(jié)合使用諸如相似度特征和共現(xiàn)概率等特征來解決聚類問題并發(fā)現(xiàn)語義實體之間的關(guān)系。為了驗證該框架的有效性,在本文中我們通過詳細及全面的實驗證明了本文所提出的框架在語義實體的檢測上要優(yōu)于目前最好及最常用的方法,同時可以從大規(guī)模文本數(shù)據(jù)中提取出的語義實體中找出80%有關(guān)系的語義實體對。不僅如此,本文還將該框架應(yīng)用到了期貨價格走勢預(yù)測上,通過實例驗證進一步證明了該框架的有效性。
【關(guān)鍵詞】:語義實體識別 新詞識別 決策樹 SVM 語義實體關(guān)系與聯(lián)系
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 論文摘要6-7
- ABSTRACT7-11
- 第一章 緒論11-17
- 1.1 研究背景和意義11-12
- 1.2 研究現(xiàn)狀12-15
- 1.3 本文提出的新算法15
- 1.4 本文的目標和貢獻15
- 1.5 本文結(jié)構(gòu)15
- 1.6 本文小結(jié)15-17
- 第二章 語義實體挖掘與關(guān)系歸并系統(tǒng)框架整體介紹17-21
- 2.1 系統(tǒng)整體結(jié)構(gòu)與使用策略介紹17-20
- 2.2 本章小結(jié)20-21
- 第三章 語義實體挖掘算法部分介紹21-30
- 3.1 語義實體識別算法中使用到的特征與抽取算法21-27
- 3.1.1 內(nèi)部統(tǒng)計特征22-24
- 3.1.2 外部統(tǒng)計特征24-26
- 3.1.3 新穎性統(tǒng)計特征26-27
- 3.2 DT-SVM分類方法27-29
- 3.3 本章小結(jié)29-30
- 第四章 語義實體關(guān)系抽取算法部分介紹30-36
- 4.1 語義實體關(guān)系抽取中使用到的特征30-34
- 4.2 語義實體關(guān)系抽取算法34-35
- 4.3 本章小結(jié)35-36
- 第五章 期貨數(shù)據(jù)中語義實體挖掘與語義實體關(guān)系歸并框架的應(yīng)用36-45
- 5.1 期貨數(shù)據(jù)價格的整體預(yù)測框架36-37
- 5.2 期貨數(shù)據(jù)預(yù)測模型具體策略分析37-45
- 5.2.1 原始數(shù)據(jù)處理與特征抽取38-43
- 5.2.2 原始數(shù)據(jù)處理與特征抽取43-45
- 第六章 實驗以及案例分析45-57
- 6.1 新聞數(shù)據(jù)實驗設(shè)計與驗證45-52
- 6.2 期貨數(shù)據(jù)實驗設(shè)計與驗證52-55
- 6.3 本章小結(jié)55-57
- 第七章 總結(jié)與展望57-58
- 附錄58-59
- 參考文獻59-63
- 致謝63
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊緒兵,韓自存;ε不敏感的核Adaline算法及其在圖像去噪中的應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2003年04期
2 陶秀鳳,唐詩忠,周鳴爭;基于支持向量機的軟測量模型及應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2004年02期
3 許高程;張文君;王衛(wèi)紅;;支持向量機技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2009年06期
4 郭立萍;唐家奎;米素娟;張成雯;趙理君;;基于支持向量機遙感圖像融合分類方法研究進展[J];安徽農(nóng)業(yè)科學(xué);2010年17期
5 馮學(xué)軍;;最小二乘支持向量機的研究與應(yīng)用[J];安慶師范學(xué)院學(xué)報(自然科學(xué)版);2009年01期
6 鄒心遙;姚若河;;基于LSSVM的威布爾分布形狀參數(shù)估計(英文)[J];半導(dǎo)體技術(shù);2008年06期
7 鄒心遙;姚若河;;基于LSSVM的小子樣元器件壽命預(yù)測[J];半導(dǎo)體技術(shù);2011年09期
8 李卓遠,吳為民,王e,
本文編號:812854
本文鏈接:http://sikaile.net/jingjilunwen/qihuoqq/812854.html