微博客中的知識(shí)條目發(fā)現(xiàn)方法研究
發(fā)布時(shí)間:2022-01-04 07:54
隨著互聯(lián)網(wǎng)信息時(shí)代的到來,蘊(yùn)含在海量信息中的知識(shí)卻相對(duì)分散,如何從海量的文本信息中抽取特定的有用的知識(shí),是當(dāng)下文本處理領(lǐng)域亟待解決的問題之一。微博是目前比較熱門的媒體,微博中包含著豐富的文本信息,數(shù)據(jù)海量且更新速度快,因而成為新知識(shí)傳播的重要平臺(tái),也是獲得最新知識(shí)條目的重要來源。然而,由于微博興起時(shí)間不長,以及微博文本短小、信息量少,面向微博的知識(shí)獲取問題還遠(yuǎn)未得到充分的研究和解決。為此,本文從實(shí)際問題出發(fā),主要解決從給定的少量種子知識(shí)條目中進(jìn)行學(xué)習(xí),以從微博中自動(dòng)抽取更多類似知識(shí)條目的問題。在本文中,我們首先結(jié)合傳統(tǒng)的規(guī)則學(xué)習(xí)方法,提出了一種基于依存句法的模板匹配算法,根據(jù)句子的句法依存關(guān)系,僅分析有直接依賴關(guān)系的句法成分,降低了規(guī)則模板對(duì)訓(xùn)練集句子結(jié)構(gòu)的依賴程度。經(jīng)實(shí)驗(yàn)表明,該算法雖然精度偏低,但能夠僅由少量的種子知識(shí)條目來獲得較高的召回率,因而可以用于對(duì)種子知識(shí)條目集的大規(guī)模擴(kuò)充。在此基礎(chǔ)上,本文實(shí)現(xiàn)了基于統(tǒng)計(jì)的知識(shí)條目抽取算法。在傳統(tǒng)的統(tǒng)計(jì)模型中,基于條件隨機(jī)場CRFs的方法獲得了當(dāng)前的最好性能。然而,由于微博中句子短小、表達(dá)方式隨意,且與傳統(tǒng)知識(shí)抽取任務(wù)相比,上下文較少,這使...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題來源
1.2 課題目的及意義
1.3 國內(nèi)外研究現(xiàn)狀及分析
1.4 本文研究的主要內(nèi)容
第2章 知識(shí)條目抽取相關(guān)技術(shù)和理論
2.1 引言
2.2 相似度計(jì)算方法
2.3 條件隨機(jī)場模型
2.4 詞向量技術(shù)
2.5 聚類算法
2.5.1 K-means 聚類算法
2.5.2 近鄰傳播聚類算法
2.6 本章小結(jié)
第3章 知識(shí)條目抽取方法
3.1 引言
3.2 基于依存句法的模板匹配算法
3.2.1 算法概述
3.2.2 模板學(xué)習(xí)
3.2.3 模板匹配和知識(shí)抽取
3.3 基于依存句法和詞向量的 CRFS 算法
3.3.1 算法概述
3.3.2 標(biāo)注體系
3.3.3 特征模板
3.3.4 特征選擇
3.3.5 模型參數(shù)估計(jì)
3.3.6 結(jié)果標(biāo)注
3.4 本章小結(jié)
第4章 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
4.1 引言
4.2 系統(tǒng)概述
4.3 數(shù)據(jù)預(yù)處理
4.4 算法設(shè)計(jì)流程
4.5 實(shí)驗(yàn)前臺(tái)展示
4.6 本章小結(jié)
第5章 實(shí)驗(yàn)評(píng)測和結(jié)果分析
5.1 引言
5.2 評(píng)測方法
5.3 評(píng)測結(jié)果
5.3.1 基于依存句法的模板匹配算法
5.3.2 基于依存句法和詞向量的 CRFs 算法
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
本文編號(hào):3567986
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題來源
1.2 課題目的及意義
1.3 國內(nèi)外研究現(xiàn)狀及分析
1.4 本文研究的主要內(nèi)容
第2章 知識(shí)條目抽取相關(guān)技術(shù)和理論
2.1 引言
2.2 相似度計(jì)算方法
2.3 條件隨機(jī)場模型
2.4 詞向量技術(shù)
2.5 聚類算法
2.5.1 K-means 聚類算法
2.5.2 近鄰傳播聚類算法
2.6 本章小結(jié)
第3章 知識(shí)條目抽取方法
3.1 引言
3.2 基于依存句法的模板匹配算法
3.2.1 算法概述
3.2.2 模板學(xué)習(xí)
3.2.3 模板匹配和知識(shí)抽取
3.3 基于依存句法和詞向量的 CRFS 算法
3.3.1 算法概述
3.3.2 標(biāo)注體系
3.3.3 特征模板
3.3.4 特征選擇
3.3.5 模型參數(shù)估計(jì)
3.3.6 結(jié)果標(biāo)注
3.4 本章小結(jié)
第4章 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
4.1 引言
4.2 系統(tǒng)概述
4.3 數(shù)據(jù)預(yù)處理
4.4 算法設(shè)計(jì)流程
4.5 實(shí)驗(yàn)前臺(tái)展示
4.6 本章小結(jié)
第5章 實(shí)驗(yàn)評(píng)測和結(jié)果分析
5.1 引言
5.2 評(píng)測方法
5.3 評(píng)測結(jié)果
5.3.1 基于依存句法的模板匹配算法
5.3.2 基于依存句法和詞向量的 CRFs 算法
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
本文編號(hào):3567986
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3567986.html
最近更新
教材專著