融合PAM主題模型的領(lǐng)域歷史沿革信息抽取方法
發(fā)布時間:2017-08-21 02:24
本文關(guān)鍵詞:融合PAM主題模型的領(lǐng)域歷史沿革信息抽取方法
更多相關(guān)文章: 信息抽取 歷史沿革 混合卷積樹核 TextRank PAM
【摘要】:歷史沿革信息是包含某一事物或者概念發(fā)展演化過程的信息,對于那些概念種類繁多、概念演變演化迅速的領(lǐng)域,如軟件工程、計(jì)算機(jī)技術(shù)等,進(jìn)行歷史沿革信息的抽取并構(gòu)建歷史沿革信息知識庫,有助于領(lǐng)域知識的獲取、復(fù)用及推理,并對很多領(lǐng)域都有重要的應(yīng)用價值。同時,網(wǎng)絡(luò)維基百科所包含的豐富內(nèi)容,有很高的應(yīng)用價值,故本文以維基百科為數(shù)據(jù)來源進(jìn)行歷史沿革信息的抽取。針對網(wǎng)絡(luò)百科中領(lǐng)域歷史沿革信息抽取的問題,本文提出一種卷積樹核和PAM主題模型相結(jié)合的歷史沿革信息抽取方法,該方法首先通過構(gòu)建語句的句法分析樹,在此基礎(chǔ)上計(jì)算混合卷積樹核來抽取動詞-實(shí)體關(guān)系,以維基百科搜索軟件工程領(lǐng)域相關(guān)的3728個頁面,再利用相應(yīng)的規(guī)則篩選過濾后等到4069個句子為實(shí)驗(yàn)基礎(chǔ),進(jìn)行混合卷積樹核的實(shí)驗(yàn),其準(zhǔn)確率達(dá)到65.35%,實(shí)驗(yàn)結(jié)果表明,該方法能達(dá)到對維基百科軟件工程領(lǐng)域歷史沿革相關(guān)概念及其關(guān)系的精細(xì)抽取,但該方法對于不規(guī)范文本的抽取效果不理想,在沒有進(jìn)行大量的文本篩選及預(yù)處理之前,其抽取的準(zhǔn)確率會大大降低;本文又基于PAM主題模型將歷史沿革信息、作為一種特殊的主題進(jìn)行建模,抽取與歷史沿革主題相關(guān)的概念,在同樣3728個頁面所構(gòu)造的文檔集的基礎(chǔ)上進(jìn)行實(shí)驗(yàn),對所有網(wǎng)絡(luò)文檔集進(jìn)行建模并抽取歷史沿革主題相關(guān)的概念,其準(zhǔn)確率達(dá)到64.69%,基于PAM的抽取方法無需過多依賴文本的規(guī)范程度,相比于混合卷積樹核的方法更適合于網(wǎng)絡(luò)文本的處理。在此基礎(chǔ)上,又與改進(jìn)的TextRank算法和主題偏好TextRank算法相結(jié)合,進(jìn)一步提高了在抽取歷史沿革相關(guān)概念上的抽取效果,從而可以大大提高歷史沿革信息抽取的準(zhǔn)確度。
【關(guān)鍵詞】:信息抽取 歷史沿革 混合卷積樹核 TextRank PAM
【學(xué)位授予單位】:內(nèi)蒙古師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 中文摘要4-5
- ABSTRACT5-9
- 第1章 引言9-15
- 1.1 研究背景9-10
- 1.1.1 問題來源9-10
- 1.2 意義與應(yīng)用10-11
- 1.3 國內(nèi)外相關(guān)研究11-13
- 1.3.1 實(shí)體抽取11-12
- 1.3.2 實(shí)體關(guān)系抽取12-13
- 1.4 研究內(nèi)容及工作13
- 1.5 論文結(jié)構(gòu)13-15
- 第2章 歷史沿革信息抽取相關(guān)介紹15-17
- 2.1 歷史沿革信息的表達(dá)15
- 2.2 基于網(wǎng)絡(luò)百科的歷史沿革信息抽取策略15-17
- 第3章 基于混合卷積樹核與改進(jìn)TextRank的歷史沿革信息抽取17-22
- 3.1 混合卷積樹核的計(jì)算17-18
- 3.2 基于混合卷積樹核的實(shí)體-動詞關(guān)系抽取18-20
- 3.3 改進(jìn)TextTank算法抽取關(guān)鍵實(shí)體20-22
- 第4章 融合PAM和主題偏好TextRank的歷史沿革信息抽取22-29
- 4.1 PAM概率模型介紹22-25
- 4.2 基于PAM構(gòu)建歷史沿革主題信息25-27
- 4.2.1 歷史沿革主題特征25-26
- 4.2.2 加入歷史沿革主題特征的Gibbs采樣26-27
- 4.3 主題偏好TextRank27-29
- 第5章 實(shí)驗(yàn)結(jié)果與分析29-38
- 5.1 混合卷積樹核抽取方法實(shí)驗(yàn)及結(jié)果分析29-32
- 5.2 基于PAM的實(shí)驗(yàn)過程及結(jié)果分析32-36
- 5.3 兩種方法的對比分析36-38
- 第6章 總結(jié)與展望38-40
- 6.1 全文總結(jié)38-39
- 6.2 工作展望39-40
- 參考文獻(xiàn)40-42
- 致謝42-43
- 攻讀學(xué)位期間發(fā)表的科研論文及學(xué)術(shù)成果43
本文編號:710291
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/710291.html
最近更新
教材專著