天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

融合PAM主題模型的領(lǐng)域歷史沿革信息抽取方法

發(fā)布時(shí)間:2017-08-21 02:24

  本文關(guān)鍵詞:融合PAM主題模型的領(lǐng)域歷史沿革信息抽取方法


  更多相關(guān)文章: 信息抽取 歷史沿革 混合卷積樹(shù)核 TextRank PAM


【摘要】:歷史沿革信息是包含某一事物或者概念發(fā)展演化過(guò)程的信息,對(duì)于那些概念種類繁多、概念演變演化迅速的領(lǐng)域,如軟件工程、計(jì)算機(jī)技術(shù)等,進(jìn)行歷史沿革信息的抽取并構(gòu)建歷史沿革信息知識(shí)庫(kù),有助于領(lǐng)域知識(shí)的獲取、復(fù)用及推理,并對(duì)很多領(lǐng)域都有重要的應(yīng)用價(jià)值。同時(shí),網(wǎng)絡(luò)維基百科所包含的豐富內(nèi)容,有很高的應(yīng)用價(jià)值,故本文以維基百科為數(shù)據(jù)來(lái)源進(jìn)行歷史沿革信息的抽取。針對(duì)網(wǎng)絡(luò)百科中領(lǐng)域歷史沿革信息抽取的問(wèn)題,本文提出一種卷積樹(shù)核和PAM主題模型相結(jié)合的歷史沿革信息抽取方法,該方法首先通過(guò)構(gòu)建語(yǔ)句的句法分析樹(shù),在此基礎(chǔ)上計(jì)算混合卷積樹(shù)核來(lái)抽取動(dòng)詞-實(shí)體關(guān)系,以維基百科搜索軟件工程領(lǐng)域相關(guān)的3728個(gè)頁(yè)面,再利用相應(yīng)的規(guī)則篩選過(guò)濾后等到4069個(gè)句子為實(shí)驗(yàn)基礎(chǔ),進(jìn)行混合卷積樹(shù)核的實(shí)驗(yàn),其準(zhǔn)確率達(dá)到65.35%,實(shí)驗(yàn)結(jié)果表明,該方法能達(dá)到對(duì)維基百科軟件工程領(lǐng)域歷史沿革相關(guān)概念及其關(guān)系的精細(xì)抽取,但該方法對(duì)于不規(guī)范文本的抽取效果不理想,在沒(méi)有進(jìn)行大量的文本篩選及預(yù)處理之前,其抽取的準(zhǔn)確率會(huì)大大降低;本文又基于PAM主題模型將歷史沿革信息、作為一種特殊的主題進(jìn)行建模,抽取與歷史沿革主題相關(guān)的概念,在同樣3728個(gè)頁(yè)面所構(gòu)造的文檔集的基礎(chǔ)上進(jìn)行實(shí)驗(yàn),對(duì)所有網(wǎng)絡(luò)文檔集進(jìn)行建模并抽取歷史沿革主題相關(guān)的概念,其準(zhǔn)確率達(dá)到64.69%,基于PAM的抽取方法無(wú)需過(guò)多依賴文本的規(guī)范程度,相比于混合卷積樹(shù)核的方法更適合于網(wǎng)絡(luò)文本的處理。在此基礎(chǔ)上,又與改進(jìn)的TextRank算法和主題偏好TextRank算法相結(jié)合,進(jìn)一步提高了在抽取歷史沿革相關(guān)概念上的抽取效果,從而可以大大提高歷史沿革信息抽取的準(zhǔn)確度。
【關(guān)鍵詞】:信息抽取 歷史沿革 混合卷積樹(shù)核 TextRank PAM
【學(xué)位授予單位】:內(nèi)蒙古師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 中文摘要4-5
  • ABSTRACT5-9
  • 第1章 引言9-15
  • 1.1 研究背景9-10
  • 1.1.1 問(wèn)題來(lái)源9-10
  • 1.2 意義與應(yīng)用10-11
  • 1.3 國(guó)內(nèi)外相關(guān)研究11-13
  • 1.3.1 實(shí)體抽取11-12
  • 1.3.2 實(shí)體關(guān)系抽取12-13
  • 1.4 研究?jī)?nèi)容及工作13
  • 1.5 論文結(jié)構(gòu)13-15
  • 第2章 歷史沿革信息抽取相關(guān)介紹15-17
  • 2.1 歷史沿革信息的表達(dá)15
  • 2.2 基于網(wǎng)絡(luò)百科的歷史沿革信息抽取策略15-17
  • 第3章 基于混合卷積樹(shù)核與改進(jìn)TextRank的歷史沿革信息抽取17-22
  • 3.1 混合卷積樹(shù)核的計(jì)算17-18
  • 3.2 基于混合卷積樹(shù)核的實(shí)體-動(dòng)詞關(guān)系抽取18-20
  • 3.3 改進(jìn)TextTank算法抽取關(guān)鍵實(shí)體20-22
  • 第4章 融合PAM和主題偏好TextRank的歷史沿革信息抽取22-29
  • 4.1 PAM概率模型介紹22-25
  • 4.2 基于PAM構(gòu)建歷史沿革主題信息25-27
  • 4.2.1 歷史沿革主題特征25-26
  • 4.2.2 加入歷史沿革主題特征的Gibbs采樣26-27
  • 4.3 主題偏好TextRank27-29
  • 第5章 實(shí)驗(yàn)結(jié)果與分析29-38
  • 5.1 混合卷積樹(shù)核抽取方法實(shí)驗(yàn)及結(jié)果分析29-32
  • 5.2 基于PAM的實(shí)驗(yàn)過(guò)程及結(jié)果分析32-36
  • 5.3 兩種方法的對(duì)比分析36-38
  • 第6章 總結(jié)與展望38-40
  • 6.1 全文總結(jié)38-39
  • 6.2 工作展望39-40
  • 參考文獻(xiàn)40-42
  • 致謝42-43
  • 攻讀學(xué)位期間發(fā)表的科研論文及學(xué)術(shù)成果43
,

本文編號(hào):710291

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/710291.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1f611***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com