天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

在線知識(shí)庫(kù)累積引文推薦技術(shù)研究

發(fā)布時(shí)間:2017-03-26 00:00

  本文關(guān)鍵詞:在線知識(shí)庫(kù)累積引文推薦技術(shù)研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,知識(shí)的存儲(chǔ)介質(zhì)從傳統(tǒng)圖書(shū)館轉(zhuǎn)向了在線知識(shí)庫(kù)(如維基百科,百度百科等),人類管理和獲取知識(shí)的方式也逐漸從線下轉(zhuǎn)向線上。在線知識(shí)庫(kù)(本文中簡(jiǎn)稱為知識(shí)庫(kù))已經(jīng)成為各項(xiàng)互聯(lián)網(wǎng)應(yīng)用的重要數(shù)據(jù)支持來(lái)源。目前在線知識(shí)庫(kù)的維護(hù)和更新主要依賴于人工編輯,導(dǎo)致現(xiàn)有的大規(guī)模在線知識(shí)庫(kù)很難及時(shí)更新。知識(shí)庫(kù)的時(shí)效性已經(jīng)成為制約知識(shí)庫(kù)廣泛應(yīng)用的瓶頸。在線知識(shí)庫(kù)累積引文推薦技術(shù)目的是利用計(jì)算機(jī)強(qiáng)大的信息處理能力,從海量互聯(lián)網(wǎng)文檔中過(guò)濾出與知識(shí)庫(kù)實(shí)體相關(guān)的文檔,并將其中真正重要的文檔作為引文推薦給知識(shí)庫(kù)維護(hù)人員,加快知識(shí)庫(kù)的構(gòu)建和更新。本論文的主要工作和貢獻(xiàn)總結(jié)如下:首先,介紹了知識(shí)庫(kù)構(gòu)建加速和累積引文推薦的研究背景,較為全面地總結(jié)了該領(lǐng)域的研究成果及其優(yōu)缺點(diǎn),為本文的后續(xù)工作提供了理論基礎(chǔ)。第二,介紹了知識(shí)庫(kù)累積引文推薦任務(wù)和機(jī)器學(xué)習(xí)方法,包括查詢擴(kuò)展、分類和排序?qū)W習(xí);為機(jī)器學(xué)習(xí)方法設(shè)計(jì)了語(yǔ)義特征和時(shí)序特征,并使用標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行了驗(yàn)證。第三,由于某些知識(shí)庫(kù)實(shí)體沒(méi)有足夠多的訓(xùn)練數(shù)據(jù),無(wú)法為其訓(xùn)練相關(guān)模型,本文提出一種全局判別模型,利用所有的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)通用分類模型,該方法在TREC-KBA-2013國(guó)際評(píng)測(cè)中取得了三項(xiàng)第一。由于完全忽略了實(shí)體之間的聯(lián)系,全局模型很難保證為每個(gè)目標(biāo)實(shí)體實(shí)現(xiàn)理想的引文推薦效果。為了解決這個(gè)問(wèn)題,在全局模型的基礎(chǔ)上引入表示實(shí)體類別的隱含層,本文實(shí)現(xiàn)了一種實(shí)體類別依賴的混合判別模型。該混合模型可以充分利用訓(xùn)練數(shù)據(jù),建模實(shí)體和隱含類別之間的聯(lián)系,靈活地處理不同類型的目標(biāo)實(shí)體和訓(xùn)練集中未出現(xiàn)的實(shí)體,泛化能力更強(qiáng)。第四,考慮到引文推薦任務(wù)中引文的質(zhì)量問(wèn)題,本文通過(guò)在全局判別模型中引入表示文檔類別的隱含變量,提出一種文檔類別依賴的混合判別模型。通過(guò)考慮文檔的來(lái)源和文檔的主題分布,建立了文檔和其隱含類型之間的概率語(yǔ)義分布,使得模型可以靈活處理不同類型的文檔。實(shí)驗(yàn)結(jié)果表明該模型能顯著提高引文推薦的準(zhǔn)確率和精確度。第五,詳細(xì)研究了知識(shí)庫(kù)引文推薦的冷啟動(dòng)問(wèn)題,F(xiàn)有引文推薦方法主要處理目標(biāo)實(shí)體已經(jīng)存在于知識(shí)庫(kù)中的情況,如果目標(biāo)實(shí)體在知識(shí)庫(kù)中沒(méi)有主頁(yè),監(jiān)督式學(xué)習(xí)方法中使用的特征集會(huì)面臨稀疏問(wèn)題。針對(duì)這一問(wèn)題,本文提出一種基于實(shí)體相關(guān)事件的語(yǔ)句聚類和文檔排序結(jié)合的方法,首先抽取文檔中的提及目標(biāo)實(shí)體的語(yǔ)句進(jìn)行聚類,然后在語(yǔ)句級(jí)別進(jìn)行特征抽取,最后進(jìn)行文檔排序?qū)W習(xí)。實(shí)驗(yàn)結(jié)果表明該方法能有效冷啟動(dòng)引文推薦中的特征向量稀疏問(wèn)題。
【關(guān)鍵詞】:知識(shí)庫(kù)構(gòu)建加速 累積引文推薦 信息過(guò)濾 混合模型 冷啟動(dòng)
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3;G250.74
【目錄】:
  • 摘要5-7
  • Abstract7-17
  • 第1章 緒論17-33
  • 1.1 研究背景和意義17-18
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)18-29
  • 1.2.1 實(shí)體鏈接19-21
  • 1.2.2 信息過(guò)濾21-23
  • 1.2.3 查詢擴(kuò)展23-26
  • 1.2.4 事件檢測(cè)26-27
  • 1.2.5 累積引文推薦27-29
  • 1.3 論文的組織結(jié)構(gòu)29-33
  • 第2章 在線知識(shí)庫(kù)累積引文推薦33-55
  • 2.1 問(wèn)題描述33-34
  • 2.2 數(shù)據(jù)集34-37
  • 2.2.1 目標(biāo)實(shí)體集合35
  • 2.2.2 文檔集合35
  • 2.2.3 標(biāo)注情況35-37
  • 2.3 文檔過(guò)濾37-39
  • 2.3.1 別名擴(kuò)展38
  • 2.3.2 查詢擴(kuò)展38-39
  • 2.4 特征選擇39-46
  • 2.4.1 語(yǔ)義特征39-41
  • 2.4.2 時(shí)序特征41-46
  • 2.4.3 時(shí)序特征表示46
  • 2.5 相關(guān)性模型46-48
  • 2.5.1 查詢擴(kuò)展46-47
  • 2.5.2 分類方法47
  • 2.5.3 排序?qū)W習(xí)47-48
  • 2.6 實(shí)驗(yàn)設(shè)計(jì)48-52
  • 2.6.1 任務(wù)場(chǎng)景48
  • 2.6.2 評(píng)價(jià)指標(biāo)48-49
  • 2.6.3 文檔過(guò)濾性能49-50
  • 2.6.4 相關(guān)性模型評(píng)價(jià)50-52
  • 2.7 特征分析52-53
  • 2.8 本章小結(jié)53-55
  • 第3章 實(shí)體類別依賴的混合判別模型55-73
  • 3.1 引言55-56
  • 3.2 任務(wù)描述56-57
  • 3.3 全局判別模型57-58
  • 3.4 考慮實(shí)體類別的混合判別模型58-62
  • 3.4.1 模型參數(shù)估計(jì)60-61
  • 3.4.2 混合模型優(yōu)勢(shì)61-62
  • 3.4.3 隱變量數(shù)目62
  • 3.5 特征選擇62-64
  • 3.5.1 實(shí)體文檔特征62
  • 3.5.2 實(shí)體類別特征62-64
  • 3.6 實(shí)驗(yàn)設(shè)計(jì)64-70
  • 3.6.1 數(shù)據(jù)集64-65
  • 3.6.2 任務(wù)場(chǎng)景65
  • 3.6.3 對(duì)比方法65-66
  • 3.6.4 隱變量數(shù)目分析66
  • 3.6.5 整體分析66-67
  • 3.6.6 細(xì)粒度比較67-68
  • 3.6.7 泛化能力68-70
  • 3.7 本章小結(jié)70-73
  • 第4章 文檔類別依賴的混合判別模型73-85
  • 4.1 引言73-74
  • 4.2 任務(wù)描述74
  • 4.3 全局判別模型74-75
  • 4.4 考慮文檔類別的混合判別模型75-78
  • 4.4.1 參數(shù)估計(jì)76-77
  • 4.4.2 模型對(duì)比77-78
  • 4.5 特征選擇78-80
  • 4.5.1 基于主題分布的特征78-79
  • 4.5.2 基于文檔來(lái)源的特征79-80
  • 4.6 實(shí)驗(yàn)設(shè)計(jì)80-83
  • 4.6.1 數(shù)據(jù)集80
  • 4.6.2 任務(wù)場(chǎng)景80
  • 4.6.3 方法對(duì)比80-81
  • 4.6.4 評(píng)價(jià)指標(biāo)81-82
  • 4.6.5 實(shí)驗(yàn)結(jié)果82-83
  • 4.6.6 隱變量數(shù)目分析83
  • 4.7 本章小結(jié)83-85
  • 第5章 引文推薦冷啟動(dòng)問(wèn)題85-97
  • 5.1 引言85-86
  • 5.2 任務(wù)定義86
  • 5.3 任務(wù)特點(diǎn)86-87
  • 5.4 相關(guān)性模型87-89
  • 5.4.1 基于實(shí)體相關(guān)事件的語(yǔ)句聚類87-88
  • 5.4.2 文檔排序88-89
  • 5.5 特征選擇89-91
  • 5.5.1 時(shí)間范圍89
  • 5.5.2 頭銜/職業(yè)特征89-91
  • 5.5.3 動(dòng)作模式91
  • 5.6 模型調(diào)整91-93
  • 5.7 實(shí)驗(yàn)設(shè)計(jì)93-95
  • 5.7.1 數(shù)據(jù)集93-94
  • 5.7.2 任務(wù)場(chǎng)景94
  • 5.7.3 實(shí)驗(yàn)方法94-95
  • 5.7.4 實(shí)驗(yàn)結(jié)果分析95
  • 5.8 本章小結(jié)95-97
  • 第6章 總結(jié)97-101
  • 6.1 本文工作總結(jié)97-98
  • 6.2 本文主要?jiǎng)?chuàng)新點(diǎn)98
  • 6.3 課題研究展望98-101
  • 參考文獻(xiàn)101-111
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄111-113
  • 攻讀學(xué)位期間參與的項(xiàng)目113-115
  • 致謝115-117
  • 作者簡(jiǎn)介117

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條

1 懷寶興;寶騰飛;祝恒書(shū);劉淇;;一種基于概率主題模型的命名實(shí)體鏈接方法[J];軟件學(xué)報(bào);2014年09期

2 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學(xué)報(bào);2008年01期

3 洪宇;張宇;劉挺;李生;;話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J];中文信息學(xué)報(bào);2007年06期

4 丁國(guó)棟;白碩;王斌;;一種基于局部共現(xiàn)的查詢擴(kuò)展方法[J];中文信息學(xué)報(bào);2006年03期

5 崔航,文繼榮,李敏強(qiáng);基于用戶日志的查詢擴(kuò)展統(tǒng)計(jì)模型[J];軟件學(xué)報(bào);2003年09期

6 徐小琳,闕喜戎,程時(shí)端;信息過(guò)濾技術(shù)和個(gè)性化信息服務(wù)[J];計(jì)算機(jī)工程與應(yīng)用;2003年09期


  本文關(guān)鍵詞:在線知識(shí)庫(kù)累積引文推薦技術(shù)研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):267937

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/267937.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6abed***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com