基于排序?qū)W習的知識庫引文推薦
發(fā)布時間:2020-02-26 14:14
【摘要】:知識庫引文推薦是指針對知識庫內(nèi)的實體,將與其相關(guān)的文檔進行自動的篩選與推薦。隨著知識庫在各個領(lǐng)域的廣泛應(yīng)用,知識庫引文推薦逐漸成為當前的研究熱點,例如文本檢索會議(TextRetrieval Conference,TREC)中的 KBA(Knowledge Base Acceleration)評測中就有針對引文推薦的任務(wù)CCR(Cumulative Citation Recommendation),本文研究的課題也是基于該任務(wù)。當前對知識庫引文推薦的研究,主要集中在將其建模為排序?qū)W習的檢索模型。通過對比不同引文推薦常用模型,本文提出了基于排序?qū)W習的引文推薦方法,在此基礎(chǔ)上將知識庫引文推薦歸結(jié)為三個關(guān)鍵問題:針對知識庫某一實體名的查詢擴展、針對文檔和實體的特征提取、以及判斷文檔與實體相關(guān)性的預(yù)測模型的選擇。本文的主要研究內(nèi)容和階段成果如下:1.提出了基于語義詞典與詞向量(wordembedding)相結(jié)合的實體查詢擴展算法。首先,通過利用DBpedia中的屬性特征實現(xiàn)基于語義詞典的實體查詢擴展算法;其次,分別利用WAF和word2vec算法實現(xiàn)基于詞向量的實體查詢擴展算法;最后將兩種算法結(jié)合起來,獲得最終的實體擴展結(jié)果。2.提取出本領(lǐng)域不常使用的語義特征、句法特征和時間特征,用以實現(xiàn)后續(xù)的相似性判斷。采用LDA和ESA算法來構(gòu)建語義特征,用以解決一詞多義問題。此外,本文發(fā)現(xiàn)句法特征和時間特征在知識庫引文推薦中同樣非常有效。3.在上述基礎(chǔ)上,采用point-wise、pair-wise和list-wise三種排序?qū)W習的方法,實現(xiàn)實體與文檔的相關(guān)性判斷。實驗證明,該方法比常用的知識庫引文推薦算法更有效。4.提出了線性模型將邏輯回歸與隨機森林分類器組合起來,完成排序?qū)W習算法,并最終實現(xiàn)相關(guān)性的判斷。實驗證明該方法比通用的排序?qū)W習更能有效解決知識庫引文推薦問題。5.設(shè)計并實現(xiàn)了完整的知識庫引文推薦系統(tǒng)。該系統(tǒng)在TREC KBA2014評測數(shù)據(jù)上的實驗結(jié)果與基線系統(tǒng)相比,F1值平均提升了19.8%。表明本文設(shè)計的算法能夠較好的解決引文推薦問題,且具有可行性。
【圖文】:
邐邐逡逑LDA是一個多層的生成式全概率生成模型,是對文本的語義特征建模方法,逡逑如下圖所示。LDA算法中包含詞、主題(語義)及文檔三個概念。LDA的建模逡逑過程如下:給定一個文檔集合,LDA將每個文檔都建模為一個主題的分布,每逡逑個主題建模為一個多項式分布來表示該主題生成詞的概率。在LDA模型中,這逡逑些主題在所有文檔中都存在而區(qū)分每個文檔的是:不同文檔有著一個特定的分布。逡逑LDA的模型包括參數(shù)(cc,邋P),a表示每個主題(即隱含語義)在整個文檔集中的逡逑重要性大小,p表示所有主題的分布情況。z表示文檔在每個詞上的主題的權(quán)重,逡逑0代表文檔中各個主題在文檔中的比重,W為文檔集中文檔的總數(shù),w是文檔的逡逑詞表示,/Vd表示該文檔的總詞數(shù)。逡逑相較于LSA或PLSA等模型,LDA有很明顯的優(yōu)勢和好處:首先LDA模逡逑型是全概率生成模型,,故有著更清晰的結(jié)構(gòu)且有較深厚的理論基礎(chǔ);同時,LDA逡逑模型的大小與訓(xùn)練樣本數(shù)無關(guān),因此對于數(shù)據(jù)量大的文本語料,有天生的優(yōu)勢。逡逑隨著LDA模型、LDA的演進模型在自然語言處理中的應(yīng)用,他們的價值逐漸得逡逑到重視并得到了很深入的研究,但在引文推薦領(lǐng)域還沒有人對其進行應(yīng)用。逡逑
邐第三章基于語義詞典與詞向量的查詢擴展邐逡逑的索引。但這種向量有些缺點:一是詞典中的詞在意義上并不一定是正交的,不逡逑同維度可能是有關(guān)聯(lián)的?,二是當詞典較大的時候會引發(fā)維度災(zāi)難(Curse邋of逡逑Dimensionality邋)邋0逡逑詞向量可以視為Distributed邋Representation的一'種具體實現(xiàn)。Distributed逡逑Representation最早由Hinton與1986年提出,可以克服ont-hot的上述缺點。其逡逑基本思想是:通過訓(xùn)練,將語言中的每個詞映射成一個長度固定的向量,這些向逡逑量可以視為詞向量空間中的一個點,語義計算可以通過點之間的數(shù)學運算來實現(xiàn)。逡逑類比的關(guān)系可以通過向量作差來計算,如經(jīng)典的例子King-Queen邋 ̄邋Man邋-逡逑Woman邋0逡逑Mikolov邋在邋2013邋年的論文中,給出邋了基于邋CBOW(ContinuousBag-of-Word)逡逑與Skip-gram邋(Continuous邋Skip-gram)的兩種詞向量訓(xùn)練方法。逡逑■POT邋raOSCTION邋miTRJT邐1:。#埽绷隋澹校遥希剩牛茫裕桑希五澹希剩裕疲欤椋藻义
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
本文編號:2583015
【圖文】:
邐邐逡逑LDA是一個多層的生成式全概率生成模型,是對文本的語義特征建模方法,逡逑如下圖所示。LDA算法中包含詞、主題(語義)及文檔三個概念。LDA的建模逡逑過程如下:給定一個文檔集合,LDA將每個文檔都建模為一個主題的分布,每逡逑個主題建模為一個多項式分布來表示該主題生成詞的概率。在LDA模型中,這逡逑些主題在所有文檔中都存在而區(qū)分每個文檔的是:不同文檔有著一個特定的分布。逡逑LDA的模型包括參數(shù)(cc,邋P),a表示每個主題(即隱含語義)在整個文檔集中的逡逑重要性大小,p表示所有主題的分布情況。z表示文檔在每個詞上的主題的權(quán)重,逡逑0代表文檔中各個主題在文檔中的比重,W為文檔集中文檔的總數(shù),w是文檔的逡逑詞表示,/Vd表示該文檔的總詞數(shù)。逡逑相較于LSA或PLSA等模型,LDA有很明顯的優(yōu)勢和好處:首先LDA模逡逑型是全概率生成模型,,故有著更清晰的結(jié)構(gòu)且有較深厚的理論基礎(chǔ);同時,LDA逡逑模型的大小與訓(xùn)練樣本數(shù)無關(guān),因此對于數(shù)據(jù)量大的文本語料,有天生的優(yōu)勢。逡逑隨著LDA模型、LDA的演進模型在自然語言處理中的應(yīng)用,他們的價值逐漸得逡逑到重視并得到了很深入的研究,但在引文推薦領(lǐng)域還沒有人對其進行應(yīng)用。逡逑
邐第三章基于語義詞典與詞向量的查詢擴展邐逡逑的索引。但這種向量有些缺點:一是詞典中的詞在意義上并不一定是正交的,不逡逑同維度可能是有關(guān)聯(lián)的?,二是當詞典較大的時候會引發(fā)維度災(zāi)難(Curse邋of逡逑Dimensionality邋)邋0逡逑詞向量可以視為Distributed邋Representation的一'種具體實現(xiàn)。Distributed逡逑Representation最早由Hinton與1986年提出,可以克服ont-hot的上述缺點。其逡逑基本思想是:通過訓(xùn)練,將語言中的每個詞映射成一個長度固定的向量,這些向逡逑量可以視為詞向量空間中的一個點,語義計算可以通過點之間的數(shù)學運算來實現(xiàn)。逡逑類比的關(guān)系可以通過向量作差來計算,如經(jīng)典的例子King-Queen邋 ̄邋Man邋-逡逑Woman邋0逡逑Mikolov邋在邋2013邋年的論文中,給出邋了基于邋CBOW(ContinuousBag-of-Word)逡逑與Skip-gram邋(Continuous邋Skip-gram)的兩種詞向量訓(xùn)練方法。逡逑■POT邋raOSCTION邋miTRJT邐1:。#埽绷隋澹校遥希剩牛茫裕桑希五澹希剩裕疲欤椋藻义
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前6條
1 于東;荀恩東;;基于Word Embedding語義相似度的字母縮略術(shù)語消歧[J];中文信息學報;2014年05期
2 付劍鋒;劉宗田;劉念祖;;基于多知識庫和局部反饋的查詢擴展研究[J];情報雜志;2013年02期
3 毛琪;黃永峰;;基于網(wǎng)絡(luò)知識庫與通用搜索引擎的查詢詞擴展方法[J];計算機應(yīng)用;2012年S2期
4 楊清琳;李陶深;農(nóng)健;;基于領(lǐng)域本體知識庫的語義查詢擴展[J];計算機工程與設(shè)計;2011年11期
5 李衛(wèi)疆;趙鐵軍;王憲剛;;基于上下文的查詢擴展[J];計算機研究與發(fā)展;2010年02期
6 王瑞琴;孔繁勝;;基于無導(dǎo)詞義消歧的語義查詢擴展[J];情報學報;2011年02期
相關(guān)博士學位論文 前1條
1 張富;模糊數(shù)據(jù)庫支持的模糊描述邏輯與本體知識庫抽取和存儲關(guān)鍵技術(shù)的研究[D];東北大學;2011年
相關(guān)碩士學位論文 前2條
1 張為泰;基于詞向量模型特征空間優(yōu)化的同義詞擴展研究與應(yīng)用[D];北京郵電大學;2015年
2 鄒揚;WAF改進算法在基于語義分析的查詢擴展上的應(yīng)用[D];北京郵電大學;2012年
本文編號:2583015
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2583015.html
最近更新
教材專著