基于LDA的文本推薦算法的研究及在文獻(xiàn)檢索的應(yīng)用
伴隨著IT和互聯(lián)網(wǎng)的發(fā)展,人類所面臨的網(wǎng)絡(luò)信息正在呈現(xiàn)出爆炸式的增長。因此如何從大量的文本信息中屏蔽掉無用信息并獲取目標(biāo)信息,一直是研究自然語言處理問題的熱點(diǎn)話題。目前在文本處理領(lǐng)域存在的一個基本問題在于如何量化描述文本的特征,而量化文本特征的優(yōu)劣很大程度上是由文本相似度的計算直接決定,這也是聚類、推薦和基于內(nèi)容等方法的基石。因此本文利用LDA主題模型來量化描述文本的特征,結(jié)合文本自身所蘊(yùn)含的潛在主題信息來提高文本相似度計算的精度,并在圖書館文獻(xiàn)檢索領(lǐng)域開展基于LDA模型檢索方法的應(yīng)用研究。本文主要工作包括以下三個方面:第一、提出了一種基于LDA主題模型的文本相似度計算方法。該方法利用LDA模型為文本建模,利用MCMC中的Gibbs抽樣方法,間接計算模型參數(shù),挖掘出文本與主題的關(guān)系和主題與關(guān)鍵詞的關(guān)系,從而得到文本關(guān)于主題的分布和主題關(guān)于關(guān)鍵字的分布,進(jìn)而以參考主題的關(guān)鍵字權(quán)重分布來計算文本之間的相似度。這種計算方法為后面的推薦算法研究奠定基礎(chǔ)。第二、將LDA模型引入推薦問題的處理,提出了基于LDA的文本推薦算法。其中使用本文提出的基于LDA的文本特征描述方法作為相似度計算的度量值,并將相似度最高的Top-N作為推薦結(jié)果返回,提高了文本推薦質(zhì)量。第三、將基于LDA的文本推薦算法應(yīng)用于圖書館文獻(xiàn)檢索系統(tǒng),該系統(tǒng)具有高內(nèi)聚低耦合的特點(diǎn)。系統(tǒng)采用事件驅(qū)動基于Listener-Runner架構(gòu),使檢索系統(tǒng)具有異步處理性等特點(diǎn)。
【關(guān)鍵詞】:
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【部分圖文】:
圖 2-1 LDA 概率模型圖 模型時一種典型的貝葉斯網(wǎng)絡(luò)(有向圖)。在 LDA 模型中特征詞組成的分層結(jié)構(gòu),其中潛在主題服從狄利克雷分布。其中 參數(shù) 、 定義了 LDA 模型中的文本集層。隨機(jī)A 模型中的文本層。特征詞 參數(shù) 、z[3]描述了文本集中特系統(tǒng) 化推薦系統(tǒng)是為用戶....
圖 4-4 檢索功能模塊用例圖書分類管理模塊圖書分類按樹形 的方式顯示?梢栽黾臃诸惢騽h除分類,還圖 4-5圖書 分類 管理模塊用例圖所示。圖 4-5 圖書分類管理模塊用例圖閱管理模塊書管理
第 4 章 系統(tǒng)需求分析及設(shè)計(3)系統(tǒng)的體系結(jié)構(gòu)由于用戶范圍和業(yè)務(wù)量較少,只在信息中心設(shè)立一個中心服務(wù)器 集中處理數(shù)據(jù)。系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D 如圖 4-3 所示,有一臺內(nèi)網(wǎng)的數(shù)據(jù)庫服務(wù)器不可以在網(wǎng)絡(luò)上直接訪問,只有 WEB服 務(wù)器才可以被外網(wǎng)訪問。而且在 WEB服 務(wù)器和互聯(lián)網(wǎng)之間設(shè)....
本文編號:86291
本文鏈接:http://sikaile.net/tushudanganlunwen/86291.html