基于C-LDA的教育領(lǐng)域搜索引擎的研究與實現(xiàn)
發(fā)布時間:2020-07-24 11:34
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Web資源呈現(xiàn)爆炸式增長,它為各個領(lǐng)域的人們帶來巨大而多元的信息。教育作為互聯(lián)網(wǎng)領(lǐng)域的重要分支之一,為人們提供了豐富的學(xué)習(xí)資源。然而隨著數(shù)據(jù)量的增加,一些問題也逐漸暴露:通用搜索引擎一般以基于關(guān)鍵詞的倒排索引算法為基礎(chǔ),搜索結(jié)果覆蓋面太過廣泛,包含大量的廣告和垃圾信息,不能根據(jù)用戶的搜索意圖給出相對完美的搜索結(jié)果。因此,建立一個面向教育領(lǐng)域的、與用戶需求更加匹配、信息更加完善的垂直搜索引擎具有十分重要的現(xiàn)實意義。本文針對LDA主題模型與搜索引擎排序算法展開細(xì)致的分析和探討,首先提出了一種基于頻繁詞網(wǎng)絡(luò)的LDA最優(yōu)主題個數(shù)選取方法(C-LDA),進(jìn)而設(shè)計了一種基于C-LDA的用戶興趣改進(jìn)模型,并基于以上提出的算法搭建一個教育領(lǐng)域搜索引擎系統(tǒng),可供用戶搜索更加感興趣的教育類信息。本文主要的研究內(nèi)容如下:(1)針對LDA主題模型目前無法確定最優(yōu)的主題數(shù)目這一問題,本文提出了一種以頻繁詞集網(wǎng)絡(luò)的社區(qū)劃分個數(shù)來指定LDA主題模型主題輸入個數(shù)的方法。該方法對文檔構(gòu)建頻繁詞對,并以此為基礎(chǔ)構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),然后采用無監(jiān)督社區(qū)劃分算法對該詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,最后以劃分的社區(qū)個數(shù)作為LDA主題模型的主題個數(shù)。該方法能夠較準(zhǔn)確指定LDA的隱含主題數(shù),提升了主題查準(zhǔn)率與查全率,降低了主題困惑度。(2)針對用戶使用搜索引擎很難搜索到自己感興趣的信息這一問題,本文提出了基于C-LDA的用戶興趣改進(jìn)模型。首先,利用C-LDA主題模型分別計算用戶和課程的隱主題(興趣),并依據(jù)該興趣分布做相似度計算,然后以該相似度作為用戶與課程的興趣相似度,并融合Lucene排序分?jǐn)?shù)得到課程最終的排序分?jǐn)?shù)。該算法相較于傳統(tǒng)的搜索引擎算法,具有更高的興趣精確率與興趣召回率。(3)基于(1)和(2)中提出的算法,搭建了一套教育領(lǐng)域搜索引擎系統(tǒng)。為了解決搜索引擎數(shù)據(jù)獲取的問題,本文采用HttpClient+Quartz+ActiveMQ技術(shù)設(shè)計了一套分布式爬蟲系統(tǒng)。使用關(guān)系型數(shù)據(jù)庫Mysql進(jìn)行存儲,并采用Ajax技術(shù)與SpringMVC框架結(jié)合設(shè)計了一套完整的教育領(lǐng)域搜索引擎系統(tǒng)方案。最后,實現(xiàn)了基于C-LDA的教育領(lǐng)域搜索引擎的各個功能模塊,并將本文提出算法應(yīng)用到該系統(tǒng)中,同時利用抓取到的數(shù)據(jù)對算法做了進(jìn)一步的驗證。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3
【圖文】:
中的每篇文檔,從主題分布中抽取一個主題;然后,從被抽到的主題所對應(yīng)的單逡逑詞分布中提取一個單詞;最后,重復(fù)以上的過程,直到覆蓋所有單詞。逡逑LDA模型如圖3-1所示。逡逑Q逡逑M逡逑邐N逡逑圖3-1邋LDA模型圖表示逡逑Figure邋3-1邋Diagram邋of邋LDA邋Model逡逑其中,白色圓表示隱變量,灰色圓表示觀測變量。矩陣表示重復(fù)采樣過程,逡逑抽樣的次數(shù)在矩陣的右下角。逡逑22逡逑
逡逑圖3-1代表的概率模型如公式(3-1)所示。逡逑P{6,Z,W\a,fi)邋=邋P{61邐P(Zn邋|邋9)P{Wn邋\Zn,/3)邐(3-1)逡逑將上面的式子對應(yīng)到圖中如圖3-2所示。逡逑Q逡逑/邐/邐:邐\邋N逡逑,邐/邐\邋■■■■■逡逑/邐7逡逑i邋pC0|0O邋;邐;邋Yl邋'l邋:邋p(Zn|邋0)邋;邋[p(Wn|邋Zn,P)_邋j逡逑I邋R?1邐|逡逑圖3-2邋LDA模型生成過程圖逡逑Figure邋3-2邋Generation邋Process邋Diagram邋of邋LDA邋Model逡逑LDA是一種三層表示模型,分別對應(yīng)上圖的M、N和Z,邋W部分,具體表示逡逑如下:逡逑(1)
圖3-4頻繁詞共現(xiàn)網(wǎng)絡(luò)逡逑Figure邋3-4邋Concurrence邋Network邋of邋Frequent邋Words逡逑為了驗證本文提出的基于頻繁詞網(wǎng)絡(luò)的LDA最優(yōu)主題個數(shù)選取方法的有效逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3
【圖文】:
中的每篇文檔,從主題分布中抽取一個主題;然后,從被抽到的主題所對應(yīng)的單逡逑詞分布中提取一個單詞;最后,重復(fù)以上的過程,直到覆蓋所有單詞。逡逑LDA模型如圖3-1所示。逡逑Q逡逑M逡逑邐N逡逑圖3-1邋LDA模型圖表示逡逑Figure邋3-1邋Diagram邋of邋LDA邋Model逡逑其中,白色圓表示隱變量,灰色圓表示觀測變量。矩陣表示重復(fù)采樣過程,逡逑抽樣的次數(shù)在矩陣的右下角。逡逑22逡逑
逡逑圖3-1代表的概率模型如公式(3-1)所示。逡逑P{6,Z,W\a,fi)邋=邋P{61邐P(Zn邋|邋9)P{Wn邋\Zn,/3)邐(3-1)逡逑將上面的式子對應(yīng)到圖中如圖3-2所示。逡逑Q逡逑/邐/邐:邐\邋N逡逑,邐/邐\邋■■■■■逡逑/邐7逡逑i邋pC0|0O邋;邐;邋Yl邋'l邋:邋p(Zn|邋0)邋;邋[p(Wn|邋Zn,P)_邋j逡逑I邋R?1邐|逡逑圖3-2邋LDA模型生成過程圖逡逑Figure邋3-2邋Generation邋Process邋Diagram邋of邋LDA邋Model逡逑LDA是一種三層表示模型,分別對應(yīng)上圖的M、N和Z,邋W部分,具體表示逡逑如下:逡逑(1)
圖3-4頻繁詞共現(xiàn)網(wǎng)絡(luò)逡逑Figure邋3-4邋Concurrence邋Network邋of邋Frequent邋Words逡逑為了驗證本文提出的基于頻繁詞網(wǎng)絡(luò)的LDA最優(yōu)主題個數(shù)選取方法的有效逡逑
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 蔣
本文編號:2768784
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2768784.html
最近更新
教材專著