基于內(nèi)容分析與個性化建模的推薦方法研究

發(fā)布時間：2021-04-12 00:41

　　隨著互聯(lián)網(wǎng)的快速發(fā)展,大量信息不斷涌現(xiàn),推薦系統(tǒng)正在起著至關(guān)重要的作用,而每位用戶所關(guān)心和感興趣的內(nèi)容都不盡相同,所以為每位用戶提供個性化的推薦內(nèi)容,成為推薦系統(tǒng)研究的重要方向。但即便做到千人千面的推薦,仍然會存在信息冗余的問題,因此可以使用文本摘要算法對文章信息進行壓縮,去除冗余信息,便于用戶閱讀。最后,由于每時每刻產(chǎn)生的新內(nèi)容,新詞匯也在不斷產(chǎn)生,而且詞法分析作為一項基礎(chǔ)任務(wù),更是為上層算法與應用提供分析基礎(chǔ),所以識別出新的詞匯也尤為關(guān)鍵。同時,識別出的新詞可以加入到文本摘要中,摘要內(nèi)容也可以為基于內(nèi)容分析的推薦算法提供更簡練的文章內(nèi)容,對推薦系統(tǒng)是有利的。本文主要對新詞發(fā)現(xiàn)和自動摘要對文章進行內(nèi)容分析,而后通過融合推薦系統(tǒng)進行個性化推薦的相關(guān)工作研究。具體研究內(nèi)容有以下幾方面:1)提出一種基于時序特征的新詞發(fā)現(xiàn)的方法。該方法在基于候選詞的互信息和信息熵的基礎(chǔ)上,再對這兩個特征在時序上的變化進行評分,最終根據(jù)候選詞的評分排序,取評分較高的詞作為新詞詞典并加入到詞法分析的系統(tǒng)中,為下游的分析工作提供基礎(chǔ),通過實驗證明分詞效果有了明顯提升。2)提出了一種基于神經(jīng)網(wǎng)絡(luò)融合多種語義特征的摘...

【文章來源】：河北科技大學河北省

【文章頁數(shù)】：63 頁

【學位級別】：碩士

【部分圖文】：

新詞發(fā)現(xiàn)流程圖

示意圖,短語,互信息,示意圖

梢允橇礁?字的詞，但一個詞語如果可以在文章中使用，且被多數(shù)人接受的，那么該短語應該也可以靈活應用在各個語句中，即構(gòu)成短語的鄰接熵較高。評估是否構(gòu)成短語的另一個特征為多個字之間的緊密程度，即多個字之間的互信息比較高。但往往一個候選詞可能由多個詞構(gòu)成，例如“中美/經(jīng)貿(mào)”，其中每個詞既可以靈活應用到其它語句中，也可以組合到一起組成新的短語，所以每個詞或組合短語的鄰接熵和互信息都比較高，為了能更精確的評估是否為新詞，引入另外兩個統(tǒng)計量，左詞的右鄰接熵和右詞的左鄰接熵。上述短語的特征示意圖如圖3-2所示，其中PMI為兩個詞的互信息，r-lE為左詞的右熵，即評估“中美”這個詞的右鄰接熵，l-rE為右詞的左熵，即評估“經(jīng)貿(mào)”這個詞的右鄰接熵，而lE和rE分別表示組成候選詞“中美經(jīng)貿(mào)”后的左鄰接熵和右鄰接熵。圖3-2短語特征計算示意圖對候選詞的互信息計算公式如（3-1）所示：)()(),(log),(2YPXPYXPYXPMI=（3-1）其中，X和Y為候選詞的左右字串。P為出現(xiàn)的概率，P(X,Y)是XY共同出現(xiàn)的

序列,句子,特征模型,文檔

20進行一些變量的符號化。本文假設(shè)輸入的詞序為},,,,{321wnwwww=xxxxX，其中n表示文本分詞后的詞語數(shù)量。使用diwRv∈表示輸入的詞序中第i個詞的向量表示，d表示詞向量的維度。4.2.2特征權(quán)重學習層由于文本具有時序特征，即前后內(nèi)容是有依賴關(guān)系的，因而本章選用RNN中的GRU模型處理文本。同時，由于文章的內(nèi)容較長，如果只使用詞級別的GRU模型，訓練序列就會過長，模型難以訓練到有效特征，因而本章將使用詞級別的GRU和句子級別的GRU，這兩種級別GRU共同提取特征，通過詞級別GRU的輸出作為句子級別GRU的輸入串聯(lián)兩種級別的模型，得到最終的文檔向量表示。如圖4-1所示，本章的句子特征向量和文檔特征向量，均由雙向GRU生成。圖4-1句子特征與文檔特征模型其GRU的表達式如公式（4-1）至公式（4-4）所示：)()1(hrthrirtirtWrb+++=bhWxσ（4-1）hzthziztiztWzb+++=bhWx)1(σ(（4-2）)(tanh()1(hnthntintintnxWr+++=bhWb（4-3）)1()1(+=ttttthznzh（4-4）其中，tr和tz分別表示GRU中的兩個門控變量，通過σ(sigmoid函數(shù))激活函數(shù)，將數(shù)據(jù)變化到0至1的范圍內(nèi)，從而控制信息流的流動。t)1(h為前一個GRU單元的輸出，tx為當前時刻的輸入，表示按元素相乘。irW、izW、inW輸入特征學習的矩陣，hrW、hzW、hnW為隱層特征學習的矩陣，th為輸出的隱層特征。在文本序列中的句子通常需要根據(jù)前后的內(nèi)容來理解句子的整體含義，因此本章節(jié)使用詞級別的雙向GRU句子挖掘隱層語義特征，計算過程如公式（4-5）至公

本文編號：3132267

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3132267.html

上一篇：基于學習者主體意識的網(wǎng)絡(luò)學習空間模型構(gòu)建研究
下一篇：基于SAP HANA的R公司財務(wù)智能系統(tǒng)分析與設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于內(nèi)容分析與個性化建模的推薦方法研究