基于內(nèi)容分析與個性化建模的推薦方法研究
發(fā)布時間:2021-04-12 00:41
隨著互聯(lián)網(wǎng)的快速發(fā)展,大量信息不斷涌現(xiàn),推薦系統(tǒng)正在起著至關(guān)重要的作用,而每位用戶所關(guān)心和感興趣的內(nèi)容都不盡相同,所以為每位用戶提供個性化的推薦內(nèi)容,成為推薦系統(tǒng)研究的重要方向。但即便做到千人千面的推薦,仍然會存在信息冗余的問題,因此可以使用文本摘要算法對文章信息進行壓縮,去除冗余信息,便于用戶閱讀。最后,由于每時每刻產(chǎn)生的新內(nèi)容,新詞匯也在不斷產(chǎn)生,而且詞法分析作為一項基礎(chǔ)任務(wù),更是為上層算法與應用提供分析基礎(chǔ),所以識別出新的詞匯也尤為關(guān)鍵。同時,識別出的新詞可以加入到文本摘要中,摘要內(nèi)容也可以為基于內(nèi)容分析的推薦算法提供更簡練的文章內(nèi)容,對推薦系統(tǒng)是有利的。本文主要對新詞發(fā)現(xiàn)和自動摘要對文章進行內(nèi)容分析,而后通過融合推薦系統(tǒng)進行個性化推薦的相關(guān)工作研究。具體研究內(nèi)容有以下幾方面:1)提出一種基于時序特征的新詞發(fā)現(xiàn)的方法。該方法在基于候選詞的互信息和信息熵的基礎(chǔ)上,再對這兩個特征在時序上的變化進行評分,最終根據(jù)候選詞的評分排序,取評分較高的詞作為新詞詞典并加入到詞法分析的系統(tǒng)中,為下游的分析工作提供基礎(chǔ),通過實驗證明分詞效果有了明顯提升。2)提出了一種基于神經(jīng)網(wǎng)絡(luò)融合多種語義特征的摘...
【文章來源】:河北科技大學河北省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
新詞發(fā)現(xiàn)流程圖
梢允橇礁?字的詞,但一個詞語如果可以在文章中使用,且被多數(shù)人接受的,那么該短語應該也可以靈活應用在各個語句中,即構(gòu)成短語的鄰接熵較高。評估是否構(gòu)成短語的另一個特征為多個字之間的緊密程度,即多個字之間的互信息比較高。但往往一個候選詞可能由多個詞構(gòu)成,例如“中美/經(jīng)貿(mào)”,其中每個詞既可以靈活應用到其它語句中,也可以組合到一起組成新的短語,所以每個詞或組合短語的鄰接熵和互信息都比較高,為了能更精確的評估是否為新詞,引入另外兩個統(tǒng)計量,左詞的右鄰接熵和右詞的左鄰接熵。上述短語的特征示意圖如圖3-2所示,其中PMI為兩個詞的互信息,r-lE為左詞的右熵,即評估“中美”這個詞的右鄰接熵,l-rE為右詞的左熵,即評估“經(jīng)貿(mào)”這個詞的右鄰接熵,而lE和rE分別表示組成候選詞“中美經(jīng)貿(mào)”后的左鄰接熵和右鄰接熵。圖3-2短語特征計算示意圖對候選詞的互信息計算公式如(3-1)所示:)()(),(log),(2YPXPYXPYXPMI=(3-1)其中,X和Y為候選詞的左右字串。P為出現(xiàn)的概率,P(X,Y)是XY共同出現(xiàn)的
20進行一些變量的符號化。本文假設(shè)輸入的詞序為},,,,{321wnwwww=xxxxX,其中n表示文本分詞后的詞語數(shù)量。使用diwRv∈表示輸入的詞序中第i個詞的向量表示,d表示詞向量的維度。4.2.2特征權(quán)重學習層由于文本具有時序特征,即前后內(nèi)容是有依賴關(guān)系的,因而本章選用RNN中的GRU模型處理文本。同時,由于文章的內(nèi)容較長,如果只使用詞級別的GRU模型,訓練序列就會過長,模型難以訓練到有效特征,因而本章將使用詞級別的GRU和句子級別的GRU,這兩種級別GRU共同提取特征,通過詞級別GRU的輸出作為句子級別GRU的輸入串聯(lián)兩種級別的模型,得到最終的文檔向量表示。如圖4-1所示,本章的句子特征向量和文檔特征向量,均由雙向GRU生成。圖4-1句子特征與文檔特征模型其GRU的表達式如公式(4-1)至公式(4-4)所示:)()1(hrthrirtirtWrb+++=bhWxσ(4-1)hzthziztiztWzb+++=bhWx)1(σ((4-2))(tanh()1(hnthntintintnxWr+++=bhWb(4-3))1()1(+=ttttthznzh(4-4)其中,tr和tz分別表示GRU中的兩個門控變量,通過σ(sigmoid函數(shù))激活函數(shù),將數(shù)據(jù)變化到0至1的范圍內(nèi),從而控制信息流的流動。t)1(h為前一個GRU單元的輸出,tx為當前時刻的輸入,表示按元素相乘。irW、izW、inW輸入特征學習的矩陣,hrW、hzW、hnW為隱層特征學習的矩陣,th為輸出的隱層特征。在文本序列中的句子通常需要根據(jù)前后的內(nèi)容來理解句子的整體含義,因此本章節(jié)使用詞級別的雙向GRU句子挖掘隱層語義特征,計算過程如公式(4-5)至公
本文編號:3132267
【文章來源】:河北科技大學河北省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
新詞發(fā)現(xiàn)流程圖
梢允橇礁?字的詞,但一個詞語如果可以在文章中使用,且被多數(shù)人接受的,那么該短語應該也可以靈活應用在各個語句中,即構(gòu)成短語的鄰接熵較高。評估是否構(gòu)成短語的另一個特征為多個字之間的緊密程度,即多個字之間的互信息比較高。但往往一個候選詞可能由多個詞構(gòu)成,例如“中美/經(jīng)貿(mào)”,其中每個詞既可以靈活應用到其它語句中,也可以組合到一起組成新的短語,所以每個詞或組合短語的鄰接熵和互信息都比較高,為了能更精確的評估是否為新詞,引入另外兩個統(tǒng)計量,左詞的右鄰接熵和右詞的左鄰接熵。上述短語的特征示意圖如圖3-2所示,其中PMI為兩個詞的互信息,r-lE為左詞的右熵,即評估“中美”這個詞的右鄰接熵,l-rE為右詞的左熵,即評估“經(jīng)貿(mào)”這個詞的右鄰接熵,而lE和rE分別表示組成候選詞“中美經(jīng)貿(mào)”后的左鄰接熵和右鄰接熵。圖3-2短語特征計算示意圖對候選詞的互信息計算公式如(3-1)所示:)()(),(log),(2YPXPYXPYXPMI=(3-1)其中,X和Y為候選詞的左右字串。P為出現(xiàn)的概率,P(X,Y)是XY共同出現(xiàn)的
20進行一些變量的符號化。本文假設(shè)輸入的詞序為},,,,{321wnwwww=xxxxX,其中n表示文本分詞后的詞語數(shù)量。使用diwRv∈表示輸入的詞序中第i個詞的向量表示,d表示詞向量的維度。4.2.2特征權(quán)重學習層由于文本具有時序特征,即前后內(nèi)容是有依賴關(guān)系的,因而本章選用RNN中的GRU模型處理文本。同時,由于文章的內(nèi)容較長,如果只使用詞級別的GRU模型,訓練序列就會過長,模型難以訓練到有效特征,因而本章將使用詞級別的GRU和句子級別的GRU,這兩種級別GRU共同提取特征,通過詞級別GRU的輸出作為句子級別GRU的輸入串聯(lián)兩種級別的模型,得到最終的文檔向量表示。如圖4-1所示,本章的句子特征向量和文檔特征向量,均由雙向GRU生成。圖4-1句子特征與文檔特征模型其GRU的表達式如公式(4-1)至公式(4-4)所示:)()1(hrthrirtirtWrb+++=bhWxσ(4-1)hzthziztiztWzb+++=bhWx)1(σ((4-2))(tanh()1(hnthntintintnxWr+++=bhWb(4-3))1()1(+=ttttthznzh(4-4)其中,tr和tz分別表示GRU中的兩個門控變量,通過σ(sigmoid函數(shù))激活函數(shù),將數(shù)據(jù)變化到0至1的范圍內(nèi),從而控制信息流的流動。t)1(h為前一個GRU單元的輸出,tx為當前時刻的輸入,表示按元素相乘。irW、izW、inW輸入特征學習的矩陣,hrW、hzW、hnW為隱層特征學習的矩陣,th為輸出的隱層特征。在文本序列中的句子通常需要根據(jù)前后的內(nèi)容來理解句子的整體含義,因此本章節(jié)使用詞級別的雙向GRU句子挖掘隱層語義特征,計算過程如公式(4-5)至公
本文編號:3132267
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3132267.html
最近更新
教材專著