基于內(nèi)容分析與個(gè)性化建模的推薦方法研究
發(fā)布時(shí)間:2021-04-12 00:41
隨著互聯(lián)網(wǎng)的快速發(fā)展,大量信息不斷涌現(xiàn),推薦系統(tǒng)正在起著至關(guān)重要的作用,而每位用戶所關(guān)心和感興趣的內(nèi)容都不盡相同,所以為每位用戶提供個(gè)性化的推薦內(nèi)容,成為推薦系統(tǒng)研究的重要方向。但即便做到千人千面的推薦,仍然會(huì)存在信息冗余的問(wèn)題,因此可以使用文本摘要算法對(duì)文章信息進(jìn)行壓縮,去除冗余信息,便于用戶閱讀。最后,由于每時(shí)每刻產(chǎn)生的新內(nèi)容,新詞匯也在不斷產(chǎn)生,而且詞法分析作為一項(xiàng)基礎(chǔ)任務(wù),更是為上層算法與應(yīng)用提供分析基礎(chǔ),所以識(shí)別出新的詞匯也尤為關(guān)鍵。同時(shí),識(shí)別出的新詞可以加入到文本摘要中,摘要內(nèi)容也可以為基于內(nèi)容分析的推薦算法提供更簡(jiǎn)練的文章內(nèi)容,對(duì)推薦系統(tǒng)是有利的。本文主要對(duì)新詞發(fā)現(xiàn)和自動(dòng)摘要對(duì)文章進(jìn)行內(nèi)容分析,而后通過(guò)融合推薦系統(tǒng)進(jìn)行個(gè)性化推薦的相關(guān)工作研究。具體研究?jī)?nèi)容有以下幾方面:1)提出一種基于時(shí)序特征的新詞發(fā)現(xiàn)的方法。該方法在基于候選詞的互信息和信息熵的基礎(chǔ)上,再對(duì)這兩個(gè)特征在時(shí)序上的變化進(jìn)行評(píng)分,最終根據(jù)候選詞的評(píng)分排序,取評(píng)分較高的詞作為新詞詞典并加入到詞法分析的系統(tǒng)中,為下游的分析工作提供基礎(chǔ),通過(guò)實(shí)驗(yàn)證明分詞效果有了明顯提升。2)提出了一種基于神經(jīng)網(wǎng)絡(luò)融合多種語(yǔ)義特征的摘...
【文章來(lái)源】:河北科技大學(xué)河北省
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新詞發(fā)現(xiàn)流程圖
梢允橇礁?字的詞,但一個(gè)詞語(yǔ)如果可以在文章中使用,且被多數(shù)人接受的,那么該短語(yǔ)應(yīng)該也可以靈活應(yīng)用在各個(gè)語(yǔ)句中,即構(gòu)成短語(yǔ)的鄰接熵較高。評(píng)估是否構(gòu)成短語(yǔ)的另一個(gè)特征為多個(gè)字之間的緊密程度,即多個(gè)字之間的互信息比較高。但往往一個(gè)候選詞可能由多個(gè)詞構(gòu)成,例如“中美/經(jīng)貿(mào)”,其中每個(gè)詞既可以靈活應(yīng)用到其它語(yǔ)句中,也可以組合到一起組成新的短語(yǔ),所以每個(gè)詞或組合短語(yǔ)的鄰接熵和互信息都比較高,為了能更精確的評(píng)估是否為新詞,引入另外兩個(gè)統(tǒng)計(jì)量,左詞的右鄰接熵和右詞的左鄰接熵。上述短語(yǔ)的特征示意圖如圖3-2所示,其中PMI為兩個(gè)詞的互信息,r-lE為左詞的右熵,即評(píng)估“中美”這個(gè)詞的右鄰接熵,l-rE為右詞的左熵,即評(píng)估“經(jīng)貿(mào)”這個(gè)詞的右鄰接熵,而lE和rE分別表示組成候選詞“中美經(jīng)貿(mào)”后的左鄰接熵和右鄰接熵。圖3-2短語(yǔ)特征計(jì)算示意圖對(duì)候選詞的互信息計(jì)算公式如(3-1)所示:)()(),(log),(2YPXPYXPYXPMI=(3-1)其中,X和Y為候選詞的左右字串。P為出現(xiàn)的概率,P(X,Y)是XY共同出現(xiàn)的
20進(jìn)行一些變量的符號(hào)化。本文假設(shè)輸入的詞序?yàn)閩,,,,{321wnwwww=xxxxX,其中n表示文本分詞后的詞語(yǔ)數(shù)量。使用diwRv∈表示輸入的詞序中第i個(gè)詞的向量表示,d表示詞向量的維度。4.2.2特征權(quán)重學(xué)習(xí)層由于文本具有時(shí)序特征,即前后內(nèi)容是有依賴關(guān)系的,因而本章選用RNN中的GRU模型處理文本。同時(shí),由于文章的內(nèi)容較長(zhǎng),如果只使用詞級(jí)別的GRU模型,訓(xùn)練序列就會(huì)過(guò)長(zhǎng),模型難以訓(xùn)練到有效特征,因而本章將使用詞級(jí)別的GRU和句子級(jí)別的GRU,這兩種級(jí)別GRU共同提取特征,通過(guò)詞級(jí)別GRU的輸出作為句子級(jí)別GRU的輸入串聯(lián)兩種級(jí)別的模型,得到最終的文檔向量表示。如圖4-1所示,本章的句子特征向量和文檔特征向量,均由雙向GRU生成。圖4-1句子特征與文檔特征模型其GRU的表達(dá)式如公式(4-1)至公式(4-4)所示:)()1(hrthrirtirtWrb+++=bhWxσ(4-1)hzthziztiztWzb+++=bhWx)1(σ((4-2))(tanh()1(hnthntintintnxWr+++=bhWb(4-3))1()1(+=ttttthznzh(4-4)其中,tr和tz分別表示GRU中的兩個(gè)門控變量,通過(guò)σ(sigmoid函數(shù))激活函數(shù),將數(shù)據(jù)變化到0至1的范圍內(nèi),從而控制信息流的流動(dòng)。t)1(h為前一個(gè)GRU單元的輸出,tx為當(dāng)前時(shí)刻的輸入,表示按元素相乘。irW、izW、inW輸入特征學(xué)習(xí)的矩陣,hrW、hzW、hnW為隱層特征學(xué)習(xí)的矩陣,th為輸出的隱層特征。在文本序列中的句子通常需要根據(jù)前后的內(nèi)容來(lái)理解句子的整體含義,因此本章節(jié)使用詞級(jí)別的雙向GRU句子挖掘隱層語(yǔ)義特征,計(jì)算過(guò)程如公式(4-5)至公
本文編號(hào):3132267
【文章來(lái)源】:河北科技大學(xué)河北省
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新詞發(fā)現(xiàn)流程圖
梢允橇礁?字的詞,但一個(gè)詞語(yǔ)如果可以在文章中使用,且被多數(shù)人接受的,那么該短語(yǔ)應(yīng)該也可以靈活應(yīng)用在各個(gè)語(yǔ)句中,即構(gòu)成短語(yǔ)的鄰接熵較高。評(píng)估是否構(gòu)成短語(yǔ)的另一個(gè)特征為多個(gè)字之間的緊密程度,即多個(gè)字之間的互信息比較高。但往往一個(gè)候選詞可能由多個(gè)詞構(gòu)成,例如“中美/經(jīng)貿(mào)”,其中每個(gè)詞既可以靈活應(yīng)用到其它語(yǔ)句中,也可以組合到一起組成新的短語(yǔ),所以每個(gè)詞或組合短語(yǔ)的鄰接熵和互信息都比較高,為了能更精確的評(píng)估是否為新詞,引入另外兩個(gè)統(tǒng)計(jì)量,左詞的右鄰接熵和右詞的左鄰接熵。上述短語(yǔ)的特征示意圖如圖3-2所示,其中PMI為兩個(gè)詞的互信息,r-lE為左詞的右熵,即評(píng)估“中美”這個(gè)詞的右鄰接熵,l-rE為右詞的左熵,即評(píng)估“經(jīng)貿(mào)”這個(gè)詞的右鄰接熵,而lE和rE分別表示組成候選詞“中美經(jīng)貿(mào)”后的左鄰接熵和右鄰接熵。圖3-2短語(yǔ)特征計(jì)算示意圖對(duì)候選詞的互信息計(jì)算公式如(3-1)所示:)()(),(log),(2YPXPYXPYXPMI=(3-1)其中,X和Y為候選詞的左右字串。P為出現(xiàn)的概率,P(X,Y)是XY共同出現(xiàn)的
20進(jìn)行一些變量的符號(hào)化。本文假設(shè)輸入的詞序?yàn)閩,,,,{321wnwwww=xxxxX,其中n表示文本分詞后的詞語(yǔ)數(shù)量。使用diwRv∈表示輸入的詞序中第i個(gè)詞的向量表示,d表示詞向量的維度。4.2.2特征權(quán)重學(xué)習(xí)層由于文本具有時(shí)序特征,即前后內(nèi)容是有依賴關(guān)系的,因而本章選用RNN中的GRU模型處理文本。同時(shí),由于文章的內(nèi)容較長(zhǎng),如果只使用詞級(jí)別的GRU模型,訓(xùn)練序列就會(huì)過(guò)長(zhǎng),模型難以訓(xùn)練到有效特征,因而本章將使用詞級(jí)別的GRU和句子級(jí)別的GRU,這兩種級(jí)別GRU共同提取特征,通過(guò)詞級(jí)別GRU的輸出作為句子級(jí)別GRU的輸入串聯(lián)兩種級(jí)別的模型,得到最終的文檔向量表示。如圖4-1所示,本章的句子特征向量和文檔特征向量,均由雙向GRU生成。圖4-1句子特征與文檔特征模型其GRU的表達(dá)式如公式(4-1)至公式(4-4)所示:)()1(hrthrirtirtWrb+++=bhWxσ(4-1)hzthziztiztWzb+++=bhWx)1(σ((4-2))(tanh()1(hnthntintintnxWr+++=bhWb(4-3))1()1(+=ttttthznzh(4-4)其中,tr和tz分別表示GRU中的兩個(gè)門控變量,通過(guò)σ(sigmoid函數(shù))激活函數(shù),將數(shù)據(jù)變化到0至1的范圍內(nèi),從而控制信息流的流動(dòng)。t)1(h為前一個(gè)GRU單元的輸出,tx為當(dāng)前時(shí)刻的輸入,表示按元素相乘。irW、izW、inW輸入特征學(xué)習(xí)的矩陣,hrW、hzW、hnW為隱層特征學(xué)習(xí)的矩陣,th為輸出的隱層特征。在文本序列中的句子通常需要根據(jù)前后的內(nèi)容來(lái)理解句子的整體含義,因此本章節(jié)使用詞級(jí)別的雙向GRU句子挖掘隱層語(yǔ)義特征,計(jì)算過(guò)程如公式(4-5)至公
本文編號(hào):3132267
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3132267.html
最近更新
教材專著