天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

在線評論的個性化選擇算法研究

發(fā)布時間:2021-01-09 00:33
  大量網(wǎng)絡(luò)平臺為了吸引更多的用戶和提高網(wǎng)站閱讀量而進(jìn)行有目的性的選擇評論,然而篩選出來的評論集合信息冗余問題非常嚴(yán)重。因此,為了滿足網(wǎng)站和用戶的雙重需求,選擇出與用戶偏好最為相似的個性化評論顯得尤為重要。最近研究表明,用戶在網(wǎng)站瀏覽和體驗(yàn)中,更關(guān)注與自身更相關(guān)的評論。針對上述問題,本文提出一種基于挖掘用戶個人偏好的個性化選擇算法,并將該算法應(yīng)用于餐館評論中。本文完成了以下主要工作:(1)通過對文本數(shù)據(jù)的處理,將利用深度學(xué)習(xí)中基于注意力機(jī)制的關(guān)鍵詞提取方法和層次聚類算法進(jìn)行組合,對用戶的歷史評論內(nèi)容進(jìn)行挖掘,以考慮用戶自身的關(guān)注度表示用戶的偏好。通過該組合進(jìn)行實(shí)驗(yàn),以向量形式表示用戶偏好。(2)定義評論選擇問題,除了考慮評論選擇的覆蓋率(即選擇出的評論在評論集合中的占比),還引入了評論的相似性和用戶個性化兩個選擇標(biāo)準(zhǔn)。在此基礎(chǔ)上,本文設(shè)計(jì)了個性化選擇算法并解決個性化評論選擇的問題,設(shè)置覆蓋率、相似性和用戶個性化為評論選擇的標(biāo)準(zhǔn),然后進(jìn)行個性化選擇,對不同的用戶選擇出一組K條評論。為了評估算法的優(yōu)化性能,使用調(diào)和平均值對相似性和用戶個性化進(jìn)行評估。(3)將本文的算法應(yīng)用于在線餐館評論進(jìn)行個性... 

【文章來源】:西安石油大學(xué)陜西省

【文章頁數(shù)】:57 頁

【學(xué)位級別】:碩士

【部分圖文】:

在線評論的個性化選擇算法研究


研究方法流程圖

流程圖,流程圖,模型,文本


西安石油大學(xué)碩士學(xué)位論文16圖3-1用戶偏好模型的創(chuàng)建流程圖3.2文本數(shù)據(jù)的預(yù)處理文本處理的前面都要進(jìn)行文本預(yù)處理,本文的文本預(yù)處理包括以下幾個操作:(1)除去數(shù)據(jù)中非文本部分:獲取到的英文文本中會有一些html標(biāo)簽或者是一些非英文的符號等,需要去掉。(2)拼寫檢查更正。(3)詞干提取和詞形還原:表示所有的詞匯為詞干形式。(4)分句:對于每個分句要進(jìn)行關(guān)鍵詞提取,因此對于長文本數(shù)據(jù),要進(jìn)行分句。(5)轉(zhuǎn)化為小寫:英文單詞有大小寫區(qū)分,因此將所有的詞都轉(zhuǎn)換為小寫會更好處理。(6)刪除停用詞組成的句子:刪除一些停用詞組成的某一個短分句,例如一些感嘆詞、停頓語氣詞等等。(7)引入停用詞:文本數(shù)據(jù)中,如“the”,“a”等這些無效詞匯及一些詞組中的多余標(biāo)點(diǎn)符號,在文本分析和后面的關(guān)鍵詞提取時不需要,因此需要去掉這些。完成了上面的操作,就完成了文本預(yù)處理的基本步驟,得到?jīng)]有噪聲的文本數(shù)據(jù),然后進(jìn)行下面的關(guān)鍵詞提齲3.3關(guān)鍵詞提取關(guān)鍵詞提取是分析用戶偏好的至關(guān)重要的步驟之一,現(xiàn)有的研究中多數(shù)傾向于應(yīng)用

模型圖,模型,關(guān)鍵詞,向量


第三章用戶偏好模型的創(chuàng)建17主題模型的變體。然而,主題模型通常不會產(chǎn)生高度相關(guān)的關(guān)鍵詞。為了提取相關(guān)性高且精煉的關(guān)鍵系,通過神經(jīng)網(wǎng)絡(luò)的詞嵌入來獲取關(guān)鍵詞的分布。因此,本文利用基于深度學(xué)習(xí)的注意力機(jī)制的關(guān)鍵詞提。ˋttention-basedAspectExtraction,ABAE)來提取關(guān)鍵詞。ABAE模型的最終目標(biāo)是通過引入注意力機(jī)制的方法從文檔中提取一組關(guān)鍵詞,且這組關(guān)鍵詞可以通過查看它上下文的單詞來解釋。詞匯表中每個詞都表示為一個維的向量,所有的詞的向量化矩陣是,表示詞的數(shù)目。關(guān)鍵詞是從語料庫的單詞中獲取的,因此關(guān)鍵詞的向量維數(shù)和單詞的向量的維數(shù)是同一個空間,關(guān)鍵詞的向量化矩陣是,表示定義的關(guān)鍵詞的數(shù)目,。關(guān)鍵詞向量化是在語料庫的詞匯中與關(guān)鍵詞近似的詞,而關(guān)鍵詞是通過注意力機(jī)制過濾出來的。ABAE有多個輸入,且每個輸入都對應(yīng)句子中的每個詞的索引列,進(jìn)行以下兩步的操作,如圖3-2所示。主要步驟:第一步,通過注意力機(jī)制降低非關(guān)鍵詞的權(quán)重,然后基于加權(quán)后的單詞向量構(gòu)建句子向量;第二步,用語料庫中關(guān)鍵詞向量化矩陣的線性組合,進(jìn)行降維并重新構(gòu)建句子向量化。ABAE重新構(gòu)建,使用最少的變化盡可能保存更多個關(guān)鍵詞中的信息。圖3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力機(jī)制深度學(xué)習(xí)的研究在自然語言處理中,引入注意力機(jī)制(AttentionMechanism)就類


本文編號:2965615

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2965615.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶68a04***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com