在線評論的個性化選擇算法研究
發(fā)布時間:2021-01-09 00:33
大量網(wǎng)絡平臺為了吸引更多的用戶和提高網(wǎng)站閱讀量而進行有目的性的選擇評論,然而篩選出來的評論集合信息冗余問題非常嚴重。因此,為了滿足網(wǎng)站和用戶的雙重需求,選擇出與用戶偏好最為相似的個性化評論顯得尤為重要。最近研究表明,用戶在網(wǎng)站瀏覽和體驗中,更關注與自身更相關的評論。針對上述問題,本文提出一種基于挖掘用戶個人偏好的個性化選擇算法,并將該算法應用于餐館評論中。本文完成了以下主要工作:(1)通過對文本數(shù)據(jù)的處理,將利用深度學習中基于注意力機制的關鍵詞提取方法和層次聚類算法進行組合,對用戶的歷史評論內(nèi)容進行挖掘,以考慮用戶自身的關注度表示用戶的偏好。通過該組合進行實驗,以向量形式表示用戶偏好。(2)定義評論選擇問題,除了考慮評論選擇的覆蓋率(即選擇出的評論在評論集合中的占比),還引入了評論的相似性和用戶個性化兩個選擇標準。在此基礎上,本文設計了個性化選擇算法并解決個性化評論選擇的問題,設置覆蓋率、相似性和用戶個性化為評論選擇的標準,然后進行個性化選擇,對不同的用戶選擇出一組K條評論。為了評估算法的優(yōu)化性能,使用調(diào)和平均值對相似性和用戶個性化進行評估。(3)將本文的算法應用于在線餐館評論進行個性...
【文章來源】:西安石油大學陜西省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
研究方法流程圖
西安石油大學碩士學位論文16圖3-1用戶偏好模型的創(chuàng)建流程圖3.2文本數(shù)據(jù)的預處理文本處理的前面都要進行文本預處理,本文的文本預處理包括以下幾個操作:(1)除去數(shù)據(jù)中非文本部分:獲取到的英文文本中會有一些html標簽或者是一些非英文的符號等,需要去掉。(2)拼寫檢查更正。(3)詞干提取和詞形還原:表示所有的詞匯為詞干形式。(4)分句:對于每個分句要進行關鍵詞提取,因此對于長文本數(shù)據(jù),要進行分句。(5)轉(zhuǎn)化為小寫:英文單詞有大小寫區(qū)分,因此將所有的詞都轉(zhuǎn)換為小寫會更好處理。(6)刪除停用詞組成的句子:刪除一些停用詞組成的某一個短分句,例如一些感嘆詞、停頓語氣詞等等。(7)引入停用詞:文本數(shù)據(jù)中,如“the”,“a”等這些無效詞匯及一些詞組中的多余標點符號,在文本分析和后面的關鍵詞提取時不需要,因此需要去掉這些。完成了上面的操作,就完成了文本預處理的基本步驟,得到?jīng)]有噪聲的文本數(shù)據(jù),然后進行下面的關鍵詞提齲3.3關鍵詞提取關鍵詞提取是分析用戶偏好的至關重要的步驟之一,現(xiàn)有的研究中多數(shù)傾向于應用
第三章用戶偏好模型的創(chuàng)建17主題模型的變體。然而,主題模型通常不會產(chǎn)生高度相關的關鍵詞。為了提取相關性高且精煉的關鍵系,通過神經(jīng)網(wǎng)絡的詞嵌入來獲取關鍵詞的分布。因此,本文利用基于深度學習的注意力機制的關鍵詞提。ˋttention-basedAspectExtraction,ABAE)來提取關鍵詞。ABAE模型的最終目標是通過引入注意力機制的方法從文檔中提取一組關鍵詞,且這組關鍵詞可以通過查看它上下文的單詞來解釋。詞匯表中每個詞都表示為一個維的向量,所有的詞的向量化矩陣是,表示詞的數(shù)目。關鍵詞是從語料庫的單詞中獲取的,因此關鍵詞的向量維數(shù)和單詞的向量的維數(shù)是同一個空間,關鍵詞的向量化矩陣是,表示定義的關鍵詞的數(shù)目,。關鍵詞向量化是在語料庫的詞匯中與關鍵詞近似的詞,而關鍵詞是通過注意力機制過濾出來的。ABAE有多個輸入,且每個輸入都對應句子中的每個詞的索引列,進行以下兩步的操作,如圖3-2所示。主要步驟:第一步,通過注意力機制降低非關鍵詞的權重,然后基于加權后的單詞向量構建句子向量;第二步,用語料庫中關鍵詞向量化矩陣的線性組合,進行降維并重新構建句子向量化。ABAE重新構建,使用最少的變化盡可能保存更多個關鍵詞中的信息。圖3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力機制深度學習的研究在自然語言處理中,引入注意力機制(AttentionMechanism)就類
本文編號:2965615
【文章來源】:西安石油大學陜西省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
研究方法流程圖
西安石油大學碩士學位論文16圖3-1用戶偏好模型的創(chuàng)建流程圖3.2文本數(shù)據(jù)的預處理文本處理的前面都要進行文本預處理,本文的文本預處理包括以下幾個操作:(1)除去數(shù)據(jù)中非文本部分:獲取到的英文文本中會有一些html標簽或者是一些非英文的符號等,需要去掉。(2)拼寫檢查更正。(3)詞干提取和詞形還原:表示所有的詞匯為詞干形式。(4)分句:對于每個分句要進行關鍵詞提取,因此對于長文本數(shù)據(jù),要進行分句。(5)轉(zhuǎn)化為小寫:英文單詞有大小寫區(qū)分,因此將所有的詞都轉(zhuǎn)換為小寫會更好處理。(6)刪除停用詞組成的句子:刪除一些停用詞組成的某一個短分句,例如一些感嘆詞、停頓語氣詞等等。(7)引入停用詞:文本數(shù)據(jù)中,如“the”,“a”等這些無效詞匯及一些詞組中的多余標點符號,在文本分析和后面的關鍵詞提取時不需要,因此需要去掉這些。完成了上面的操作,就完成了文本預處理的基本步驟,得到?jīng)]有噪聲的文本數(shù)據(jù),然后進行下面的關鍵詞提齲3.3關鍵詞提取關鍵詞提取是分析用戶偏好的至關重要的步驟之一,現(xiàn)有的研究中多數(shù)傾向于應用
第三章用戶偏好模型的創(chuàng)建17主題模型的變體。然而,主題模型通常不會產(chǎn)生高度相關的關鍵詞。為了提取相關性高且精煉的關鍵系,通過神經(jīng)網(wǎng)絡的詞嵌入來獲取關鍵詞的分布。因此,本文利用基于深度學習的注意力機制的關鍵詞提。ˋttention-basedAspectExtraction,ABAE)來提取關鍵詞。ABAE模型的最終目標是通過引入注意力機制的方法從文檔中提取一組關鍵詞,且這組關鍵詞可以通過查看它上下文的單詞來解釋。詞匯表中每個詞都表示為一個維的向量,所有的詞的向量化矩陣是,表示詞的數(shù)目。關鍵詞是從語料庫的單詞中獲取的,因此關鍵詞的向量維數(shù)和單詞的向量的維數(shù)是同一個空間,關鍵詞的向量化矩陣是,表示定義的關鍵詞的數(shù)目,。關鍵詞向量化是在語料庫的詞匯中與關鍵詞近似的詞,而關鍵詞是通過注意力機制過濾出來的。ABAE有多個輸入,且每個輸入都對應句子中的每個詞的索引列,進行以下兩步的操作,如圖3-2所示。主要步驟:第一步,通過注意力機制降低非關鍵詞的權重,然后基于加權后的單詞向量構建句子向量;第二步,用語料庫中關鍵詞向量化矩陣的線性組合,進行降維并重新構建句子向量化。ABAE重新構建,使用最少的變化盡可能保存更多個關鍵詞中的信息。圖3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力機制深度學習的研究在自然語言處理中,引入注意力機制(AttentionMechanism)就類
本文編號:2965615
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2965615.html
最近更新
教材專著