在線評論的個性化選擇算法研究
發(fā)布時間:2021-01-09 00:33
大量網(wǎng)絡(luò)平臺為了吸引更多的用戶和提高網(wǎng)站閱讀量而進(jìn)行有目的性的選擇評論,然而篩選出來的評論集合信息冗余問題非常嚴(yán)重。因此,為了滿足網(wǎng)站和用戶的雙重需求,選擇出與用戶偏好最為相似的個性化評論顯得尤為重要。最近研究表明,用戶在網(wǎng)站瀏覽和體驗(yàn)中,更關(guān)注與自身更相關(guān)的評論。針對上述問題,本文提出一種基于挖掘用戶個人偏好的個性化選擇算法,并將該算法應(yīng)用于餐館評論中。本文完成了以下主要工作:(1)通過對文本數(shù)據(jù)的處理,將利用深度學(xué)習(xí)中基于注意力機(jī)制的關(guān)鍵詞提取方法和層次聚類算法進(jìn)行組合,對用戶的歷史評論內(nèi)容進(jìn)行挖掘,以考慮用戶自身的關(guān)注度表示用戶的偏好。通過該組合進(jìn)行實(shí)驗(yàn),以向量形式表示用戶偏好。(2)定義評論選擇問題,除了考慮評論選擇的覆蓋率(即選擇出的評論在評論集合中的占比),還引入了評論的相似性和用戶個性化兩個選擇標(biāo)準(zhǔn)。在此基礎(chǔ)上,本文設(shè)計(jì)了個性化選擇算法并解決個性化評論選擇的問題,設(shè)置覆蓋率、相似性和用戶個性化為評論選擇的標(biāo)準(zhǔn),然后進(jìn)行個性化選擇,對不同的用戶選擇出一組K條評論。為了評估算法的優(yōu)化性能,使用調(diào)和平均值對相似性和用戶個性化進(jìn)行評估。(3)將本文的算法應(yīng)用于在線餐館評論進(jìn)行個性...
【文章來源】:西安石油大學(xué)陜西省
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究方法流程圖
西安石油大學(xué)碩士學(xué)位論文16圖3-1用戶偏好模型的創(chuàng)建流程圖3.2文本數(shù)據(jù)的預(yù)處理文本處理的前面都要進(jìn)行文本預(yù)處理,本文的文本預(yù)處理包括以下幾個操作:(1)除去數(shù)據(jù)中非文本部分:獲取到的英文文本中會有一些html標(biāo)簽或者是一些非英文的符號等,需要去掉。(2)拼寫檢查更正。(3)詞干提取和詞形還原:表示所有的詞匯為詞干形式。(4)分句:對于每個分句要進(jìn)行關(guān)鍵詞提取,因此對于長文本數(shù)據(jù),要進(jìn)行分句。(5)轉(zhuǎn)化為小寫:英文單詞有大小寫區(qū)分,因此將所有的詞都轉(zhuǎn)換為小寫會更好處理。(6)刪除停用詞組成的句子:刪除一些停用詞組成的某一個短分句,例如一些感嘆詞、停頓語氣詞等等。(7)引入停用詞:文本數(shù)據(jù)中,如“the”,“a”等這些無效詞匯及一些詞組中的多余標(biāo)點(diǎn)符號,在文本分析和后面的關(guān)鍵詞提取時不需要,因此需要去掉這些。完成了上面的操作,就完成了文本預(yù)處理的基本步驟,得到?jīng)]有噪聲的文本數(shù)據(jù),然后進(jìn)行下面的關(guān)鍵詞提齲3.3關(guān)鍵詞提取關(guān)鍵詞提取是分析用戶偏好的至關(guān)重要的步驟之一,現(xiàn)有的研究中多數(shù)傾向于應(yīng)用
第三章用戶偏好模型的創(chuàng)建17主題模型的變體。然而,主題模型通常不會產(chǎn)生高度相關(guān)的關(guān)鍵詞。為了提取相關(guān)性高且精煉的關(guān)鍵系,通過神經(jīng)網(wǎng)絡(luò)的詞嵌入來獲取關(guān)鍵詞的分布。因此,本文利用基于深度學(xué)習(xí)的注意力機(jī)制的關(guān)鍵詞提。ˋttention-basedAspectExtraction,ABAE)來提取關(guān)鍵詞。ABAE模型的最終目標(biāo)是通過引入注意力機(jī)制的方法從文檔中提取一組關(guān)鍵詞,且這組關(guān)鍵詞可以通過查看它上下文的單詞來解釋。詞匯表中每個詞都表示為一個維的向量,所有的詞的向量化矩陣是,表示詞的數(shù)目。關(guān)鍵詞是從語料庫的單詞中獲取的,因此關(guān)鍵詞的向量維數(shù)和單詞的向量的維數(shù)是同一個空間,關(guān)鍵詞的向量化矩陣是,表示定義的關(guān)鍵詞的數(shù)目,。關(guān)鍵詞向量化是在語料庫的詞匯中與關(guān)鍵詞近似的詞,而關(guān)鍵詞是通過注意力機(jī)制過濾出來的。ABAE有多個輸入,且每個輸入都對應(yīng)句子中的每個詞的索引列,進(jìn)行以下兩步的操作,如圖3-2所示。主要步驟:第一步,通過注意力機(jī)制降低非關(guān)鍵詞的權(quán)重,然后基于加權(quán)后的單詞向量構(gòu)建句子向量;第二步,用語料庫中關(guān)鍵詞向量化矩陣的線性組合,進(jìn)行降維并重新構(gòu)建句子向量化。ABAE重新構(gòu)建,使用最少的變化盡可能保存更多個關(guān)鍵詞中的信息。圖3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力機(jī)制深度學(xué)習(xí)的研究在自然語言處理中,引入注意力機(jī)制(AttentionMechanism)就類
本文編號:2965615
【文章來源】:西安石油大學(xué)陜西省
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究方法流程圖
西安石油大學(xué)碩士學(xué)位論文16圖3-1用戶偏好模型的創(chuàng)建流程圖3.2文本數(shù)據(jù)的預(yù)處理文本處理的前面都要進(jìn)行文本預(yù)處理,本文的文本預(yù)處理包括以下幾個操作:(1)除去數(shù)據(jù)中非文本部分:獲取到的英文文本中會有一些html標(biāo)簽或者是一些非英文的符號等,需要去掉。(2)拼寫檢查更正。(3)詞干提取和詞形還原:表示所有的詞匯為詞干形式。(4)分句:對于每個分句要進(jìn)行關(guān)鍵詞提取,因此對于長文本數(shù)據(jù),要進(jìn)行分句。(5)轉(zhuǎn)化為小寫:英文單詞有大小寫區(qū)分,因此將所有的詞都轉(zhuǎn)換為小寫會更好處理。(6)刪除停用詞組成的句子:刪除一些停用詞組成的某一個短分句,例如一些感嘆詞、停頓語氣詞等等。(7)引入停用詞:文本數(shù)據(jù)中,如“the”,“a”等這些無效詞匯及一些詞組中的多余標(biāo)點(diǎn)符號,在文本分析和后面的關(guān)鍵詞提取時不需要,因此需要去掉這些。完成了上面的操作,就完成了文本預(yù)處理的基本步驟,得到?jīng)]有噪聲的文本數(shù)據(jù),然后進(jìn)行下面的關(guān)鍵詞提齲3.3關(guān)鍵詞提取關(guān)鍵詞提取是分析用戶偏好的至關(guān)重要的步驟之一,現(xiàn)有的研究中多數(shù)傾向于應(yīng)用
第三章用戶偏好模型的創(chuàng)建17主題模型的變體。然而,主題模型通常不會產(chǎn)生高度相關(guān)的關(guān)鍵詞。為了提取相關(guān)性高且精煉的關(guān)鍵系,通過神經(jīng)網(wǎng)絡(luò)的詞嵌入來獲取關(guān)鍵詞的分布。因此,本文利用基于深度學(xué)習(xí)的注意力機(jī)制的關(guān)鍵詞提。ˋttention-basedAspectExtraction,ABAE)來提取關(guān)鍵詞。ABAE模型的最終目標(biāo)是通過引入注意力機(jī)制的方法從文檔中提取一組關(guān)鍵詞,且這組關(guān)鍵詞可以通過查看它上下文的單詞來解釋。詞匯表中每個詞都表示為一個維的向量,所有的詞的向量化矩陣是,表示詞的數(shù)目。關(guān)鍵詞是從語料庫的單詞中獲取的,因此關(guān)鍵詞的向量維數(shù)和單詞的向量的維數(shù)是同一個空間,關(guān)鍵詞的向量化矩陣是,表示定義的關(guān)鍵詞的數(shù)目,。關(guān)鍵詞向量化是在語料庫的詞匯中與關(guān)鍵詞近似的詞,而關(guān)鍵詞是通過注意力機(jī)制過濾出來的。ABAE有多個輸入,且每個輸入都對應(yīng)句子中的每個詞的索引列,進(jìn)行以下兩步的操作,如圖3-2所示。主要步驟:第一步,通過注意力機(jī)制降低非關(guān)鍵詞的權(quán)重,然后基于加權(quán)后的單詞向量構(gòu)建句子向量;第二步,用語料庫中關(guān)鍵詞向量化矩陣的線性組合,進(jìn)行降維并重新構(gòu)建句子向量化。ABAE重新構(gòu)建,使用最少的變化盡可能保存更多個關(guān)鍵詞中的信息。圖3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力機(jī)制深度學(xué)習(xí)的研究在自然語言處理中,引入注意力機(jī)制(AttentionMechanism)就類
本文編號:2965615
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2965615.html
最近更新
教材專著