基于區(qū)塊鏈的酒店入住點評信用機制研究
發(fā)布時間:2020-12-18 06:24
在線點評的初衷是幫助潛在消費者高效獲取信息,從而快速做出購買決策以及幫助商家調(diào)整市場策略,改進(jìn)提供的商品和服務(wù)。但現(xiàn)實是,存在相當(dāng)多的無關(guān)的評論,稱之為垃圾評論。垃圾評論嚴(yán)重影響了在線點評應(yīng)該發(fā)揮的作用,降低了潛在消費者的購買決策效率,提升了商家對商品和服務(wù)作出優(yōu)化的難度,因此,如何識別和避免垃圾評論成為研究者亟待解決的重要課題。本文介紹了垃圾評論識別的研究背景和研究意義,概述了垃圾評論識別在國內(nèi)外的研究現(xiàn)狀,同時指出目前大多數(shù)的研究目標(biāo)是如何識別垃圾評論,而忽略了從源頭處減少垃圾評論的出現(xiàn);谝陨蠑⑹,本文所做的研究工作總結(jié)如下:(1)本文提出利用KL散度作為評論有用程度的度量,通過理論分析加上實驗的方法確定了評論是否有用的判斷標(biāo)準(zhǔn)。首先通過網(wǎng)絡(luò)爬蟲爬取了攜程網(wǎng)上海地區(qū)酒店的在線點評超過10W條,用這些數(shù)據(jù)來訓(xùn)練LDA主題模型。使用吉布斯采樣法來估計LDA主題模型的隱變量,通過不斷地調(diào)整主題數(shù)量、收斂到目標(biāo)分布所需要的最小迭代次數(shù),并比較每次參數(shù)調(diào)整后的LDA主題模型的建模能力,確定了這兩個參數(shù)的最佳取值。利用參數(shù)調(diào)整好并訓(xùn)練好的LDA主題模型推測新評論的主題分布。為了度量新評論的...
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
評論截圖
nz 其他專名 “!钡穆暷傅牡 1 個字母為 z,名詞代碼 n 和 z 并在一起。t 時間詞 取時間的英文 time 的首字母對中文進(jìn)行分詞之后通常要去掉分詞結(jié)果中的一些并不重要的詞,也即去停用詞。在文本預(yù)處理過程中,為節(jié)約存儲空間和提升搜索效率,在對自然文本信息進(jìn)行深入分析之前,將某些字或詞自動忽略,這些字或詞即稱為停用詞[61]。停用詞并非是自動化生成的,而是由人工輸入的,這些由人工輸入的停用詞組成一個稱為停用詞表的詞表。但是目前并沒有一個適合所有中文處理場景的標(biāo)準(zhǔn)的停用詞表,所以本論文中收集了哈工大停用詞詞庫、四川大學(xué)機器學(xué)習(xí)智能實驗室停用詞庫、百度停用詞庫等知名的停用詞庫,并進(jìn)行整理,最終形成一份比較全面的停用詞庫。對評論文本進(jìn)行中文分詞之后的結(jié)果進(jìn)行去停用詞,這一流程之后的結(jié)果作為主題模型的輸入。文檔預(yù)處理的結(jié)果如圖 3-3 所示。
圖 3-5 Gibbs 采樣算法Figure3-5 Gibbs sampling algorithm上述算法主要由初始化、更新糾正詞語分配給每個主題的概率、收斂到目標(biāo)分布之后間隔取樣、迭代完成之后對取樣的樣本取均值四個步驟組成。初始化階段描述如下:⑴初始化 4 個輔助變量 、 、 、 。這四個輔助變量的含義分別為: 表示序號為 m 的訓(xùn)練文檔中分配給主題編號為 k 的主題的詞語的數(shù)量,是一個M*K 的矩陣; 表示詞表中編號為 t 的詞語被分配為主題編號為 k 的主題的次數(shù), 是一個 V*K 的矩陣; 表示分配給主題編號為 k 的主題的詞語的數(shù)量; 表示序 號為 m 的訓(xùn)練文檔中的序號為 n 的詞語被分配的主題的編號。⑵遍歷訓(xùn)練語料中的所有文檔,對于編號為 m 的文檔執(zhí)行步驟⑶⑶遍歷文檔中的每一個詞語,隨機為其分配一個主題,并更新 4 個輔助變量。糾正詞語分配給主題的概率的過程描述如下:
本文編號:2923526
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
評論截圖
nz 其他專名 “!钡穆暷傅牡 1 個字母為 z,名詞代碼 n 和 z 并在一起。t 時間詞 取時間的英文 time 的首字母對中文進(jìn)行分詞之后通常要去掉分詞結(jié)果中的一些并不重要的詞,也即去停用詞。在文本預(yù)處理過程中,為節(jié)約存儲空間和提升搜索效率,在對自然文本信息進(jìn)行深入分析之前,將某些字或詞自動忽略,這些字或詞即稱為停用詞[61]。停用詞并非是自動化生成的,而是由人工輸入的,這些由人工輸入的停用詞組成一個稱為停用詞表的詞表。但是目前并沒有一個適合所有中文處理場景的標(biāo)準(zhǔn)的停用詞表,所以本論文中收集了哈工大停用詞詞庫、四川大學(xué)機器學(xué)習(xí)智能實驗室停用詞庫、百度停用詞庫等知名的停用詞庫,并進(jìn)行整理,最終形成一份比較全面的停用詞庫。對評論文本進(jìn)行中文分詞之后的結(jié)果進(jìn)行去停用詞,這一流程之后的結(jié)果作為主題模型的輸入。文檔預(yù)處理的結(jié)果如圖 3-3 所示。
圖 3-5 Gibbs 采樣算法Figure3-5 Gibbs sampling algorithm上述算法主要由初始化、更新糾正詞語分配給每個主題的概率、收斂到目標(biāo)分布之后間隔取樣、迭代完成之后對取樣的樣本取均值四個步驟組成。初始化階段描述如下:⑴初始化 4 個輔助變量 、 、 、 。這四個輔助變量的含義分別為: 表示序號為 m 的訓(xùn)練文檔中分配給主題編號為 k 的主題的詞語的數(shù)量,是一個M*K 的矩陣; 表示詞表中編號為 t 的詞語被分配為主題編號為 k 的主題的次數(shù), 是一個 V*K 的矩陣; 表示分配給主題編號為 k 的主題的詞語的數(shù)量; 表示序 號為 m 的訓(xùn)練文檔中的序號為 n 的詞語被分配的主題的編號。⑵遍歷訓(xùn)練語料中的所有文檔,對于編號為 m 的文檔執(zhí)行步驟⑶⑶遍歷文檔中的每一個詞語,隨機為其分配一個主題,并更新 4 個輔助變量。糾正詞語分配給主題的概率的過程描述如下:
本文編號:2923526
本文鏈接:http://sikaile.net/guanlilunwen/lvyoujiudianguanlilunwen/2923526.html
最近更新
教材專著