基于多視圖學(xué)習(xí)的虛假評論識別研究
發(fā)布時間:2020-10-01 06:30
隨著各種網(wǎng)絡(luò)通信技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)的影響力正日益改變著人們的生活,大眾消費模式逐漸由“線下”向“線上”轉(zhuǎn)變,網(wǎng)絡(luò)購物因其方便、快捷等特點逐漸成為人們消費的首要選擇。通常,用戶在做出購買決策前,會參考其他用戶對目標商品或服務(wù)的評論做出相應(yīng)判斷。在線評論蘊含著豐富的觀點信息,對評論使用群體具有重要利用價值,真實可信的評論能幫助消費者做出正確的消費決定,同時也是商業(yè)群體獲取用戶真正需求與反饋的重要途徑,因此對在線評論的可信度進行衡量,識別并過濾虛假的評論信息具有重要的意義。本文圍繞虛假評論識別,對其識別框架、技術(shù)方法等進行分析總結(jié),針對當(dāng)前研究在特征提取及融合、標注數(shù)據(jù)集缺失方面存在的主要問題,提出使用多視圖學(xué)習(xí)的方法進行解決。本文的主要研究內(nèi)容如下:1.針對標記樣本數(shù)量有限的問題,提出使用半監(jiān)督協(xié)同訓(xùn)練算法進行識別,以降低人工標注的工作量。從評論文本及評論行為兩個視圖構(gòu)建特征集,利用主成分分析提取特征后,針對各視圖特點挑選基分類器,最后將對分類結(jié)果影響較大的主要成分遞交分類器進行協(xié)同訓(xùn)練,實驗結(jié)果證明了協(xié)同訓(xùn)練算法能充分利用未標記樣本輔助模型訓(xùn)練,一定程度地彌補因標注樣本不足帶來的局限性。2.結(jié)合以往研究中的常用特征指標,通過分析虛假評論與真實評論的不同表現(xiàn)形式,細化評論文本、評論行為兩個視圖維度,構(gòu)建了一個較完整的評論可信度評價指標體系。針對以往研究中將不同視圖特征直接首尾拼接組合成為新特征所帶來的特征冗余、高維度等問題,提出利用典型相關(guān)分析將各視圖特征投影到共享的低維子空間后,再采用兩種不同的特征融合策略進行組合,最后通過對比實驗證明了所選特征與所提方法的有效性。3.考慮到協(xié)同訓(xùn)練初始階段基分類器的分類性能較弱,可能將錯誤標記的噪聲樣本加入訓(xùn)練集中,隨著訓(xùn)練不斷迭代,這種錯誤會逐漸累積進而影響模型的最終分類性能。針對此問題,結(jié)合一種樣本標記相似度策略對樣本置信度進一步評估,以減少噪聲樣本被引入的情況,實驗結(jié)果顯示,結(jié)合標記相似度進行樣本挑選的協(xié)同訓(xùn)練算法較經(jīng)典的協(xié)同訓(xùn)練算法在整體分類準確率、F1等指標上均有所提高。
【學(xué)位單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP181;F274
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景及研究意義
1.2 研究對象
1.2.1 虛假評論定義
1.2.2 評論的有用度與可信度
1.3 研究現(xiàn)狀及存在的問題
1.3.1 國內(nèi)外研究現(xiàn)狀
1.3.2 存在的問題
1.4 本文研究內(nèi)容及組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)介紹
2.1 虛假評論識別方法
2.1.1 常用特征指標
2.1.2 分類模型
2.2 多視圖學(xué)習(xí)方法
2.2.1 多視圖數(shù)據(jù)
2.2.2 多視圖子空間學(xué)習(xí)
2.2.3 協(xié)同訓(xùn)練算法
2.3 本章小結(jié)
第3章 基于PCA與協(xié)同訓(xùn)練的虛假評論識別方法
3.1 概述
3.2 模型概述
3.3 特征選擇
3.3.1 特征集構(gòu)建
3.3.2 主成分分析
3.4 協(xié)同訓(xùn)練算法
3.5 實驗結(jié)果與分析
3.5.1 實驗設(shè)置
3.5.2 主成分分析應(yīng)用
3.5.3 基分類器選擇
3.5.4 結(jié)果及分析
3.6 本章小結(jié)
第4章 基于典型相關(guān)分析的虛假評論特征提取方法
4.1 概述
4.2 識別流程
4.3 數(shù)據(jù)集構(gòu)建
4.4 特征學(xué)習(xí)
4.4.1 特征指標集
4.4.2 多視圖特征提取與融合
4.5 分類模型
4.6 實驗結(jié)果與分析
4.6.1 實驗設(shè)置
4.6.2 特征性能對比
4.6.3 CCA有效性驗證
4.6.4 典型子空間維數(shù)的影響
4.7 本章小結(jié)
第5章 改進的基于協(xié)同訓(xùn)練的虛假評論識別方法
5.1 概述
5.2 協(xié)同訓(xùn)練算法簡述
5.3 改進的協(xié)同訓(xùn)練算法
5.3.1 樣本的標記相似度
5.3.2 構(gòu)造協(xié)同訓(xùn)練算法
5.4 實驗結(jié)果與分析
5.4.1 實驗設(shè)置
5.4.2 結(jié)果及分析
5.5 本章小結(jié)
第6章 結(jié)束語
6.1 主要工作
6.2 后續(xù)研究工作
參考文獻
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號:2831520
【學(xué)位單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP181;F274
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景及研究意義
1.2 研究對象
1.2.1 虛假評論定義
1.2.2 評論的有用度與可信度
1.3 研究現(xiàn)狀及存在的問題
1.3.1 國內(nèi)外研究現(xiàn)狀
1.3.2 存在的問題
1.4 本文研究內(nèi)容及組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)介紹
2.1 虛假評論識別方法
2.1.1 常用特征指標
2.1.2 分類模型
2.2 多視圖學(xué)習(xí)方法
2.2.1 多視圖數(shù)據(jù)
2.2.2 多視圖子空間學(xué)習(xí)
2.2.3 協(xié)同訓(xùn)練算法
2.3 本章小結(jié)
第3章 基于PCA與協(xié)同訓(xùn)練的虛假評論識別方法
3.1 概述
3.2 模型概述
3.3 特征選擇
3.3.1 特征集構(gòu)建
3.3.2 主成分分析
3.4 協(xié)同訓(xùn)練算法
3.5 實驗結(jié)果與分析
3.5.1 實驗設(shè)置
3.5.2 主成分分析應(yīng)用
3.5.3 基分類器選擇
3.5.4 結(jié)果及分析
3.6 本章小結(jié)
第4章 基于典型相關(guān)分析的虛假評論特征提取方法
4.1 概述
4.2 識別流程
4.3 數(shù)據(jù)集構(gòu)建
4.4 特征學(xué)習(xí)
4.4.1 特征指標集
4.4.2 多視圖特征提取與融合
4.5 分類模型
4.6 實驗結(jié)果與分析
4.6.1 實驗設(shè)置
4.6.2 特征性能對比
4.6.3 CCA有效性驗證
4.6.4 典型子空間維數(shù)的影響
4.7 本章小結(jié)
第5章 改進的基于協(xié)同訓(xùn)練的虛假評論識別方法
5.1 概述
5.2 協(xié)同訓(xùn)練算法簡述
5.3 改進的協(xié)同訓(xùn)練算法
5.3.1 樣本的標記相似度
5.3.2 構(gòu)造協(xié)同訓(xùn)練算法
5.4 實驗結(jié)果與分析
5.4.1 實驗設(shè)置
5.4.2 結(jié)果及分析
5.5 本章小結(jié)
第6章 結(jié)束語
6.1 主要工作
6.2 后續(xù)研究工作
參考文獻
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻】
相關(guān)期刊論文 前1條
1 汪建成;嚴馨;余正濤;宋海霞;石林賓;;基于主題-對立情感依賴模型的虛假評論檢測方法[J];山西大學(xué)學(xué)報(自然科學(xué)版);2015年01期
本文編號:2831520
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/2831520.html
最近更新
教材專著