基于深度學(xué)習(xí)的虛假評(píng)論識(shí)別方法研究
本文選題:虛假評(píng)論識(shí)別 + 深度學(xué)習(xí); 參考:《哈爾濱工業(yè)大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)和移動(dòng)終端的發(fā)展,電子商務(wù)成為日常生活中不可或缺的部分,隨之而來的是商品信息、用戶評(píng)論數(shù)量的飛速增長。其中用戶的評(píng)論在電子商務(wù)中起到至關(guān)重要的作用,因?yàn)樵诰W(wǎng)絡(luò)購物中用戶將商品評(píng)論作為衡量商品質(zhì)量的參考資源,會(huì)左右消費(fèi)者的決定。所以出于利益商家會(huì)雇傭?qū)I(yè)寫手為自家商品撰寫好評(píng)或?yàn)楦?jìng)爭(zhēng)對(duì)手撰寫差評(píng),對(duì)電子商務(wù)平臺(tái)的生態(tài)發(fā)展造成了嚴(yán)重的影響,F(xiàn)有研究表明,人工識(shí)別這類虛假評(píng)論的水平較低。為了有效識(shí)別這類評(píng)論,一些學(xué)者使用基于淺層、顯性語義特征的方法,取得了一定成果。而深度學(xué)習(xí)方法可以挖掘深層次的語義特征,在識(shí)別虛假評(píng)論任務(wù)上,本文將深度學(xué)習(xí)方法作為研究重點(diǎn)。本文研究內(nèi)容歸納為以下四點(diǎn):(1)基于傳統(tǒng)模型方法的虛假評(píng)論識(shí)別。在傳統(tǒng)方法模型中采用了四種分類器,針對(duì)虛假評(píng)論語料的特點(diǎn),提出文本特征、情感傾向性特征、心理學(xué)特征、句法相關(guān)特征四大類特征。采用了多模型投票策略,實(shí)驗(yàn)效果超過基線方法。(2)半監(jiān)督學(xué)習(xí)算法擴(kuò)充語料。針對(duì)虛假評(píng)論語料匱乏的情況,首先利用爬蟲程序爬取評(píng)論資源,然后采用一種半監(jiān)督學(xué)習(xí)算法,根據(jù)少量已標(biāo)注的語料,從爬蟲數(shù)據(jù)集中抽取置信度高的點(diǎn)評(píng)加入語料庫。(3)基于深度學(xué)習(xí)模型的虛假評(píng)論識(shí)別。在虛假評(píng)論識(shí)別任務(wù)上,使用詞向量作為輸入,在LSTM、雙向LSTM與CNN模型上進(jìn)行實(shí)驗(yàn),并嘗試上述模型的融合實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明CNN與LSTM混合模型的效果最佳,準(zhǔn)確率較基線方法提升2個(gè)百分點(diǎn)。(4)融合Attention機(jī)制的虛假評(píng)論識(shí)別。本文實(shí)現(xiàn)了兩種Attention機(jī)制,分別為前饋式注意力模型和基于上下文的注意力模型。注意力機(jī)制對(duì)句子中單詞的重要性進(jìn)行區(qū)分,利用注意力權(quán)重得到更加準(zhǔn)確的句子表示。將注意力機(jī)制應(yīng)用在LSTM模型和LSTM與CNN的混合模型,進(jìn)一步提升了準(zhǔn)確率。
[Abstract]:With the development of the Internet and mobile terminals, e-commerce has become an indispensable part of daily life, followed by the rapid increase in the number of commodity information and user comments. Users' comments play an important role in electronic commerce, because in online shopping, users use commodity reviews as a reference resource to measure the quality of goods, which will influence consumers' decisions. Therefore, for the benefit of the business will hire professional writers for their own products to write praise or for competitors to write bad comments, e-commerce platform ecological development has a serious impact. Existing studies show that the level of manual identification of such false comments is low. In order to identify this kind of comment effectively, some scholars have made some achievements by using the method based on shallow and dominant semantic features. However, the deep learning method can mine the deep semantic features. In the task of identifying false comments, this paper focuses on the depth learning method. The research content of this paper is summarized as follows: 4 points: 1) false comment recognition based on traditional model method. Four kinds of classifiers are used in the traditional method model. According to the characteristics of false comment corpus, the text feature, emotional tendency feature, psychological feature and syntactic correlation feature are proposed. A multi-model voting strategy is adopted, and the experimental results exceed the baseline method. 2) the semi-supervised learning algorithm expands the corpus. In view of the shortage of false comment corpus, the crawler program is used to crawl the comment resource, and then a semi-supervised learning algorithm is adopted, according to a small number of tagged corpus. Extracted from reptile data sets, comments with high confidence are added to Corpus. 3) false comment recognition based on depth learning model. In the task of false comment recognition, we use word vector as input, experiment on LSTM, bidirectional LSTM and CNN model, and try the fusion experiment of the above model. The experimental results show that the mixed model of CNN and LSTM has the best effect, and the accuracy is 2% higher than the baseline method. In this paper, two kinds of Attention mechanisms are implemented, which are feedforward attention model and context-based attention model. The attention mechanism distinguishes the importance of the words in a sentence and uses the attention weight to obtain a more accurate sentence representation. The attention mechanism is applied to the LSTM model and the mixed model of LSTM and CNN, which further improves the accuracy.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李明;楊艷屏;占惠融;;基于局部聚類與圖方法的半監(jiān)督學(xué)習(xí)算法[J];自動(dòng)化學(xué)報(bào);2010年12期
2 楊南海;黃明明;赫然;王秀坤;;基于最大相關(guān)熵準(zhǔn)則的魯棒半監(jiān)督學(xué)習(xí)算法[J];軟件學(xué)報(bào);2012年02期
3 陳志民;薛月菊;楊敬鋒;葉志嬋;陳劍虹;;半監(jiān)督學(xué)習(xí)算法在農(nóng)用地分等中的應(yīng)用[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年23期
4 李凱;馬紅艷;楊楠;陳新勇;;半監(jiān)督學(xué)習(xí)算法的收斂性及其在人臉識(shí)別中的應(yīng)用[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
5 繆志敏;胡谷雨;趙陸文;陳彥德;;一種基于支持向量數(shù)據(jù)描述的半監(jiān)督學(xué)習(xí)算法[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
6 陳錦秀;姬東鴻;;基于圖的半監(jiān)督關(guān)系抽取[J];軟件學(xué)報(bào);2008年11期
7 任亞峰;姬東鴻;尹蘭;;基于半監(jiān)督學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2014年03期
8 許震;沙朝鋒;王曉玲;周傲英;;基于KL距離的非平衡數(shù)據(jù)半監(jiān)督學(xué)習(xí)算法[J];計(jì)算機(jī)研究與發(fā)展;2010年01期
9 劉德山;孫麗;閆德勤;;一種基因數(shù)據(jù)分析的半監(jiān)督學(xué)習(xí)算法[J];微型機(jī)與應(yīng)用;2014年12期
10 王江;張惠源;李芳;張兵文;李鵬;;腦機(jī)接口中半監(jiān)督學(xué)習(xí)算法研究[J];電子測(cè)量技術(shù);2014年05期
相關(guān)會(huì)議論文 前10條
1 沈樂君;;基于混合模型的多目標(biāo)實(shí)時(shí)跟蹤算法[A];2013體育計(jì)算機(jī)應(yīng)用論文集[C];2013年
2 紀(jì)琳;黃震宇;;中頻振動(dòng)混合模型理論的應(yīng)用局限性分析[A];現(xiàn)代振動(dòng)與噪聲技術(shù)(第九卷)[C];2011年
3 汪傳建;李曉光;王大玲;于戈;;一種基于混合模型的文本分類器的研究與實(shí)現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
4 付麗麗;王瑞芳;;我國籃球碩士學(xué)位論文的共詞聚類分析[A];第九屆全國體育科學(xué)大會(huì)論文摘要匯編(4)[C];2011年
5 崔玉平;董筱文;;教育經(jīng)濟(jì)與管理專業(yè)碩士學(xué)位論文的內(nèi)容分析[A];江蘇省高等教育學(xué)會(huì)教育經(jīng)濟(jì)研究委員會(huì)成立大會(huì)暨第一屆江蘇省教育經(jīng)濟(jì)學(xué)術(shù)年會(huì)論文集[C];2013年
6 鄭凱;;建立多維數(shù)據(jù)異常點(diǎn)識(shí)別方法的嘗試[A];第八屆全國體育科學(xué)大會(huì)論文摘要匯編(一)[C];2007年
7 張朋柱;韓崇昭;萬百五;;智能決策支持系統(tǒng)中的問題識(shí)別方法與實(shí)現(xiàn)[A];全國青年管理科學(xué)與系統(tǒng)科學(xué)論文集(第2卷)[C];1993年
8 劉麗蘭;劉宏昭;;時(shí)間序列模型的識(shí)別方法[A];制造技術(shù)自動(dòng)化學(xué)術(shù)會(huì)議論文集[C];2004年
9 苗振偉;許勇;楊軍;;超聲波人臉識(shí)別方法研究[A];中國聲學(xué)學(xué)會(huì)2007年青年學(xué)術(shù)會(huì)議論文集(上)[C];2007年
10 徐斌;馬盡文;;一種柯西混合模型上梯度型BYY和諧學(xué)習(xí)算法[A];第十三屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2007)論文集[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 張瑩;360安全中心號(hào)召網(wǎng)友簽名要求CNN向中國人民道歉[N];中國新聞出版報(bào);2008年
2 資深媒體人士 安替;謹(jǐn)記CNN遠(yuǎn)不只是放國家形象廣告[N];東方早報(bào);2010年
3 卞普易;韓國世界首個(gè)CNN咖啡館開業(yè)[N];中國食品安全報(bào);2011年
4 孫浩;從CNN烏龍看傳統(tǒng)媒體的危與機(jī)[N];新華每日電訊;2013年
5 國際問題專家 華益聲;CNN淪為暴力恐怖幫兇[N];人民日?qǐng)?bào)海外版;2013年
6 新華社記者 劉順 操風(fēng)琴;中東CNN探訪“半島”電視臺(tái)[N];新華每日電訊;2002年
7 資深媒體人士 安替;CNN新聞全球化就是新聞美國化[N];東方早報(bào);2009年
8 記者 劉倩;全球知名媒體CNN將全程報(bào)道論壇盛況[N];桂林日?qǐng)?bào);2012年
9 記者 姜微 陸文軍;CNN:中國驅(qū)動(dòng)全球汽車產(chǎn)業(yè)[N];新華每日電訊;2009年
10 Julie Battilana Matthew Lee John Walker Cheryl Dorsey 翻譯 譚立立;營利與非營利組織的理想混合模型(下篇)[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2012年
相關(guān)博士學(xué)位論文 前10條
1 楊南海;魯棒半監(jiān)督學(xué)習(xí)算法及在生物統(tǒng)計(jì)中的應(yīng)用研究[D];大連理工大學(xué);2015年
2 鄧超;基于“合作—參與”計(jì)算認(rèn)知模型的半監(jiān)督學(xué)習(xí)算法研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2009年
3 熊杰;基于混合模型的腫瘤組學(xué)數(shù)據(jù)聚類研究[D];湖南師范大學(xué);2016年
4 李斌;概率混合模型的研究及其應(yīng)用[D];復(fù)旦大學(xué);2009年
5 王先文;基于偏斜t混合模型的流式數(shù)據(jù)細(xì)胞類群自動(dòng)識(shí)別算法研究[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2015年
6 李少亭;帶有輔助信息的混合模型及其應(yīng)用[D];東北師范大學(xué);2014年
7 陳思寶;基于t-混合模型和擴(kuò)展保局投影的聚類與降維方法研究[D];安徽大學(xué);2006年
8 趙國騰;跨座式單軌交通軌道梁表面裂紋識(shí)別方法研究[D];重慶大學(xué);2015年
9 徐訓(xùn);線性與非線性結(jié)構(gòu)動(dòng)力荷載識(shí)別方法及實(shí)驗(yàn)研究[D];哈爾濱工業(yè)大學(xué);2015年
10 黃仕建;視頻序列中人體行為的低秩表達(dá)與識(shí)別方法研究[D];重慶大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 張恒;基于深度學(xué)習(xí)的虛假評(píng)論識(shí)別方法研究[D];哈爾濱工業(yè)大學(xué);2017年
2 萬小強(qiáng);短信自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[D];東華大學(xué);2017年
3 李玉嬌;半監(jiān)督學(xué)習(xí)算法的魯棒性研究[D];華南理工大學(xué);2016年
4 宿洪祿;結(jié)構(gòu)半監(jiān)督學(xué)習(xí)算法及其應(yīng)用研究[D];蘇州大學(xué);2010年
5 占惠融;基于圖的半監(jiān)督學(xué)習(xí)算法研究[D];華中科技大學(xué);2009年
6 魏征麗;基于圖半監(jiān)督學(xué)習(xí)算法的研究及應(yīng)用[D];西安電子科技大學(xué);2012年
7 徐寒香;一種基于李群的半監(jiān)督學(xué)習(xí)算法及應(yīng)用研究[D];蘇州大學(xué);2009年
8 徐培培;基于LNP的半監(jiān)督學(xué)習(xí)算法[D];西安電子科技大學(xué);2009年
9 常瑜;基于Tri-training的半監(jiān)督學(xué)習(xí)算法研究[D];山西大學(xué);2012年
10 王軼初;基于集成學(xué)習(xí)的半監(jiān)督學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2011年
,本文編號(hào):2000851
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2000851.html