天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本評論數(shù)據(jù)質(zhì)量分析方法研究

發(fā)布時間:2018-10-22 09:29
【摘要】:隨著電子商務(wù)的快速興起,人們越來越傾向于網(wǎng)絡(luò)購物。一方面由于網(wǎng)購交易雙方信息的不對稱性,使網(wǎng)購用戶鑒定商品質(zhì)量的困難加大,降低電子商務(wù)市場的交易效率;另一方面,用戶評論數(shù)量巨大,且逐年增長,再加上用戶的消費經(jīng)驗、評價態(tài)度等存在著巨大差異,導(dǎo)致評論數(shù)據(jù)中的信息和價值也參差不齊。因此,如何快速的從海量評論中獲取有價值的信息是當(dāng)前電子商務(wù)市場一項迫切而重要的任務(wù)。本文從文本評論的質(zhì)量角度出發(fā),基于評論中商品特征詞之間的泛化/特化關(guān)系,建立商品特征主題層次結(jié)構(gòu),在該結(jié)構(gòu)的基礎(chǔ)上對文本質(zhì)量進(jìn)行分析,從而向用戶推薦高質(zhì)量評論數(shù)據(jù)。本文將每個商品下的所有評論作為一個文檔,提取文本評論中用戶常用的比較關(guān)注的商品特征,根據(jù)商品特征詞之間的泛化/特化關(guān)系,本文提出了一種基于FCA的特征主題層次格構(gòu)建方法(THL Based on FCA,TBF),以此來構(gòu)建商品特征主題層次格(Topic Hierarchy Lattice,THL)。TBF方法在采用句法分析方法提取出的商品特征的基礎(chǔ)上,利用文檔主題生成模型(Latent Dirichlet Allocation,LDA)來進(jìn)行主題分析,提取出特征主題(該主題是由一些商品特征詞按照一定的概率分布組成的詞組),并得到文檔——主題(doc-topic)和主題——特征詞(topic-word)概率矩陣,然后根據(jù)商品類別與特征主題之間的二元關(guān)系,采用形式概念分析(Formal Concept Analysis,FCA)的方法來構(gòu)建THL。在THL的基礎(chǔ)上,本文提出了文本評論質(zhì)量的五個影響因素:全面性、專業(yè)性、內(nèi)聚性、相關(guān)性和可讀性,由此提出了一個商品評論的質(zhì)量分析模型(Comment Quality Model Based on THL,CQM)來計算每條評論的質(zhì)量分?jǐn)?shù)。該模型結(jié)合了評論質(zhì)量的五個影響因素,可以比較全面的評估評論的質(zhì)量。本文選取某B2C電子商務(wù)平臺2012年交易數(shù)據(jù)中的116個商品類別、6,212個商品和18,415,146條評論數(shù)據(jù)為實驗數(shù)據(jù)集,并通過人工打分的形式收集了評論質(zhì)量評分?jǐn)?shù)據(jù)作為實驗的測試數(shù)據(jù)集,實驗結(jié)果中,CQM的MAE值為0.726,表明CQM對評論質(zhì)量的預(yù)測評分與人工評分比較接近,驗證了CQM對評論評分預(yù)測的準(zhǔn)確性;另外,將CQM與四種常用的分類預(yù)測模型進(jìn)行比較,其中Random Forest的分類效果最好,召回率最高為56.6%,驗證了評論質(zhì)量影響因素的合理性,同時,CQM也有比較好的分類效果,說明本文提出的CQM是有效的。
[Abstract]:With the rapid rise of e-commerce, people are more and more inclined to online shopping. On the one hand, because of the asymmetry of the information between the two sides of the online purchase transaction, it makes it more difficult for the online shopping users to identify the quality of the goods, thus reducing the transaction efficiency in the e-commerce market; on the other hand, the number of users' comments is huge, and the number of comments is increasing year by year. In addition, there are great differences in consumer experience, evaluation attitude and so on, which leads to the uneven information and value in the comment data. Therefore, how to quickly obtain valuable information from mass comments is an urgent and important task in the current e-commerce market. From the point of view of the quality of text comment, based on the generalization / specialization relationship between commodity feature words in the comment, this paper establishes the hierarchical structure of commodity feature topic, and analyzes the text quality on the basis of this structure. To recommend high-quality review data to users. In this paper, all the comments under each item are regarded as a document, which is used by the user in the text comment to extract the commodity features of concern, according to the generalization / specialization relationship between the commodity feature words. In this paper, we propose a method of constructing feature subject hierarchy based on FCA (THL Based on FCA,TBF), which is used to construct commodity feature subject hierarchy (Topic Hierarchy Lattice,THL). TBF method based on syntactic analysis. Using the document topic generation model (Latent Dirichlet Allocation,LDA) for topic analysis, The feature topic (the topic is a phrase composed of some commodity feature words according to a certain probability distribution) is extracted, and the probability matrix of document-topic (doc-topic) and theme-feature word (topic-word) is obtained. Then, according to the binary relationship between commodity category and feature theme, the formal concept is used to analyze (Formal Concept Analysis,FCA) to construct THL.. On the basis of THL, this paper proposes five factors that influence the quality of text review: comprehensiveness, professionalism, cohesion, relevance and readability. A quality analysis model (Comment Quality Model Based on THL,CQM) is proposed to calculate the quality score of each comment. The model combines five factors that influence the quality of comments and can be used to evaluate the quality of comments comprehensively. This paper selects 116 commodity categories, 6212 items and 18415146 comments data from a B2C e-commerce platform's 2012 transaction data as experimental data set, and collects the comment quality score data as the experimental test data set through the form of manual scoring. In the experimental results, the MAE value of CQM is 0.726, which indicates that the prediction score of CQM for comment quality is close to that of manual score, which verifies the accuracy of CQM in predicting comment score. In addition, CQM is compared with four commonly used classification prediction models. The classification effect of Random Forest is the best, and the highest recall rate is 56.6, which verifies the reasonableness of the influencing factors of comment quality. At the same time, CQM also has a better classification effect, which shows that the CQM proposed in this paper is effective.
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強;;一個對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計;2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報;2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢挖掘綜述[J];情報科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機(jī);1997年05期

相關(guān)會議論文 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

相關(guān)重要報紙文章 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年

相關(guān)博士學(xué)位論文 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 劉林;面向論壇文本的大學(xué)生情緒識別研究[D];華中師范大學(xué);2016年

6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年

7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

8 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學(xué);2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s,

本文編號:2286773


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2286773.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶53b7d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com