天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于淘寶二手電子設(shè)備消費需求的文本挖掘

發(fā)布時間:2018-06-07 10:19

  本文選題:二手市場 + word2vec。 參考:《貴州財經(jīng)大學(xué)》2017年碩士論文


【摘要】:二手市場前景廣闊,但二手市場交易卻混亂不堪,信息的不對稱性使原本應(yīng)具有性價比優(yōu)勢的二手商品無人問津。中國消費者協(xié)會的一個調(diào)查顯示,中國超過半數(shù)的使用者擁有兩部及以上手機,同時擁有這么多部手機也就意味著高更換率以及如何處理二手手機的問題,手機二次銷售是大眾首選的處理方式。二手交易平臺買賣信息中可以了解到消費者對二手手機買賣的顧慮與需求。本文利用自然語言處理技術(shù)對淘寶二手交易平臺的交易文本數(shù)據(jù)進行文本挖掘,探究淘寶二手電子設(shè)備消費者的需求現(xiàn)狀,并對二手市場消費人群進行多維度用戶畫像。本文主要工作內(nèi)容如下:第一,先利用局部哈希敏感算法過濾出淘寶二手交易文本相似內(nèi)容組合,計算相似內(nèi)容組合中的文本相似性系數(shù),對相似性得分大于0.1的內(nèi)容組合進行數(shù)據(jù)清洗,只保留內(nèi)容組合中的一條信息。同時從搜狗細胞詞庫中提取一部分電商、電腦、手機的專有名詞詞典,將其載入分詞工具進行高質(zhì)量分詞。第二,抓取消費者較為關(guān)注的信息點,同時利用LDA主題模型將二手淘寶交易文本信息中買賣雙方較為關(guān)注的焦點進行提煉,主要話題聚為三類:手機參數(shù)設(shè)置、手機狀態(tài)以及交易狀態(tài)。手機參數(shù)設(shè)置的關(guān)注點在雙卡雙待、系統(tǒng)類型、電池容量等,而手機狀態(tài)的關(guān)注點在購買時間、使用時間、保修時間、是否有發(fā)票等,交易狀態(tài)的關(guān)注點在當面交易、是否包郵、電話聯(lián)系。第三,融合知網(wǎng)HowNet中文情感詞典以及一部分自定義詞條作為情感標注集。從情感標注的結(jié)果來看,二手淘寶交易文本中正面的情感得分要多于負面,兩者的情感極性比在0.66左右,整體二手市場的情緒偏向正面。本文同時利用深度學(xué)習(xí)算法將二手交易文本拆分為詞向量,通過詞向量的相似性衡量不同話題的關(guān)注熱點。第四,本文創(chuàng)造性地引入了話題密度以及情感強度作為用戶評價的核心指標,構(gòu)造了討論熱度、用戶忠誠度、話題密度、使用價值以及情感強度的用戶價值評價體系,并利用最大期望算法將人群劃分為觀望用戶、儲備用戶、價值用戶。最后從區(qū)位、情感、話題焦點、熱度、忠誠度等角度論述三類人群特征。
[Abstract]:The second-hand market has a bright future, but the second-hand market transaction is chaotic, the information asymmetry makes the second-hand goods which should have the advantage of performance and price be ignored. A survey by the China Consumer Association shows that more than half of Chinese users own two or more phones, and that having so many mobile phones means a high turnover rate and how to deal with second-hand phones. The second sale of mobile phone is the first choice for the public. Second-hand trading platform trading information can be seen in the second-hand mobile phone trading concerns and needs. This paper uses natural language processing technology to text mining the transaction text data of Taobao second-hand trading platform, probes into the demand status of Taobao second-hand electronic equipment consumers, and carries on multi-dimensional user portrait to the second-hand market consumers. The main work of this paper is as follows: first, the text similarity coefficient in the similar content combination is calculated by filtering out the text similarity content combination of Taobao second-hand transaction text by using the local hash sensitive algorithm. The content combination whose similarity score is greater than 0.1 is cleaned and only one piece of information in the content combination is retained. At the same time, a dictionary of proper nouns of electronic quotient, computer and mobile phone is extracted from the Sogou cell lexicon and loaded into word segmentation tools for high quality word segmentation. Second, grab the information points that consumers pay more attention to, at the same time, use the LDA theme model to refine the focus that buyers and sellers pay more attention to in the text information of second-hand Taobao transaction. The main topic is divided into three categories: mobile phone parameter setting, Mobile phone status and transaction status. The focus of mobile phone parameter setting is double card and double waiting, system type, battery capacity, etc. While mobile phone status focuses on purchase time, usage time, warranty time, whether there are invoices, etc. Please contact me by phone if you want to send a mail package. Thirdly, the HowNet Chinese emotion Dictionary and some custom entries are used as the affective tagging set. From the result of affective tagging, the positive emotion score of the second-hand Taobao trading text is more than the negative, the emotional polarity ratio of the two is about 0.66, and the emotion of the whole second-hand market tends to be positive. At the same time, this paper uses the depth learning algorithm to divide the second-hand transaction text into word vectors, and measures the focus of attention on different topics through the similarity of word vectors. Fourth, this paper creatively introduces topic density and emotional intensity as the core index of user evaluation, and constructs a user value evaluation system of discussion heat, user loyalty, topic density, use value and emotional intensity. And the maximum expectation algorithm is used to divide the crowd into wait-and-see users, reserve users and value users. Finally, from the location, emotion, topic focus, heat, loyalty and other angles to discuss the three types of crowd characteristics.
【學(xué)位授予單位】:貴州財經(jīng)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:F426.6;F724.6

【參考文獻】

相關(guān)期刊論文 前10條

1 李丹蕾;張曦;于弋棟;柯輝煌;馬騰;;從舊貨價值挖掘二手市場發(fā)展?jié)摿Φ奶骄縖J];價值工程;2014年25期

2 楊彥波;劉濱;祁明月;;信息可視化研究綜述[J];河北科技大學(xué)學(xué)報;2014年01期

3 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學(xué)報;2012年01期

4 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學(xué)報;2011年08期

5 王曉東;劉倩;陶縣俊;;情感Ontology構(gòu)建與文本傾向性分析[J];計算機工程與應(yīng)用;2010年30期

6 孫浩;達慶利;;電子類產(chǎn)品回收再制造能力與二手市場需求相協(xié)調(diào)的研究——以電視機為例[J];管理工程學(xué)報;2010年03期

7 黨蕾;張蕾;;一種基于知網(wǎng)的中文句子情感傾向判別方法[J];計算機應(yīng)用研究;2010年04期

8 王洪彬;劉曉潔;;基于KNN的不良文本過濾方法[J];計算機工程;2009年24期

9 王素格;李德玉;魏英杰;宋曉雷;;基于同義詞的詞匯情感傾向判別方法[J];中文信息學(xué)報;2009年05期

10 謝盼盼;;校園二手交易市場分析[J];現(xiàn)代商業(yè);2009年09期

相關(guān)碩士學(xué)位論文 前4條

1 朱少杰;基于深度學(xué)習(xí)的文本情感分類研究[D];哈爾濱工業(yè)大學(xué);2014年

2 施乾坤;基于LDA模型的文本主題挖掘和文本靜態(tài)可視化的研究[D];廣西大學(xué);2013年

3 孫露喬;文本挖掘的研究及其在主題搜索引擎中的應(yīng)用[D];北京郵電大學(xué);2012年

4 蘇再強;基于ATN算法和潛在語義索引的不良信息過濾系統(tǒng)研究[D];西南交通大學(xué);2011年

,

本文編號:1990829

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/1990829.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e7cd6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com