天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 經濟論文 > 國際貿易論文 >

基于用戶選購及在線點評行為的門店畫像研究

發(fā)布時間:2017-11-15 01:17

  本文關鍵詞:基于用戶選購及在線點評行為的門店畫像研究


  更多相關文章: 門店畫像 網絡爬蟲 情感分類 主題聚類 Spark


【摘要】:隨著依托于互聯(lián)網的O2O電子商務快速發(fā)展,使的O2O企業(yè)能夠收集到的相關數據呈井噴式增長。為有效挖掘此類數據,本文重點研究在線點評文本的情感分類和主題聚類,并以此為基礎結合用戶選購行為數據提出一套門店畫像構建及應用的完整思路。本文的主要工作包括:設計并開發(fā)爬蟲系統(tǒng)抓取實驗數據。動態(tài)Web信息獲取是目前爬蟲的一個技術難點。本文為獲取實驗數據,依據Scrapy開源爬蟲系統(tǒng)設計邏輯,在瀏覽器測試框架Selenium中嵌入基于Phantom JS的Ghost Driver驅動,設計并開發(fā)出一個可抓取動態(tài)Web信息的網絡爬蟲系統(tǒng):nlp-dynamic-spider。并基于此抓取了大眾點評一線城市服裝行業(yè)的門店、用戶在線點評以及用戶數據作為本文的實驗數據。通過在詞庫中添加新詞和領域詞提高分詞準確度。由于評論文本中包含大量網絡流行詞、領域詞,導致分詞不準確。本文依據候選詞詞內凝固度、邊界自由度、出現次數、文檔頻率等特征引入大規(guī)模語料的新詞識別算法,有效識別出網絡評論流行詞,并在此基礎上加入服裝行業(yè)領域詞進一步提高分詞準確度;跍\層深度學習算法Word2Vec引入三種文本表示算法。本文通過將傳統(tǒng)的BOOL、TF、TF-IDF文本表示法結合淺層深度學習詞向量Word2Vec算法,通過線性加權求和的方式引入BOOL-W2V、TF-W2V、TF-IDF-W2V三種文本DR表示算法。并在四個不同的點評數據集上對這六種表示法進行情感傾向分類對比實驗。實驗結果表明:在語料庫中文檔較多但標注樣本占比低、標注不平衡的情況下,TF-W2V文本表示法比另外五種文本表示法效果更好。構建基于Spark大數據平臺的文本挖掘組件。為提高海量在線點評文本信息處理速度,采用分布式并行處理技術是目前的趨勢。本文基于目前最流行的大數據處理平臺Spark,并在其提供的基礎接口之上,設計了一系列中文處理的算法,包括:新詞發(fā)現、多種中文文本表示、文本特征提取等,并構建出基于Spark大數據平臺的文本挖掘組件:nlp-spark;谟脩暨x購和在線點評行為的門店畫像。本文利用用戶選購行為數據以及依據本文挖掘的在線點評行為數據構建整個門店畫像的指標體系。并給出了門店畫像指標建模的思路和實際生產應用的建議。
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1;F724.6


本文編號:1187783

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/1187783.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶daa8d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com