基于電商平臺(tái)的產(chǎn)品評(píng)論大數(shù)據(jù)獲取及應(yīng)用
本文關(guān)鍵詞:基于電商平臺(tái)的產(chǎn)品評(píng)論大數(shù)據(jù)獲取及應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著電子商務(wù)的迅速發(fā)展,網(wǎng)上購物變得越來越頻繁,各電商平臺(tái)每天都會(huì)產(chǎn)生大量的交易數(shù)據(jù)和用戶評(píng)論數(shù)據(jù),對(duì)于用戶評(píng)論數(shù)據(jù),其中蘊(yùn)藏著許多有價(jià)值的信息,如產(chǎn)品的缺陷信息、用戶的需求信息等。對(duì)此,本文針對(duì)電商平臺(tái)中產(chǎn)品評(píng)論大數(shù)據(jù)獲取及應(yīng)用進(jìn)行了深入研究,通過提取產(chǎn)品評(píng)論大數(shù)據(jù)中各屬性詞的評(píng)價(jià)觀點(diǎn)和意見,將提取的觀點(diǎn)經(jīng)過整合后生成評(píng)價(jià)摘要,以簡潔、易讀的形成呈現(xiàn)給用戶,為顧客購物提供更好的參考和指引,使商家更好地了解顧客需求,提升服務(wù)質(zhì)量,使產(chǎn)品設(shè)計(jì)人員能夠及時(shí)了解用戶的使用體驗(yàn),改進(jìn)產(chǎn)品設(shè)計(jì)的不足,提升產(chǎn)品質(zhì)量。對(duì)此,本文圍繞產(chǎn)品評(píng)論大數(shù)據(jù)的獲取、聚類、產(chǎn)品屬性詞識(shí)別、以及評(píng)價(jià)觀點(diǎn)的提取和整合等方面進(jìn)行了深入研究,將Nutch網(wǎng)絡(luò)爬蟲與Hadoop相結(jié)合實(shí)現(xiàn)了評(píng)論數(shù)據(jù)的分布式爬取,提高了評(píng)論數(shù)據(jù)的爬取效率;將爬取的評(píng)論數(shù)據(jù)經(jīng)過預(yù)處理后得到評(píng)論數(shù)據(jù)集,采用TF-IDF方法來計(jì)算特征詞的權(quán)重,采用基于向量空間模型的方法來計(jì)算評(píng)論語句的相似度,并將Canopy聚類算法與K-means聚類算法結(jié)合起來使用,采用MapReduce框架來實(shí)現(xiàn)這兩種算法對(duì)評(píng)論數(shù)據(jù)的聚類分析,提高了評(píng)論數(shù)據(jù)的聚類效率和聚類精度。將爬取的海量評(píng)論數(shù)據(jù)經(jīng)過聚類分析后,得到以產(chǎn)品屬性詞為主要聚類中心的各個(gè)聚類族,采用基于產(chǎn)品屬性的評(píng)價(jià)觀點(diǎn)提取方法,將各個(gè)聚類族中關(guān)于產(chǎn)品屬性的評(píng)價(jià)觀點(diǎn)提取出來,經(jīng)過觀點(diǎn)整合后形成評(píng)價(jià)摘要,以評(píng)價(jià)摘要的形式呈現(xiàn)給用戶,提高了屬性詞評(píng)價(jià)觀點(diǎn)的可閱讀性。為了規(guī)范評(píng)論語句中屬性詞觀點(diǎn)的提取,本文構(gòu)建了評(píng)論數(shù)據(jù)的質(zhì)量評(píng)估體系,以確保提取的屬性詞觀點(diǎn)的質(zhì)量,為觀點(diǎn)提取算法的優(yōu)化提供了參考依據(jù)。最后,以XX凈水器的評(píng)論數(shù)據(jù)為例,經(jīng)過聚類分析、屬性詞觀點(diǎn)提取和整合分析,生成了XX凈水器的評(píng)價(jià)摘要,得到了XX凈水器擁有的優(yōu)點(diǎn)和存在的不足,并對(duì)提取的屬性詞評(píng)價(jià)觀點(diǎn)的應(yīng)用作了簡要分析。通過應(yīng)用測試表明,本文所采取的評(píng)論數(shù)據(jù)的獲取和分析方法是正確的和有效的,所提取的各屬性詞評(píng)價(jià)觀點(diǎn)對(duì)設(shè)計(jì)人員和用戶具有重要意義,為電商平臺(tái)中評(píng)論大數(shù)據(jù)的獲取、分析和應(yīng)用提供了新的思路和方法。
【關(guān)鍵詞】:產(chǎn)品評(píng)論數(shù)據(jù) MapReduce 聚類分析 觀點(diǎn)提取
【學(xué)位授予單位】:貴州師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 摘要3-4
- ABSTRACT4-9
- 第1章 緒論9-17
- 1.1 引言9
- 1.2 產(chǎn)品評(píng)論數(shù)據(jù)的研究背景9-10
- 1.3 產(chǎn)品評(píng)論數(shù)據(jù)的研究意義10-11
- 1.3.1 產(chǎn)品評(píng)論數(shù)據(jù)研究的理論意義10-11
- 1.3.2 產(chǎn)品評(píng)論數(shù)據(jù)研究的實(shí)際意義11
- 1.4 產(chǎn)品評(píng)論數(shù)據(jù)處理的國內(nèi)外研究現(xiàn)狀11-13
- 1.5 產(chǎn)品評(píng)論大數(shù)據(jù)的研究內(nèi)容及方法13-14
- 1.5.1 產(chǎn)品評(píng)論大數(shù)據(jù)的研究內(nèi)容13-14
- 1.5.2 產(chǎn)品評(píng)論大數(shù)據(jù)的研究方法14
- 1.6 論文的組織結(jié)構(gòu)14-16
- 1.7 本章小結(jié)16-17
- 第2章 產(chǎn)品評(píng)論大數(shù)據(jù)挖掘與處理的相關(guān)技術(shù)基礎(chǔ)17-31
- 2.1 大數(shù)據(jù)處理的關(guān)鍵技術(shù)17-20
- 2.1.1 Hadoop的總體框架17-18
- 2.1.2 基于Map Reduce的數(shù)據(jù)處理過程18-19
- 2.1.3 基于HDFS分布式文件系統(tǒng)的存取原理19-20
- 2.2 產(chǎn)品評(píng)論數(shù)據(jù)抓取的關(guān)鍵技術(shù)20-23
- 2.2.1 Nutch的系統(tǒng)布局20-21
- 2.2.2 Nutch的工作原理21-23
- 2.3 評(píng)論網(wǎng)頁數(shù)據(jù)中評(píng)論語句的抽取23-25
- 2.3.1 產(chǎn)品評(píng)論網(wǎng)頁數(shù)據(jù)的預(yù)處理技術(shù)23-24
- 2.3.2 產(chǎn)品評(píng)論語句的清洗24
- 2.3.3 產(chǎn)品評(píng)論數(shù)據(jù)獲取結(jié)果評(píng)價(jià)24-25
- 2.4 實(shí)驗(yàn)測試分析25-30
- 2.4.1 實(shí)驗(yàn)平臺(tái)構(gòu)建25-29
- 2.4.2 實(shí)驗(yàn)結(jié)果分析29-30
- 2.5 本章小結(jié)30-31
- 第3章 基于MAPREDUCE的產(chǎn)品評(píng)論數(shù)據(jù)聚類31-44
- 3.1 基于VSM的評(píng)論語句相似度計(jì)算32-35
- 3.1.1 特征詞的選擇32-33
- 3.1.2 評(píng)論文本的向量表示33
- 3.1.3 特征權(quán)重的計(jì)算33-34
- 3.1.4 評(píng)論語句的相似性計(jì)算34-35
- 3.2 聚類算法設(shè)計(jì)35-38
- 3.2.1 K-means算法35-37
- 3.2.2 Canopy算法37-38
- 3.3 基于Map Reduce的聚類算法設(shè)計(jì)與實(shí)現(xiàn)38-42
- 3.3.1 基于Map Reduce的Canopy聚類算法實(shí)現(xiàn)39-40
- 3.3.2 基于Map Reduce的K-means聚類算法實(shí)現(xiàn)40-42
- 3.4 實(shí)驗(yàn)設(shè)計(jì)42-43
- 3.4.1 實(shí)驗(yàn)環(huán)境42
- 3.4.2 實(shí)驗(yàn)過程42-43
- 3.5 本章小結(jié)43-44
- 第4章 基于產(chǎn)品屬性的評(píng)論語句觀點(diǎn)提取44-66
- 4.1 評(píng)論語句的詞法結(jié)構(gòu)分析45-48
- 4.1.1 產(chǎn)品評(píng)論語句的劃分45-46
- 4.1.2 評(píng)論語句的詞性標(biāo)注46-47
- 4.1.3 評(píng)論語句的句法結(jié)構(gòu)分析47-48
- 4.2 屬性詞識(shí)別48-54
- 4.2.1 名詞短語的標(biāo)注49
- 4.2.2 最大熵原理49-51
- 4.2.3 特征集的選取51-52
- 4.2.4 最優(yōu)特征參數(shù)和最優(yōu)模型的求解52
- 4.2.5 基于最大熵模型的名詞短語識(shí)別52-53
- 4.2.6 屬性無關(guān)詞過濾53-54
- 4.3 評(píng)價(jià)詞的極性分析和屬性詞的觀點(diǎn)提取54-60
- 4.3.1 極性詞典的構(gòu)建54-57
- 4.3.2 評(píng)價(jià)詞的極性分析57-59
- 4.3.3 屬性詞的評(píng)價(jià)觀點(diǎn)提取59-60
- 4.4 觀點(diǎn)的整合60-64
- 4.4.1 屬性詞的相似度計(jì)算61-62
- 4.4.2 評(píng)論摘要的生成62-63
- 4.4.3 評(píng)價(jià)摘要的質(zhì)量評(píng)價(jià)63-64
- 4.5 提取結(jié)果評(píng)估64
- 4.6 本章總結(jié)64-66
- 第5章 應(yīng)用測試分析66-71
- 5.1 XX凈水器的評(píng)論語句觀點(diǎn)分析66-68
- 5.2 評(píng)論語句的應(yīng)用分析68-69
- 5.3 評(píng)論語句的應(yīng)用舉例69
- 5.4 本章總結(jié)69-71
- 第6章 總結(jié)與展望71-73
- 6.1 本文工作總結(jié)71-72
- 6.2 未來工作展望72-73
- 致謝73-74
- 參考文獻(xiàn)74-80
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文80
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 夏松江;1024至65536道核譜數(shù)據(jù)獲取與處理系統(tǒng)[J];核電子學(xué)與探測技術(shù);1987年05期
2 張獻(xiàn)州;鐵路地理信息系統(tǒng)數(shù)據(jù)獲取技術(shù)[J];鐵路計(jì)算機(jī)應(yīng)用;2001年08期
3 薛輝,孫如霞,尹春勇;網(wǎng)絡(luò)數(shù)據(jù)獲取方法淺析[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2005年08期
4 趙沁平;;自然現(xiàn)象的數(shù)據(jù)獲取與模擬[J];中國科學(xué):信息科學(xué);2011年04期
5 周新志,白榮生,溫良弼,黃艷文;一種計(jì)算機(jī)多道脈沖分析系統(tǒng)中的數(shù)據(jù)獲取接口[J];核電子學(xué)與探測技術(shù);1996年04期
6 芮小平,楊崇俊,王盼成;3維城市模型中的數(shù)據(jù)獲取和組織方案研究[J];地理學(xué)與國土研究;2002年02期
7 王紀(jì)海;基于蘋果-Ⅱ微機(jī)的數(shù)據(jù)獲取與處理系統(tǒng)[J];中國核科技報(bào)告;1988年S2期
8 賈向軍 ,王效忠 ,許小明;中子多重性測量數(shù)據(jù)獲取軟件的開發(fā)[J];中國原子能科學(xué)研究院年報(bào);2001年00期
9 張英;互聯(lián)網(wǎng)下的數(shù)據(jù)獲取和Web獲取[J];教育信息化;2004年06期
10 吳劍峰,許祖潤,吳世英;多功能網(wǎng)絡(luò)化核數(shù)據(jù)獲取和處理系統(tǒng)[J];核電子學(xué)與探測技術(shù);2005年01期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前6條
1 王博亮;張業(yè);王嘉遜;謝杰鎮(zhèn);方青;吳世輝;;中國數(shù)字人虛擬眼的數(shù)據(jù)獲取與研究進(jìn)展[A];人體斷面數(shù)據(jù)獲取與圖像處理研討會(huì)論文匯編[C];2005年
2 張建國;;日本衛(wèi)星JERS-1數(shù)據(jù)獲取技術(shù)系統(tǒng)[A];空間探測的今天和未來——中國空間科學(xué)學(xué)會(huì)空間探測專業(yè)委員會(huì)第七次學(xué)術(shù)會(huì)議論文集(上冊)[C];1994年
3 駱云飛;王書民;;機(jī)載LiDAR系統(tǒng)在道路勘測中的數(shù)據(jù)獲取及應(yīng)用[A];第四屆“測繪科學(xué)前沿技術(shù)論壇”論文精選[C];2012年
4 劉廣棟;安琪;劉樹彬;;外熱式等離子體實(shí)驗(yàn)裝置數(shù)據(jù)獲取和處理系統(tǒng)[A];第十三屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會(huì)論文集(下冊)[C];2006年
5 楊文靜;房宗良;李莉;胡潔微;文其林;;基于LabVIEW的譜數(shù)據(jù)獲取軟件設(shè)計(jì)[A];第十五屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會(huì)論文集[C];2010年
6 林金鋅;朱節(jié)清;顧連學(xué);樂安全;;XYH-86小面積X熒光涂層測厚儀的數(shù)據(jù)獲取和處理[A];第五次全國核電子學(xué)與核探測器學(xué)術(shù)會(huì)議論文集(下)[C];1990年
中國重要報(bào)紙全文數(shù)據(jù)庫 前4條
1 范京生;從數(shù)據(jù)獲取與更新到智慧服務(wù)[N];中國測繪報(bào);2011年
2 國家測繪地理信息局重慶測繪院 王冬濱;關(guān)于開展地理國情監(jiān)測工作的幾點(diǎn)思考[N];中國測繪報(bào);2011年
3 記者 祝桂峰 通訊員 張榮;構(gòu)建“智慧廣州”又添新技術(shù)[N];中國礦業(yè)報(bào);2012年
4 童國慶;系統(tǒng)控制和數(shù)據(jù)獲取技術(shù)在美國哥倫比亞灌區(qū)的應(yīng)用[N];中國水利報(bào);2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 閆中敏;Deep Web數(shù)據(jù)獲取問題研究[D];山東大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 亞森·伊斯馬伊力;跨語言社會(huì)輿情分析的數(shù)據(jù)獲取技術(shù)研究[D];新疆大學(xué);2015年
2 陳加洋;基于FPGA硬件算法的核能譜數(shù)據(jù)獲取研究[D];蘭州大學(xué);2016年
3 譚文斌;基于電商平臺(tái)的產(chǎn)品評(píng)論大數(shù)據(jù)獲取及應(yīng)用[D];貴州師范大學(xué);2016年
4 袁學(xué)東;團(tuán)簇特性研究中的多通道實(shí)時(shí)數(shù)據(jù)獲取和調(diào)控[D];四川大學(xué);2000年
5 吳劍峰;網(wǎng)絡(luò)化、多功能核數(shù)據(jù)獲取和處理系統(tǒng)[D];四川大學(xué);2002年
6 趙東旭;氣體中子探測器數(shù)據(jù)獲取與分析軟件研制[D];長沙理工大學(xué);2010年
7 卓林;增量式Deep Web數(shù)據(jù)獲取技術(shù)研究[D];蘇州大學(xué);2011年
8 郭建兵;面向特定領(lǐng)域的Deep Web數(shù)據(jù)獲取技術(shù)研究[D];蘇州大學(xué);2012年
9 張哲冰;基于C2C網(wǎng)站信譽(yù)研究的網(wǎng)絡(luò)數(shù)據(jù)獲取與實(shí)現(xiàn)[D];蘭州大學(xué);2008年
10 何家兵;產(chǎn)品檢驗(yàn)數(shù)據(jù)獲取、表達(dá)及分析技術(shù)研究與實(shí)現(xiàn)[D];華中科技大學(xué);2007年
本文關(guān)鍵詞:基于電商平臺(tái)的產(chǎn)品評(píng)論大數(shù)據(jù)獲取及應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):267192
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/267192.html