天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

電子商務(wù)領(lǐng)域中文本評(píng)論數(shù)據(jù)的專業(yè)度研究

發(fā)布時(shí)間:2017-04-28 18:16

  本文關(guān)鍵詞:電子商務(wù)領(lǐng)域中文本評(píng)論數(shù)據(jù)的專業(yè)度研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近幾年來,隨著電子商務(wù)市場(chǎng)的繁榮發(fā)展,越來越多的人們?cè)敢庠诰W(wǎng)上購買物品并撰寫評(píng)論,同時(shí),大多數(shù)消費(fèi)者在網(wǎng)上購物時(shí)都會(huì)首先參考用戶評(píng)論信息。然而電子商務(wù)市場(chǎng)的飛速發(fā)展帶來了評(píng)論數(shù)據(jù)的爆炸式增長(zhǎng),如何從海量的文本評(píng)論中篩選出有價(jià)值的信息,為消費(fèi)者、商家和平臺(tái)服務(wù)商提供有用的決策支持,已成為目前電子商務(wù)市場(chǎng)迫切需要解決的問題;谝陨媳尘,本文分析了目前對(duì)于商品文本評(píng)論的主要研究?jī)?nèi)容和發(fā)展方向,獨(dú)特地從“專業(yè)度”角度對(duì)商品文本評(píng)論的價(jià)值進(jìn)行評(píng)估,具有重要意義。本文首先對(duì)目前電子商務(wù)領(lǐng)域中文文本評(píng)論的研究和應(yīng)用情況進(jìn)行了分析,同時(shí)總結(jié)了中文文本處理的相關(guān)技術(shù),并從信息檢索和本體思想得到啟發(fā),提出了一種基于專業(yè)度概念層次樹的中文文本評(píng)論專業(yè)度計(jì)算模型。本文以2012年某B2C電子商務(wù)網(wǎng)站全年的交易數(shù)據(jù)為基礎(chǔ),首先設(shè)計(jì)并實(shí)現(xiàn)了基于基尼指數(shù)和商品類別的特征層次分類算法(Gini Category Feature Hierarchy Algorithm,簡(jiǎn)稱GCF),并據(jù)此構(gòu)建文本評(píng)論的專業(yè)度概念層次樹(Professional Concept Hierarchy Tree,簡(jiǎn)稱PCH-Tree)。GCF算法借鑒基于改進(jìn)的基尼指數(shù)的文本特征選擇方法和層次分類思想,計(jì)算每個(gè)根據(jù)特定句法規(guī)則提取出的專業(yè)度概念的特征值,通過一定的閾值選擇策略為每個(gè)專業(yè)度概念標(biāo)注商品類別。實(shí)驗(yàn)發(fā)現(xiàn),本文提出的GCF特征層次分類算法的類別特征選取精確度較高。在構(gòu)建了PCH-Tree的基礎(chǔ)上,本文分別從評(píng)論的廣度、深度和強(qiáng)度三個(gè)方面考慮,提出了三個(gè)商品文本評(píng)論的專業(yè)度因子:商品評(píng)論的有效長(zhǎng)度、基于PCH-Tree的評(píng)論深度范圍以及評(píng)論內(nèi)聚度,并據(jù)此提出了一種商品文本評(píng)論專業(yè)度的計(jì)算模型(Professional Calculation Model of Commodity Text Review,簡(jiǎn)稱RPC-Model),該模型主要以樹節(jié)點(diǎn)深度和節(jié)點(diǎn)之間的距離為主要計(jì)算因子,同時(shí)融入了評(píng)論的有效長(zhǎng)度,較全面地反映了評(píng)論的專業(yè)度。本文以2012年某B2C電子商務(wù)網(wǎng)站的18,415,146條評(píng)論數(shù)據(jù)和對(duì)應(yīng)的115個(gè)商品類別作為實(shí)驗(yàn)數(shù)據(jù)集,通過調(diào)查網(wǎng)站收集近100人對(duì)文本評(píng)論專業(yè)度的評(píng)分?jǐn)?shù)據(jù)作為驗(yàn)證數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),同時(shí)將RPC-Model與長(zhǎng)度模型和多種分類預(yù)測(cè)模型的實(shí)驗(yàn)結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文提出的RPC-Model在計(jì)算商品文本評(píng)論專業(yè)度分?jǐn)?shù)的準(zhǔn)確率上略好于長(zhǎng)度模型和分類預(yù)測(cè)模型,是可行有效的。最后,本文實(shí)現(xiàn)了仿真平臺(tái),包括文本評(píng)論專業(yè)度計(jì)算和類別PCH-Tree的維護(hù)兩個(gè)模塊。
【關(guān)鍵詞】:中文文本評(píng)論 專業(yè)度 概念層次樹 特征抽取
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 中文摘要3-4
  • 英文摘要4-8
  • 1 緒論8-16
  • 1.1 研究背景與意義8-10
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
  • 1.3 應(yīng)用前景及難點(diǎn)12-13
  • 1.4 本文的主要工作13-15
  • 1.5 本文的組織結(jié)構(gòu)15-16
  • 2 中文文本信息處理技術(shù)16-24
  • 2.1 文本預(yù)處理技術(shù)16-17
  • 2.2 向量空間文本表示模型17-18
  • 2.3 特征選擇18-20
  • 2.4 文本分類方法20-21
  • 2.4.1 Rocchio方法—相似度計(jì)算方法20
  • 2.4.2 貝葉斯方法20-21
  • 2.4.3 KNN方法—K近鄰方法21
  • 2.4.4 SVM—支持向量機(jī)21
  • 2.4.5 Decision Tree—決策樹方法21
  • 2.5 文本分類閾值選擇與評(píng)估方法21-22
  • 2.5.1 閾值選擇策略21-22
  • 2.5.2 評(píng)估方法22
  • 2.6 本章小結(jié)22-24
  • 3 構(gòu)建商品文本評(píng)論的專業(yè)度概念層次樹24-37
  • 3.1 商品文本評(píng)論數(shù)據(jù)概述24-27
  • 3.2 商品文本評(píng)論數(shù)據(jù)預(yù)處理27
  • 3.3 評(píng)論專業(yè)度概念抽取27-29
  • 3.4 PCH-Tree的構(gòu)建29-36
  • 3.4.1 層次分類29-30
  • 3.4.2 構(gòu)建PCH-Tree的基本思想30-32
  • 3.4.3 GCF層次分類算法32-36
  • 3.5 本章小結(jié)36-37
  • 4 基于PCH-Tree的商品文本評(píng)論專業(yè)度計(jì)算模型37-43
  • 4.1 商品文本評(píng)論專業(yè)度概述37
  • 4.2 基于PCH-Tree的評(píng)論專業(yè)度計(jì)算模型37-42
  • 4.2.1 商品評(píng)論文本的有效長(zhǎng)度37-38
  • 4.2.2 基于PCH-Tree的商品評(píng)論文本深度范圍38-40
  • 4.2.3 商品文本評(píng)論的內(nèi)聚度40-41
  • 4.2.4 商品文本評(píng)論專業(yè)度41-42
  • 4.3 本章小結(jié)42-43
  • 5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析43-60
  • 5.1 實(shí)驗(yàn)設(shè)計(jì)43-45
  • 5.1.1 實(shí)驗(yàn)環(huán)境43
  • 5.1.2 數(shù)據(jù)集選擇與采集43-44
  • 5.1.3 實(shí)驗(yàn)?zāi)繕?biāo)44
  • 5.1.4 實(shí)驗(yàn)方案44-45
  • 5.2 實(shí)驗(yàn)及結(jié)果分析45-52
  • 5.2.1 GCF層次分類實(shí)驗(yàn)與評(píng)估45-47
  • 5.2.2 評(píng)論專業(yè)度計(jì)算模型實(shí)驗(yàn)47-49
  • 5.2.3 分類預(yù)測(cè)評(píng)論專業(yè)度實(shí)驗(yàn)49-52
  • 5.3 實(shí)驗(yàn)系統(tǒng)52-59
  • 5.3.1 評(píng)論專業(yè)度評(píng)分?jǐn)?shù)據(jù)的獲取52-54
  • 5.3.2 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)54-56
  • 5.3.3 結(jié)果展示56-59
  • 5.4 本章小結(jié)59-60
  • 6 總結(jié)與展望60-62
  • 6.1 本文工作總結(jié)60-61
  • 6.2 未來工作展望61-62
  • 致謝62-63
  • 參考文獻(xiàn)63-67
  • 附錄67-72
  • A. 本文所選擇的商品類別細(xì)表67-72
  • B. 作者在攻讀碩士學(xué)位期間發(fā)表的論文目錄72
  • C. 作者在攻讀碩士學(xué)位期間申請(qǐng)的專利目錄72
  • D. 作者在攻讀碩士學(xué)位期間取得的科研成果目錄72

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫 前10條

1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國(guó)審計(jì);2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

4 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

5 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

6 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年

7 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年

8 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年

9 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年

10 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測(cè)過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s,

本文編號(hào):333334


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/333334.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶37d0b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
极品少妇嫩草视频在线观看| 亚洲黄香蕉视频免费看| 色综合久久六月婷婷中文字幕| 久久热麻豆国产精品视频| 欧美国产日本免费不卡| 99久久精品视频一区二区| 亚洲夫妻性生活免费视频| 熟女一区二区三区国产| 久久精品亚洲情色欧美| 美女被啪的视频在线观看| 国产精品美女午夜福利| 五月天六月激情联盟网 | 日韩女优精品一区二区三区| 大屁股肥臀熟女一区二区视频| 男人把女人操得嗷嗷叫| 亚洲国产一区精品一区二区三区色| 丰满少妇被猛烈撞击在线视频| 国产高清三级视频在线观看| 色丁香之五月婷婷开心| 国产精品视频一区二区秋霞| 国产成人免费高潮激情电| 欧洲日韩精品一区二区三区| 在线观看视频成人午夜| 91播色在线免费播放| 亚洲中文字幕乱码亚洲| 久久精品中文扫妇内射| 国产麻豆一线二线三线| 东京热电东京热一区二区三区| 国产传媒一区二区三区| 99久久婷婷国产亚洲综合精品| 亚洲内射人妻一区二区| 国产日韩欧美一区二区| 欧美日韩国产一级91| 日本欧美在线一区二区三区| 国产精品人妻熟女毛片av久| 在线视频免费看你懂的| 久久偷拍视频免费观看| 亚洲中文字幕有码在线观看| 国产日本欧美韩国在线| 99热九九在线中文字幕| 欧美一区二区在线日韩|