天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

產(chǎn)品屬性挖掘及應(yīng)用

發(fā)布時間:2017-05-04 02:11

  本文關(guān)鍵詞:產(chǎn)品屬性挖掘及應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:基于互聯(lián)網(wǎng)發(fā)展起來的電子商務(wù)引領(lǐng)了消費的新潮流,致使網(wǎng)絡(luò)中產(chǎn)品評論數(shù)據(jù)驟然增長,由于這些消費者評論中包含用戶對產(chǎn)品功能屬性、部件屬性等有價值的評價信息,因此產(chǎn)品屬性挖掘技術(shù)應(yīng)運而生。目前已有產(chǎn)品屬性挖掘技總結(jié)為人工定義和機器自動識別兩種。人工定義的方法,是由領(lǐng)域?qū)<覛w納總結(jié)出屬性,方法雖然很準確,但只能針對該領(lǐng)域進行產(chǎn)品屬性提取,沒有通用性,可移植性不強,無監(jiān)督的機器自動識別方法,主要是利用自然語言處理技術(shù),但會增加品屬性的冗余度,降低準確率。 本文針對以上研究存在的不足,以電子商務(wù)網(wǎng)站中的產(chǎn)品評論信息為研究對象,提出并實現(xiàn)了一種基于詞性模板的產(chǎn)品屬性挖掘方法,并將該方法針對復(fù)雜觀點句加以改進。第一,通過分析電子商務(wù)網(wǎng)站的標簽規(guī)則,爬取消費者產(chǎn)品評論,建立原始評論數(shù)據(jù)庫,得到產(chǎn)品屬性挖掘的數(shù)據(jù)語料庫;第二,通過分句處理、詞性標注對產(chǎn)品評論進行預(yù)處理;第三,深入分析已完成詞性序列標注的產(chǎn)品評論,利用詞性模板進行特征歸類,最終得到“候選產(chǎn)品評論”、“無屬性評論”、“無觀點評論”、“非候選標簽”四類詞性序列特征;第四,通過窗口臨近原則,比較屬性值距屬性的距離向量大小,識別出候選產(chǎn)品評論的屬性和屬性值,得到正確的搭配關(guān)系;第五,對識別出的屬性進行置信度計算,置信度越高是正確屬性的準確率越大;第六,通過設(shè)置停用詞,進一步降低地候選產(chǎn)品屬性的冗余度,提高屬性識別的準確度。 本文對識別出的產(chǎn)品屬性的應(yīng)用進行研究,首先,從消費者的角度出發(fā),通過識別出的屬性以及屬性占比可得出產(chǎn)品最受消費者關(guān)注的熱門屬性,已達到幫助潛在消費者做出購買決策的目的;其次,從企業(yè)的角度出發(fā),通過從已成交的消費者評論中識別出的產(chǎn)品屬性,明確該類產(chǎn)品的優(yōu)勢屬性和劣勢屬性,從而幫助企業(yè)改進產(chǎn)品、提高質(zhì)量,及時修復(fù)潛在可能惡化的客戶關(guān)系。再次,從運營商的角度出發(fā),通過識別出第三方電子商務(wù)網(wǎng)站的屬性,可提高客戶對電商網(wǎng)站的依賴性,增加電商網(wǎng)站的用戶群。 本文的主要研究貢獻:第一,通過改進屬性提取分類器架構(gòu),與基于名詞詞性模板得到候選產(chǎn)品評論的方法相比,提高了候選產(chǎn)品評論的有效度;第二,基于COAE2009提供的數(shù)據(jù)包,對詞性模板窗口閾值設(shè)置進行分析,選取合適窗口值,降低候選產(chǎn)品屬性冗余度;第三,新增置信度計算模塊,根據(jù)屬性在文本中上下文的信息、頻率等特征,進行置信度計算,提高品屬性識別的準確度;第四,對識別出的產(chǎn)品屬性的應(yīng)用進行研究,提高了產(chǎn)品屬性挖掘的研究價值。
【關(guān)鍵詞】:屬性 模板 置信度 應(yīng)用
【學位授予單位】:北方工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要3-4
  • Abstract4-8
  • 1 引言8-14
  • 1.1 研究背景和意義8
  • 1.2 國內(nèi)外研究現(xiàn)狀8-10
  • 1.3 主要的研究內(nèi)容10-11
  • 1.4 難點及解決方案11-12
  • 1.5 論文的組織結(jié)構(gòu)12-14
  • 2 技術(shù)綜述14-18
  • 2.1 產(chǎn)品屬性挖掘14
  • 2.2 HtmlParser技術(shù)14-15
  • 2.3 信息抽取技術(shù)15-16
  • 2.4 Html DOM樹16-17
  • 2.5 本章小結(jié)17-18
  • 3 詞性模板的產(chǎn)品屬性挖掘方法研究18-29
  • 3.1 網(wǎng)頁文本抽取解析18-20
  • 3.1.1 網(wǎng)頁URL采集18-19
  • 3.1.2 網(wǎng)頁文本提取19-20
  • 3.2 網(wǎng)頁文本抽取算法20-22
  • 3.2.1 URL信息采集算法20-21
  • 3.2.2 網(wǎng)頁文本抽取算法21
  • 3.2.3 網(wǎng)頁文本內(nèi)容去噪21-22
  • 3.3 基于詞性模的產(chǎn)品屬性挖掘22-26
  • 3.3.1 產(chǎn)品屬性挖掘整體架構(gòu)22-23
  • 3.3.2 產(chǎn)品屬性提取模板23-24
  • 3.3.3 模板窗口閾值設(shè)置24-25
  • 3.3.4 產(chǎn)品屬性置信度25-26
  • 3.4 基于詞性模板的產(chǎn)品屬性挖掘算法26-27
  • 3.5 本章小結(jié)27-29
  • 4 產(chǎn)品屬性的應(yīng)用29-33
  • 4.1 熱論商品榜29-30
  • 4.2 電子郵件營銷30-31
  • 4.3 商品定位分析31-32
  • 4.4 本章小結(jié)32-33
  • 5 系統(tǒng)設(shè)計與實現(xiàn)33-48
  • 5.1 需求分析33-34
  • 5.1.1 需求概述33
  • 5.1.2 目標概述33
  • 5.1.3 行環(huán)境33
  • 5.1.4 可行性分析33-34
  • 5.2 系統(tǒng)設(shè)計34-38
  • 5.2.1 系統(tǒng)框架設(shè)計34-35
  • 5.2.2 系統(tǒng)功能設(shè)計35-38
  • 5.3 系統(tǒng)實現(xiàn)38-46
  • 5.3.1 系統(tǒng)框架搭建38-40
  • 5.3.2 文本抽取系統(tǒng)實現(xiàn)40-42
  • 5.3.3 產(chǎn)品屬性挖掘系統(tǒng)42-46
  • 5.4 本章小結(jié)46-48
  • 6 實驗結(jié)果和分析48-53
  • 6.1 實驗數(shù)據(jù)48
  • 6.2 產(chǎn)品屬性挖掘?qū)嶒?/span>48-52
  • 6.2.1 網(wǎng)頁文抽取實驗與結(jié)果48-49
  • 6.2.2 產(chǎn)品屬性挖掘?qū)嶒炁c結(jié)果49-50
  • 6.2.3 實驗性能評價50-52
  • 6.3 本章小結(jié)52-53
  • 7 總結(jié)與展望53-55
  • 參考文獻55-58
  • 申請學位期間的研究成果及發(fā)表的學術(shù)論文58-59
  • 致謝59

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李向陽,苗壯;自由文本信息抽取技術(shù)[J];情報科學;2004年07期

2 耿愛麗;孫建紅;;商務(wù)信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫設(shè)計[J];情報科學;2006年09期

3 嚴建援;張麗;張蕾;;電子商務(wù)中在線評論內(nèi)容對評論有用性影響的實證研究[J];情報科學;2012年05期

4 鄭彥寧;鄧擘;;信息抽取技術(shù)在情報學中的應(yīng)用分析[J];情報理論與實踐;2008年05期

5 耿煥同;宋慶席;何宏強;;一種基于視覺分塊的Web信息抽取方法研究[J];情報理論與實踐;2009年03期

6 李向陽,張亞非;一種軍用文圖自動轉(zhuǎn)換方案[J];情報指揮控制系統(tǒng)與仿真技術(shù);2004年05期

7 陳金鑫;羅立群;;基于主體知識庫的Web主體信息抽取系統(tǒng)[J];軟件導(dǎo)刊;2007年19期

8 孫文俊;薛博召;;圖書領(lǐng)域消費者在線評論的有用性影響因素研究[J];江蘇商論;2011年05期

9 彭嵐;;電子口碑傳播:一個研究框架[J];西南農(nóng)業(yè)大學學報(社會科學版);2011年06期

10 熊明鋒,張寧,程世軍,許卓群;一種半自動化安全數(shù)據(jù)交換模型[J];計算機工程與設(shè)計;2004年01期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 陳紅兵;;基于XML的電子政務(wù)信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年

2 李紀華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學術(shù)研討會論文集[C];2010年

3 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計算機學會2007年學術(shù)交流年會論文集[C];2007年

4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

5 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

6 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計算的信息抽取模板自動獲取方法[A];第二屆全國學生計算語言學研討會論文集[C];2004年

7 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動學習方法[A];全國第八屆計算語言學聯(lián)合學術(shù)會議(JSCL-2005)論文集[C];2005年

8 鐘濤;陳群秀;;基于層式有限狀態(tài)自動機的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

10 丁晟春;劉逶迤;熊霞;梅健;;基于領(lǐng)域本體和語塊分析的信息抽取的研究與實現(xiàn)[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年

2 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學;2011年

3 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學;2010年

4 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2011年

5 郭鴻志;多源語義知識庫融合方法研究[D];哈爾濱工業(yè)大學;2011年

6 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學;2011年

7 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學;2009年

8 馬玉濤;在線客戶評論的產(chǎn)品族設(shè)計與加工方法研究[D];華中科技大學;2012年

9 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學;2001年

10 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學;2003年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 樊敬川;Deep Web數(shù)據(jù)庫的選擇研究[D];河北大學;2009年

2 陳曉慧;空間信息服務(wù)管理平臺的設(shè)計與實現(xiàn)[D];山東科技大學;2010年

3 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學;2010年

4 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學;2010年

5 王浩;NetFlow數(shù)據(jù)處理與異常檢測研究[D];哈爾濱工程大學;2010年

6 王培正;基于Deep Web的網(wǎng)絡(luò)信息抽取技術(shù)研究[D];華南理工大學;2010年

7 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學;2010年

8 王葛;Deep Web接口集成與數(shù)據(jù)標注方法研究[D];長春工業(yè)大學;2010年

9 黃亮;知識產(chǎn)權(quán)預(yù)警機制在服務(wù)外包平臺中的應(yīng)用研究[D];南昌大學;2010年

10 賽子龍;日志分析數(shù)據(jù)同步機制在區(qū)域微軟技術(shù)中心營運平臺中的應(yīng)用研究[D];南昌大學;2010年


  本文關(guān)鍵詞:產(chǎn)品屬性挖掘及應(yīng)用,,由筆耕文化傳播整理發(fā)布。



本文編號:344205

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/344205.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶18d3b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com