產(chǎn)品屬性挖掘及應(yīng)用
本文關(guān)鍵詞:產(chǎn)品屬性挖掘及應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:基于互聯(lián)網(wǎng)發(fā)展起來的電子商務(wù)引領(lǐng)了消費的新潮流,致使網(wǎng)絡(luò)中產(chǎn)品評論數(shù)據(jù)驟然增長,由于這些消費者評論中包含用戶對產(chǎn)品功能屬性、部件屬性等有價值的評價信息,因此產(chǎn)品屬性挖掘技術(shù)應(yīng)運而生。目前已有產(chǎn)品屬性挖掘技總結(jié)為人工定義和機器自動識別兩種。人工定義的方法,是由領(lǐng)域?qū)<覛w納總結(jié)出屬性,方法雖然很準確,但只能針對該領(lǐng)域進行產(chǎn)品屬性提取,沒有通用性,可移植性不強,無監(jiān)督的機器自動識別方法,主要是利用自然語言處理技術(shù),但會增加品屬性的冗余度,降低準確率。 本文針對以上研究存在的不足,以電子商務(wù)網(wǎng)站中的產(chǎn)品評論信息為研究對象,提出并實現(xiàn)了一種基于詞性模板的產(chǎn)品屬性挖掘方法,并將該方法針對復(fù)雜觀點句加以改進。第一,通過分析電子商務(wù)網(wǎng)站的標簽規(guī)則,爬取消費者產(chǎn)品評論,建立原始評論數(shù)據(jù)庫,得到產(chǎn)品屬性挖掘的數(shù)據(jù)語料庫;第二,通過分句處理、詞性標注對產(chǎn)品評論進行預(yù)處理;第三,深入分析已完成詞性序列標注的產(chǎn)品評論,利用詞性模板進行特征歸類,最終得到“候選產(chǎn)品評論”、“無屬性評論”、“無觀點評論”、“非候選標簽”四類詞性序列特征;第四,通過窗口臨近原則,比較屬性值距屬性的距離向量大小,識別出候選產(chǎn)品評論的屬性和屬性值,得到正確的搭配關(guān)系;第五,對識別出的屬性進行置信度計算,置信度越高是正確屬性的準確率越大;第六,通過設(shè)置停用詞,進一步降低地候選產(chǎn)品屬性的冗余度,提高屬性識別的準確度。 本文對識別出的產(chǎn)品屬性的應(yīng)用進行研究,首先,從消費者的角度出發(fā),通過識別出的屬性以及屬性占比可得出產(chǎn)品最受消費者關(guān)注的熱門屬性,已達到幫助潛在消費者做出購買決策的目的;其次,從企業(yè)的角度出發(fā),通過從已成交的消費者評論中識別出的產(chǎn)品屬性,明確該類產(chǎn)品的優(yōu)勢屬性和劣勢屬性,從而幫助企業(yè)改進產(chǎn)品、提高質(zhì)量,及時修復(fù)潛在可能惡化的客戶關(guān)系。再次,從運營商的角度出發(fā),通過識別出第三方電子商務(wù)網(wǎng)站的屬性,可提高客戶對電商網(wǎng)站的依賴性,增加電商網(wǎng)站的用戶群。 本文的主要研究貢獻:第一,通過改進屬性提取分類器架構(gòu),與基于名詞詞性模板得到候選產(chǎn)品評論的方法相比,提高了候選產(chǎn)品評論的有效度;第二,基于COAE2009提供的數(shù)據(jù)包,對詞性模板窗口閾值設(shè)置進行分析,選取合適窗口值,降低候選產(chǎn)品屬性冗余度;第三,新增置信度計算模塊,根據(jù)屬性在文本中上下文的信息、頻率等特征,進行置信度計算,提高品屬性識別的準確度;第四,對識別出的產(chǎn)品屬性的應(yīng)用進行研究,提高了產(chǎn)品屬性挖掘的研究價值。
【關(guān)鍵詞】:屬性 模板 置信度 應(yīng)用
【學位授予單位】:北方工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要3-4
- Abstract4-8
- 1 引言8-14
- 1.1 研究背景和意義8
- 1.2 國內(nèi)外研究現(xiàn)狀8-10
- 1.3 主要的研究內(nèi)容10-11
- 1.4 難點及解決方案11-12
- 1.5 論文的組織結(jié)構(gòu)12-14
- 2 技術(shù)綜述14-18
- 2.1 產(chǎn)品屬性挖掘14
- 2.2 HtmlParser技術(shù)14-15
- 2.3 信息抽取技術(shù)15-16
- 2.4 Html DOM樹16-17
- 2.5 本章小結(jié)17-18
- 3 詞性模板的產(chǎn)品屬性挖掘方法研究18-29
- 3.1 網(wǎng)頁文本抽取解析18-20
- 3.1.1 網(wǎng)頁URL采集18-19
- 3.1.2 網(wǎng)頁文本提取19-20
- 3.2 網(wǎng)頁文本抽取算法20-22
- 3.2.1 URL信息采集算法20-21
- 3.2.2 網(wǎng)頁文本抽取算法21
- 3.2.3 網(wǎng)頁文本內(nèi)容去噪21-22
- 3.3 基于詞性模的產(chǎn)品屬性挖掘22-26
- 3.3.1 產(chǎn)品屬性挖掘整體架構(gòu)22-23
- 3.3.2 產(chǎn)品屬性提取模板23-24
- 3.3.3 模板窗口閾值設(shè)置24-25
- 3.3.4 產(chǎn)品屬性置信度25-26
- 3.4 基于詞性模板的產(chǎn)品屬性挖掘算法26-27
- 3.5 本章小結(jié)27-29
- 4 產(chǎn)品屬性的應(yīng)用29-33
- 4.1 熱論商品榜29-30
- 4.2 電子郵件營銷30-31
- 4.3 商品定位分析31-32
- 4.4 本章小結(jié)32-33
- 5 系統(tǒng)設(shè)計與實現(xiàn)33-48
- 5.1 需求分析33-34
- 5.1.1 需求概述33
- 5.1.2 目標概述33
- 5.1.3 行環(huán)境33
- 5.1.4 可行性分析33-34
- 5.2 系統(tǒng)設(shè)計34-38
- 5.2.1 系統(tǒng)框架設(shè)計34-35
- 5.2.2 系統(tǒng)功能設(shè)計35-38
- 5.3 系統(tǒng)實現(xiàn)38-46
- 5.3.1 系統(tǒng)框架搭建38-40
- 5.3.2 文本抽取系統(tǒng)實現(xiàn)40-42
- 5.3.3 產(chǎn)品屬性挖掘系統(tǒng)42-46
- 5.4 本章小結(jié)46-48
- 6 實驗結(jié)果和分析48-53
- 6.1 實驗數(shù)據(jù)48
- 6.2 產(chǎn)品屬性挖掘?qū)嶒?/span>48-52
- 6.2.1 網(wǎng)頁文抽取實驗與結(jié)果48-49
- 6.2.2 產(chǎn)品屬性挖掘?qū)嶒炁c結(jié)果49-50
- 6.2.3 實驗性能評價50-52
- 6.3 本章小結(jié)52-53
- 7 總結(jié)與展望53-55
- 參考文獻55-58
- 申請學位期間的研究成果及發(fā)表的學術(shù)論文58-59
- 致謝59
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李向陽,苗壯;自由文本信息抽取技術(shù)[J];情報科學;2004年07期
2 耿愛麗;孫建紅;;商務(wù)信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫設(shè)計[J];情報科學;2006年09期
3 嚴建援;張麗;張蕾;;電子商務(wù)中在線評論內(nèi)容對評論有用性影響的實證研究[J];情報科學;2012年05期
4 鄭彥寧;鄧擘;;信息抽取技術(shù)在情報學中的應(yīng)用分析[J];情報理論與實踐;2008年05期
5 耿煥同;宋慶席;何宏強;;一種基于視覺分塊的Web信息抽取方法研究[J];情報理論與實踐;2009年03期
6 李向陽,張亞非;一種軍用文圖自動轉(zhuǎn)換方案[J];情報指揮控制系統(tǒng)與仿真技術(shù);2004年05期
7 陳金鑫;羅立群;;基于主體知識庫的Web主體信息抽取系統(tǒng)[J];軟件導(dǎo)刊;2007年19期
8 孫文俊;薛博召;;圖書領(lǐng)域消費者在線評論的有用性影響因素研究[J];江蘇商論;2011年05期
9 彭嵐;;電子口碑傳播:一個研究框架[J];西南農(nóng)業(yè)大學學報(社會科學版);2011年06期
10 熊明鋒,張寧,程世軍,許卓群;一種半自動化安全數(shù)據(jù)交換模型[J];計算機工程與設(shè)計;2004年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳紅兵;;基于XML的電子政務(wù)信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 李紀華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學術(shù)研討會論文集[C];2010年
3 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計算機學會2007年學術(shù)交流年會論文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
6 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計算的信息抽取模板自動獲取方法[A];第二屆全國學生計算語言學研討會論文集[C];2004年
7 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動學習方法[A];全國第八屆計算語言學聯(lián)合學術(shù)會議(JSCL-2005)論文集[C];2005年
8 鐘濤;陳群秀;;基于層式有限狀態(tài)自動機的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
10 丁晟春;劉逶迤;熊霞;梅健;;基于領(lǐng)域本體和語塊分析的信息抽取的研究與實現(xiàn)[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年
2 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學;2011年
3 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學;2010年
4 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2011年
5 郭鴻志;多源語義知識庫融合方法研究[D];哈爾濱工業(yè)大學;2011年
6 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學;2011年
7 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學;2009年
8 馬玉濤;在線客戶評論的產(chǎn)品族設(shè)計與加工方法研究[D];華中科技大學;2012年
9 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學;2001年
10 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學;2003年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 樊敬川;Deep Web數(shù)據(jù)庫的選擇研究[D];河北大學;2009年
2 陳曉慧;空間信息服務(wù)管理平臺的設(shè)計與實現(xiàn)[D];山東科技大學;2010年
3 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學;2010年
4 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學;2010年
5 王浩;NetFlow數(shù)據(jù)處理與異常檢測研究[D];哈爾濱工程大學;2010年
6 王培正;基于Deep Web的網(wǎng)絡(luò)信息抽取技術(shù)研究[D];華南理工大學;2010年
7 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學;2010年
8 王葛;Deep Web接口集成與數(shù)據(jù)標注方法研究[D];長春工業(yè)大學;2010年
9 黃亮;知識產(chǎn)權(quán)預(yù)警機制在服務(wù)外包平臺中的應(yīng)用研究[D];南昌大學;2010年
10 賽子龍;日志分析數(shù)據(jù)同步機制在區(qū)域微軟技術(shù)中心營運平臺中的應(yīng)用研究[D];南昌大學;2010年
本文關(guān)鍵詞:產(chǎn)品屬性挖掘及應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號:344205
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/344205.html