面向海量數(shù)據(jù)的用戶觀點抽取技術(shù)實現(xiàn)與應用
發(fā)布時間:2021-04-27 08:26
隨著互聯(lián)網(wǎng)的普及,人們的消費習慣正逐漸發(fā)生變化。精明的消費者在進行消費之前,往往都會先在互聯(lián)網(wǎng)搜集相關(guān)資料,包括查看產(chǎn)品或者服務的信息和其他消費者的評價信息等,以進一步指導自己的消費行為。但是,要在茫茫數(shù)據(jù)的海洋中提煉出其他消費者的評價并進行歸納,顯然是一件費時費力的事情。觀點抽取技術(shù)旨在實現(xiàn)機器對評價信息的自動提煉,一方面可以幫助消費者更快更好地做出決策,另一方面也有助于生產(chǎn)商等企業(yè)更好地監(jiān)控自己的產(chǎn)品。本文的主要研究內(nèi)容為:1)通過詞向量模型,聚類和規(guī)則等多種方法對文本進行有效的預處理;2)通過構(gòu)建完善的情感詞庫和產(chǎn)品特征詞庫,利用依存句法分析構(gòu)建出產(chǎn)品特征詞和情感詞之間的語法結(jié)構(gòu)路徑,并通過微博表情符號對千萬量級別的微博語料進行自動情感傾向標注訓練得到情感極性分類器,從而有效識別出評論文本的觀點;3)通過提取文本中的多個特征,使用SVM分類器對目標產(chǎn)品與評論觀點之間的相關(guān)性進行過濾,進一步提高了抽取的準確率;4)本文基于上述的抽取方法,實現(xiàn)了一個面向海量數(shù)據(jù)多領(lǐng)域的實時口碑監(jiān)測系統(tǒng),該系統(tǒng)包括了基于分布式計算框架Spark的網(wǎng)絡(luò)爬蟲模塊,基于Hadoop RPC的抽取模塊和用于幫...
【文章來源】:中山大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 概述
1.1 背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
第2章 技術(shù)基礎(chǔ)
2.1 知識庫
2.2 機器學習
2.3 分布式技術(shù)
第3章 需求分析
3.1 觀點抽取問題定義
3.2 口碑監(jiān)測系統(tǒng)的需求分析
第4章 觀點抽取技術(shù)實現(xiàn)
4.1 數(shù)據(jù)清洗
4.2 信息抽取
4.3 抽取過濾
第5章 口碑系統(tǒng)設(shè)計與實現(xiàn)
5.1 系統(tǒng)概述
5.2 網(wǎng)絡(luò)爬蟲模塊
5.3 觀點抽取模塊
5.4 口碑系統(tǒng)展示模塊
第6章 方案展示與應用
6.1 開發(fā)環(huán)境
6.2 部署環(huán)境
6.3 方案展示
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 未來工作展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]基于CRF模型的半監(jiān)督學習迭代觀點句識別研究[J]. 丁晟春,文能,蔣婷,孟美任. 情報學報. 2012 (10)
[2]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學報. 2012(01)
[3]一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J]. 楊鼎,陽愛民. 計算機應用研究. 2010(10)
[4]使用Logistic回歸模型進行中文文本分類[J]. 李新福,趙蕾蕾,何海斌,李芳. 計算機工程與應用. 2009(14)
[5]基于向量空間模型的文本聚類算法[J]. 姚清耘,劉功申,李翔. 計算機工程. 2008(18)
[6]基于HowNet的詞匯語義傾向計算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德. 中文信息學報. 2006(01)
[7]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計算機應用. 2005(09)
本文編號:3163132
【文章來源】:中山大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 概述
1.1 背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
第2章 技術(shù)基礎(chǔ)
2.1 知識庫
2.2 機器學習
2.3 分布式技術(shù)
第3章 需求分析
3.1 觀點抽取問題定義
3.2 口碑監(jiān)測系統(tǒng)的需求分析
第4章 觀點抽取技術(shù)實現(xiàn)
4.1 數(shù)據(jù)清洗
4.2 信息抽取
4.3 抽取過濾
第5章 口碑系統(tǒng)設(shè)計與實現(xiàn)
5.1 系統(tǒng)概述
5.2 網(wǎng)絡(luò)爬蟲模塊
5.3 觀點抽取模塊
5.4 口碑系統(tǒng)展示模塊
第6章 方案展示與應用
6.1 開發(fā)環(huán)境
6.2 部署環(huán)境
6.3 方案展示
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 未來工作展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]基于CRF模型的半監(jiān)督學習迭代觀點句識別研究[J]. 丁晟春,文能,蔣婷,孟美任. 情報學報. 2012 (10)
[2]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學報. 2012(01)
[3]一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J]. 楊鼎,陽愛民. 計算機應用研究. 2010(10)
[4]使用Logistic回歸模型進行中文文本分類[J]. 李新福,趙蕾蕾,何海斌,李芳. 計算機工程與應用. 2009(14)
[5]基于向量空間模型的文本聚類算法[J]. 姚清耘,劉功申,李翔. 計算機工程. 2008(18)
[6]基于HowNet的詞匯語義傾向計算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德. 中文信息學報. 2006(01)
[7]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計算機應用. 2005(09)
本文編號:3163132
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3163132.html
最近更新
教材專著