基于微博的用戶飲食特色及表達(dá)習(xí)慣分析
發(fā)布時間:2017-06-01 13:14
本文關(guān)鍵詞:基于微博的用戶飲食特色及表達(dá)習(xí)慣分析,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,社會媒體越來越被廣泛使用,成為人們生活方式的一部分。通過社會媒體積累的數(shù)據(jù)也因而正經(jīng)歷著爆發(fā)性的增長。通過挖掘社會媒體文本獲得信息,相比于社會學(xué)研究中傳統(tǒng)的問卷調(diào)查方式,有著更真實、數(shù)據(jù)量大、費用低等優(yōu)點,因而越來越被廣泛使用。但在社會媒體文本挖掘中,傳統(tǒng)的基于詞表的方法存在準(zhǔn)確率低的問題。針對此問題,本文提出了基于依存句法分析的方法和基于機(jī)器學(xué)習(xí)的方法,除了分詞信息,還應(yīng)用詞性標(biāo)注、句法分析等自然語言處理信息,并在飲食行為識別上進(jìn)行了實驗。實驗證明了基于依存句法分析的方法在準(zhǔn)確率上相比基于詞表的方法有大幅提升;基于機(jī)器學(xué)習(xí)的方法則相比另兩種方法準(zhǔn)確率都高,雖然召回率要低于基于詞表方法,但仍然是綜合表現(xiàn)最佳的模型。用基于機(jī)器學(xué)習(xí)的模型,可以從大規(guī)模微博語料中識別出飲食行為,并與原微博屬性對應(yīng)起來。然后從性別、地區(qū)、時間三個維度對微博用戶的飲食習(xí)慣特色進(jìn)行分析和交叉分析,用詞云的形式可視化地展現(xiàn)了結(jié)果。此外,還進(jìn)行了針對某一食品在地區(qū)、時間的熱度分布的統(tǒng)計,也能從一定程度描述飲食習(xí)慣特色。此外,還探索了如何分析不同用戶群體的飲食表達(dá)特色。最終得到了描述不同群體飲食表達(dá)特色的幾個維度,并用詞云展示了關(guān)于飲食表達(dá)特色的分析結(jié)果。
【關(guān)鍵詞】:文本挖掘 社會媒體 飲食習(xí)慣特色分析 飲食表達(dá)特色分析
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-16
- 1.1 課題背景和意義9-11
- 1.1.1 課題背景9-10
- 1.1.2 研究的目的和意義10-11
- 1.2 國內(nèi)外相關(guān)研究11-13
- 1.2.1 基于詞表的社會媒體文本挖掘12
- 1.2.2 利用社會媒體文本挖掘社會信息12
- 1.2.3 語言表達(dá)特色分析12-13
- 1.2.4 國內(nèi)外文獻(xiàn)綜述的簡析13
- 1.3 本文研究內(nèi)容13-15
- 1.3.1 基于依存句法分析的飲食行為識別13-14
- 1.3.2 基于機(jī)器學(xué)習(xí)的飲食行為識別14
- 1.3.3 微博用戶飲食習(xí)慣特色分析14
- 1.3.4 微博用戶飲食表達(dá)特色分析14
- 1.3.5 研究內(nèi)容總結(jié)14-15
- 1.4 本章小結(jié)15-16
- 第2章 基于依存句法分析的飲食行為識別16-28
- 2.1 引言16
- 2.2 食品詞表構(gòu)建16-20
- 2.2.1 基于百科的詞表初步構(gòu)建16-17
- 2.2.2 詞表優(yōu)化17-20
- 2.3 基于依存句法分析的飲食行為識別20-22
- 2.3.1 依存句法分析20
- 2.3.2 識別規(guī)則20-22
- 2.3.3 實現(xiàn)方法22
- 2.4 對比實驗22-27
- 2.4.1 語料構(gòu)建及標(biāo)注22-25
- 2.4.2 評價標(biāo)準(zhǔn)25
- 2.4.3 實驗結(jié)果及分析25-27
- 2.5 本章小結(jié)27-28
- 第3章 基于機(jī)器學(xué)習(xí)的飲食行為識別28-34
- 3.1 引言28
- 3.2 CRF模型簡介28-29
- 3.3 特征選擇29-31
- 3.4 實驗結(jié)果及分析31-33
- 3.4.1 對比實驗31
- 3.4.2 特征作用分析31-32
- 3.4.3 錯誤分析32-33
- 3.5 本章小結(jié)33-34
- 第4章 微博用戶飲食習(xí)慣特色分析34-45
- 4.1 引言34
- 4.2 飲食習(xí)慣特色的含義34-35
- 4.3 飲食習(xí)慣特色挖掘35-37
- 4.3.1 數(shù)據(jù)集35-36
- 4.3.2 挖掘方法36
- 4.3.3 可視化36-37
- 4.4 分析結(jié)果展示37-44
- 4.4.1 性別維度下的結(jié)果37-38
- 4.4.2 地區(qū)維度下的結(jié)果38-39
- 4.4.3 時間維度下的結(jié)果39-40
- 4.4.4 交叉條件下的結(jié)果40-41
- 4.4.5 基于食品的分析結(jié)果41-44
- 4.4.6 其他分析結(jié)果44
- 4.5 本章小結(jié)44-45
- 第5章 微博用戶飲食表達(dá)特色分析45-51
- 5.1 引言45
- 5.2 飲食表達(dá)特色的含義45
- 5.3 飲食表達(dá)特色的挖掘和結(jié)果展示45-50
- 5.3.1 動詞父節(jié)點搭配特色46-48
- 5.3.2 形容詞父節(jié)點搭配特色48-49
- 5.3.3 副詞修飾父節(jié)點搭配特色49-50
- 5.5 本章小結(jié)50-51
- 結(jié)論51-52
- 參考文獻(xiàn)52-55
- 附錄1飲食習(xí)慣特色分析結(jié)果55-57
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文57-59
- 致謝59-60
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 劉挺;馬金山;;漢語自動句法分析的理論與方法[J];當(dāng)代語言學(xué);2009年02期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 劉龍;音樂領(lǐng)域全局實體關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2010年
本文關(guān)鍵詞:基于微博的用戶飲食特色及表達(dá)習(xí)慣分析,,由筆耕文化傳播整理發(fā)布。
本文編號:412686
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/412686.html
最近更新
教材專著