基于微博客的需求檢測(cè)與性格分析的研究
發(fā)布時(shí)間:2022-01-01 08:55
隨著社交網(wǎng)絡(luò)的流行,微博客已成為人們?nèi)粘I钪蟹窒硇畔⒌闹匾绞?用戶以140左右的文字更新信息。2012年12月底,新浪微博的注冊(cè)用戶已超過(guò)5億,每天活躍用戶數(shù)達(dá)4600多萬(wàn),因此每天產(chǎn)生的數(shù)據(jù)是巨大的,如何從這些海量的數(shù)據(jù)中挖掘出有價(jià)值的信息是很有必要性和挑戰(zhàn)性的任務(wù)。本文從兩個(gè)方面研究了從微博中挖掘有用的信息。首先,本文研究了基于新浪微博的需求檢測(cè)。文中通過(guò)定義一個(gè)四元組來(lái)表示用戶的需求信息,然后將原問(wèn)題看作是一個(gè)二元分類問(wèn)題,即能識(shí)別出或不能識(shí)別出四元組。文中以特定話題形式的微博為模板,抽取了基于詞的、基于距離和基于話題的特征,分類算法通過(guò)支持向量機(jī)來(lái)實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,基于詞的和基于距離的特征組合,對(duì)于自動(dòng)識(shí)別需求信息有較好的結(jié)果。其次,本文研究了微博上的用戶性格分析。傳統(tǒng)的性格分析都是以常規(guī)文本為研究對(duì)象,微博與常規(guī)文本有很大不同,用戶的隨意性更強(qiáng),真實(shí)性也會(huì)更高。性格分析以“五大性格”模型為研究基礎(chǔ),將預(yù)測(cè)未知用戶的性格看作一個(gè)多元分類問(wèn)題。分類算法采用決策樹,特征選擇主要包括基于詞的特征、LIWC特征和MRC特征。實(shí)驗(yàn)結(jié)果表明,相比于直接基于詞的特征,LIWC的MRC特...
【文章來(lái)源】:東北大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第1章 緒論
1.1 研究背景
1.2 本文的研究動(dòng)機(jī)
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 本文組織安排
第2章 基礎(chǔ)研究工作
2.1 數(shù)據(jù)預(yù)處理
2.1.1 數(shù)據(jù)下載
2.1.2 分詞
2.1.3 去除停用詞
2.2 詞典的構(gòu)造
2.3 詞性標(biāo)記
2.3.1 隱馬爾可夫模型
2.3.2 條件隨機(jī)場(chǎng)
2.4 分類算法
2.4.1 決策樹
2.4.2 貝葉斯分類
2.4.3 支持向量機(jī)
2.4.4 分類算法的比較
2.5 聚類簡(jiǎn)介
2.5.1 K均值聚類算法
2.5.2 LDA
2.6 文本需求檢測(cè)
2.6.1 任務(wù)定義
2.6.2 需求檢測(cè)分析
2.7 傳統(tǒng)性格分析
2.8 本章小結(jié)
第3章 需求檢測(cè)
3.1 背景知識(shí)介紹
3.1.1 Zipf定律
3.1.2 幾種簡(jiǎn)單的需求檢測(cè)方法
3.2 基準(zhǔn)系統(tǒng)的搭建
3.2.1 任務(wù)定義
3.2.2 數(shù)據(jù)下載
3.2.3 數(shù)據(jù)處理
3.2.4 實(shí)驗(yàn)方法
3.2.5 實(shí)驗(yàn)評(píng)估
3.3 改進(jìn)的方法
3.3.1 距離特征
3.3.2 上下文特征
3.3.3 主題特征
3.4 本章總結(jié)
第4章 性格分析
4.1 任務(wù)定義
4.1.1 背景意義
4.1.2 五大性格介紹
4.2 數(shù)據(jù)下載
4.3 實(shí)驗(yàn)方法
4.3.1 基于詞的特征
4.3.2 LIWC特征
4.3.3 MRC心理學(xué)特征
4.3.4 皮爾遜系數(shù)
4.4 實(shí)驗(yàn)分析
4.4.1 基于所有詞的實(shí)驗(yàn)
4.4.2 基于LIWC和MRC的實(shí)驗(yàn)
4.4.3 基于皮爾遜系數(shù)的實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 工作總結(jié)與展望
5.1 工作總結(jié)
5.2 未來(lái)工作展望
參考文獻(xiàn)
致謝
攻讀碩士期間參加的科研項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]中文微博情感分析研究綜述[J]. 周勝臣,瞿文婷,石英子,施詢之,孫韻辰. 計(jì)算機(jī)應(yīng)用與軟件. 2013(03)
[2]一種面向情感分析的微博表情情感詞典構(gòu)建及應(yīng)用[J]. 王文遠(yuǎn),王大玲,馮時(shí),李任斐,王琳. 計(jì)算機(jī)與數(shù)字工程. 2012(11)
[3]基于主題情感混合模型的無(wú)監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
本文編號(hào):3562041
【文章來(lái)源】:東北大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第1章 緒論
1.1 研究背景
1.2 本文的研究動(dòng)機(jī)
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 本文組織安排
第2章 基礎(chǔ)研究工作
2.1 數(shù)據(jù)預(yù)處理
2.1.1 數(shù)據(jù)下載
2.1.2 分詞
2.1.3 去除停用詞
2.2 詞典的構(gòu)造
2.3 詞性標(biāo)記
2.3.1 隱馬爾可夫模型
2.3.2 條件隨機(jī)場(chǎng)
2.4 分類算法
2.4.1 決策樹
2.4.2 貝葉斯分類
2.4.3 支持向量機(jī)
2.4.4 分類算法的比較
2.5 聚類簡(jiǎn)介
2.5.1 K均值聚類算法
2.5.2 LDA
2.6 文本需求檢測(cè)
2.6.1 任務(wù)定義
2.6.2 需求檢測(cè)分析
2.7 傳統(tǒng)性格分析
2.8 本章小結(jié)
第3章 需求檢測(cè)
3.1 背景知識(shí)介紹
3.1.1 Zipf定律
3.1.2 幾種簡(jiǎn)單的需求檢測(cè)方法
3.2 基準(zhǔn)系統(tǒng)的搭建
3.2.1 任務(wù)定義
3.2.2 數(shù)據(jù)下載
3.2.3 數(shù)據(jù)處理
3.2.4 實(shí)驗(yàn)方法
3.2.5 實(shí)驗(yàn)評(píng)估
3.3 改進(jìn)的方法
3.3.1 距離特征
3.3.2 上下文特征
3.3.3 主題特征
3.4 本章總結(jié)
第4章 性格分析
4.1 任務(wù)定義
4.1.1 背景意義
4.1.2 五大性格介紹
4.2 數(shù)據(jù)下載
4.3 實(shí)驗(yàn)方法
4.3.1 基于詞的特征
4.3.2 LIWC特征
4.3.3 MRC心理學(xué)特征
4.3.4 皮爾遜系數(shù)
4.4 實(shí)驗(yàn)分析
4.4.1 基于所有詞的實(shí)驗(yàn)
4.4.2 基于LIWC和MRC的實(shí)驗(yàn)
4.4.3 基于皮爾遜系數(shù)的實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 工作總結(jié)與展望
5.1 工作總結(jié)
5.2 未來(lái)工作展望
參考文獻(xiàn)
致謝
攻讀碩士期間參加的科研項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]中文微博情感分析研究綜述[J]. 周勝臣,瞿文婷,石英子,施詢之,孫韻辰. 計(jì)算機(jī)應(yīng)用與軟件. 2013(03)
[2]一種面向情感分析的微博表情情感詞典構(gòu)建及應(yīng)用[J]. 王文遠(yuǎn),王大玲,馮時(shí),李任斐,王琳. 計(jì)算機(jī)與數(shù)字工程. 2012(11)
[3]基于主題情感混合模型的無(wú)監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
本文編號(hào):3562041
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3562041.html
最近更新
教材專著