微博短文本分析技術(shù)研究及應(yīng)用
發(fā)布時(shí)間:2017-06-30 00:07
本文關(guān)鍵詞:微博短文本分析技術(shù)研究及應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:微博的普及化,使得互聯(lián)網(wǎng)中存在大量的文本數(shù)據(jù)。這些數(shù)據(jù)大多數(shù)是微博用戶(hù)自創(chuàng)的短文本,其中隱含了微博用戶(hù)個(gè)人的興趣特征。通過(guò)深入分析,挖掘其中隱含的信息,作為其它應(yīng)用的分析數(shù)據(jù),如用戶(hù)的個(gè)性化推薦。本文通過(guò)對(duì)微博短文本的研究,挖掘微博短文本特征,識(shí)別用戶(hù)興趣。本文主要完成了以下工作:1.提出了一種微博新詞識(shí)別方法。針對(duì)微博中存在許多新型的未登錄詞典的網(wǎng)絡(luò)詞語(yǔ),給出了微博新詞識(shí)別方法。首先根據(jù)微博的特殊形式,給出了微博短文本的預(yù)處理方案。通過(guò)特定符號(hào)“【】”和“##”規(guī)定的功能,抽取其中的字符串,作為備選詞。然后經(jīng)過(guò)詞典過(guò)濾、相鄰串過(guò)濾,最后計(jì)算互信息,抽取互信息達(dá)到閾值的詞語(yǔ)作為新詞。建立新詞詞典的作用是在于提高分詞效果。2.提出了微博短文本特征提取方法;谖⒉┑男问,考慮詞頻、文本稀疏、潛在語(yǔ)義三個(gè)方面,給出了將VSM(Vector Space Model)、聚類(lèi)方法和LDA(Latent Dirichlet Allocation)相結(jié)合的特征詞提取方法。對(duì)微博數(shù)據(jù)集利用基于K-Means++的聚類(lèi)方法進(jìn)行了聚類(lèi),根據(jù)聚類(lèi)結(jié)果重組數(shù)據(jù)集。對(duì)重組后的數(shù)據(jù)集采用LDA建模,再依據(jù)概率分布,抽取特征。3.給出了微博用戶(hù)興趣的識(shí)別方法;谔卣髟~提取結(jié)果,給出了基于詞典的識(shí)別方法;谟脩(hù)微博的特征詞,計(jì)算每個(gè)主題詞典的權(quán)重,選取權(quán)重大于給定閾值的主題作為最終的用戶(hù)興趣描述。4.設(shè)計(jì)了一個(gè)微博用戶(hù)興趣挖掘系統(tǒng)。為了將上述給出的方法應(yīng)用于實(shí)際的微博數(shù)據(jù)中,得到的結(jié)果直觀展示,設(shè)計(jì)了一個(gè)簡(jiǎn)單的微博用戶(hù)興趣挖掘系統(tǒng)。系統(tǒng)分為三層,數(shù)據(jù)獲取層、數(shù)據(jù)分析層以及應(yīng)用層。數(shù)據(jù)獲取層是根據(jù)新浪API和開(kāi)源搜索引擎軟件爬蟲(chóng)獲取微博數(shù)據(jù);數(shù)據(jù)分析層是集合了本文給出的三種分析方法,分析的數(shù)據(jù)是個(gè)人微博的數(shù)據(jù);應(yīng)用層為結(jié)果顯示,利用文本可視化方法將結(jié)果更加直觀的展現(xiàn)。
【關(guān)鍵詞】:微博 短文本 主題模型 特征提取 潛在狄利克雷分配模型
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-18
- 1.1 研究背景與意義11-12
- 1.2 本文研究?jī)?nèi)容12-13
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀13-16
- 1.3.1 短文本挖掘研究現(xiàn)狀13-15
- 1.3.2 微博短文本分析現(xiàn)狀15-16
- 1.4 論文組織16-18
- 第二章 文本分析相關(guān)知識(shí)18-31
- 2.1 預(yù)處理階段18-19
- 2.1.1 噪聲詞處理19
- 2.1.2 中文分詞19
- 2.2 文本表示19-20
- 2.2.1 布爾模型19
- 2.2.2 概率模型19-20
- 2.2.3 向量空間模型20
- 2.3 特征選擇20-26
- 2.3.1 TF-IDF20-21
- 2.3.2 主題模型方法21-26
- 2.4 微博文本情感分析26-30
- 2.4.1 文本情感分析27-28
- 2.4.2 中文微博文本分析問(wèn)題28
- 2.4.3 相關(guān)技術(shù)28-30
- 2.5 本章小結(jié)30-31
- 第三章 微博短文本規(guī)范化及新詞識(shí)別31-41
- 3.1 微博短文本規(guī)范化31-34
- 3.1.1 符號(hào)處理31-33
- 3.1.2 微博短文本分詞33-34
- 3.2 微博新詞識(shí)別算法34-38
- 3.2.1 新詞識(shí)別34-35
- 3.2.2 微博新詞識(shí)別算法35-38
- 3.3 實(shí)驗(yàn)與結(jié)果分析38-40
- 3.3.1 實(shí)驗(yàn)環(huán)境38
- 3.3.2 數(shù)據(jù)采集38-39
- 3.3.3 實(shí)驗(yàn)結(jié)果39-40
- 3.3.4 結(jié)果分析40
- 3.4 本章小結(jié)40-41
- 第四章 微博短文本特征提取41-57
- 4.1 LDA模型41-44
- 4.2 基于聚類(lèi)和LDA模型的特征提取44-50
- 4.2.1 聚類(lèi)方法45-47
- 4.2.2 LDA建模提取特征47-50
- 4.3 實(shí)驗(yàn)與結(jié)果分析50-56
- 4.3.1 實(shí)驗(yàn)環(huán)境50-51
- 4.3.2 實(shí)驗(yàn)過(guò)程及分析51-55
- 4.3.3 模型評(píng)價(jià)55-56
- 4.4 本章小結(jié)56-57
- 第五章 微博用戶(hù)興趣挖掘系統(tǒng)57-71
- 5.1 系統(tǒng)概述57-58
- 5.1.1 引入57
- 5.1.2 系統(tǒng)描述57-58
- 5.2 系統(tǒng)設(shè)計(jì)58-62
- 5.2.1 開(kāi)源軟件與工具58-59
- 5.2.2 系統(tǒng)整體設(shè)計(jì)59-61
- 5.2.3 應(yīng)用設(shè)計(jì)61-62
- 5.3 系統(tǒng)功能實(shí)現(xiàn)62-69
- 5.3.1 模塊功能實(shí)現(xiàn)62-66
- 5.3.2 功能展示66-69
- 5.4 系統(tǒng)測(cè)試69-70
- 5.4.1 系統(tǒng)性能測(cè)試69
- 5.4.2 系統(tǒng)功能測(cè)試69-70
- 5.5 本章小結(jié)70-71
- 第六章 總結(jié)與展望71-73
- 6.1 總結(jié)71
- 6.2 進(jìn)一步的工作71-73
- 致謝73-74
- 參考文獻(xiàn)74-78
- 在學(xué)期間的研究成果78-79
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計(jì)算機(jī)應(yīng)用;2009年S1期
2 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學(xué)報(bào);2012年01期
本文關(guān)鍵詞:微博短文本分析技術(shù)研究及應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):499825
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/499825.html
最近更新
教材專(zhuān)著