微博分析系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2017-07-29 20:28
本文關(guān)鍵詞:微博分析系統(tǒng)的設(shè)計與實現(xiàn)
更多相關(guān)文章: 微博分析 文本分類 微博位置推斷 條件隨機場
【摘要】:隨著近幾年互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,社交網(wǎng)絡(luò)與人類的生活正在變得越來越密不可分。微博作為社交網(wǎng)絡(luò)的典型代表,正在受到越來越廣泛的關(guān)注。微博上的數(shù)據(jù)越來越豐富,其信息可以涵蓋科技、人文、政治等諸多領(lǐng)域。面對這樣的海量數(shù)據(jù),用戶卻越來越難以找到需要的信息。 微博分析的主要目的就是對海量的微博數(shù)據(jù)進行篩選和歸納,幫助用戶盡快找到需要的信息。本課題就是實現(xiàn)了這樣一個微博分析系統(tǒng)。本系統(tǒng)從機構(gòu)內(nèi)部的群體用戶信息著手,分析用戶特征。 本課題對系統(tǒng)的整體框架進行了設(shè)計,將系統(tǒng)分成數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)分析幾個主要模塊,盡可能提升系統(tǒng)的穩(wěn)定性與可擴展性。系統(tǒng)基于Hadoop平臺設(shè)計,提高了對于大數(shù)據(jù)的處理能力。在數(shù)據(jù)獲取模塊,我們結(jié)合網(wǎng)頁爬蟲和微博API實現(xiàn)了一個功能健全的微博爬蟲,完成了數(shù)據(jù)存儲、更新等功能。在數(shù)據(jù)存儲模塊,我們對數(shù)據(jù)庫表進行了設(shè)計,以實現(xiàn)系統(tǒng)運行效率與存儲空間之間的平衡。 數(shù)據(jù)分析模塊,本課題從群體、社團內(nèi)部、用戶個人交往圈三個層次著手,進行了用戶交往圈、文本、LBS(基于位置的服務(wù))等領(lǐng)域,多個模塊的分析,主要功能點包括社團發(fā)現(xiàn)、影響力計算、熱點話題、關(guān)鍵詞提取、微博位置推斷等。 其中,微博位置推斷模塊是本文的研究重點。這部分主要是為了解決微博上位置信息過少的問題,從而為LBS其他方面的研究,例如基于微博位置的推薦等內(nèi)容奠定基礎(chǔ)。在這方面,本課題利用詞語的空間、時間分布,優(yōu)化了地區(qū)性詞語抽取的效果,同時,通過對用戶行為和用戶關(guān)系的關(guān)注,大大改善了位置推斷的效果。同時,為了更好的解決微博位置類型標注問題,我們還研究了微博文本分類算法,并且取得了良好效果。
【關(guān)鍵詞】:微博分析 文本分類 微博位置推斷 條件隨機場
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-18
- 1.1 課題背景與意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-17
- 1.2.1 微博分析系統(tǒng)10-15
- 1.2.2 短文本分類技術(shù)15-16
- 1.2.3 微博位置推斷研究現(xiàn)狀16-17
- 1.3 本文的研究工作17
- 1.4 論文組織形式17-18
- 第二章 相關(guān)技術(shù)18-25
- 2.1 新詞發(fā)現(xiàn)18
- 2.2 詞向量技術(shù)18-20
- 2.3 條件隨機場20-22
- 2.4 文本分類算法22-23
- 2.5 Hadoop簡介23-24
- 2.6 本章小結(jié)24-25
- 第三章 微博位置推斷技術(shù)研究25-44
- 3.1 微博用戶地理位置推斷25-38
- 3.1.1 地區(qū)性詞語的提取27-30
- 3.1.2 單條微博位置推斷30-31
- 3.1.3 微博用戶位置推斷31-33
- 3.1.4 實驗結(jié)果與分析33-38
- 3.2 微博位置類型推斷38-43
- 3.2.1 算法原理38-39
- 3.2.2 算法流程39-40
- 3.2.3 實驗結(jié)果與分析40-43
- 3.3 本章小結(jié)43-44
- 第四章 基于Hadop的微博分析系統(tǒng)總體設(shè)計44-54
- 4.1 系統(tǒng)概述44
- 4.2 系統(tǒng)需求分析44-46
- 4.3 系統(tǒng)概要設(shè)計46-53
- 4.3.1 系統(tǒng)整體框架46-49
- 4.3.2 數(shù)據(jù)庫設(shè)計49-53
- 4.4 本章小結(jié)53-54
- 第五章 基于Hadoop的微博分析系統(tǒng)實現(xiàn)54-67
- 5.1 系統(tǒng)詳細設(shè)計與實現(xiàn)54-64
- 5.1.1 數(shù)據(jù)獲取層54-55
- 5.1.2 數(shù)據(jù)分析層55-64
- 5.2 系統(tǒng)實現(xiàn)與效果展示64-67
- 5.2.1 部署環(huán)境說明64
- 5.2.2 效果展示64-67
- 第六章 總結(jié)與展望67-68
- 參考文獻68-71
- 致謝71-72
- 攻讀碩士學位期間發(fā)表的論文72
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 閆瑞;曹先彬;李凱;;面向短文本的動態(tài)組合分類算法[J];電子學報;2009年05期
2 林小俊;張猛;暴筱;李軍;吳璽宏;;基于概念網(wǎng)絡(luò)的短文本分類方法[J];計算機工程;2010年21期
3 王細薇;樊興華;趙軍;;一種基于特征擴展的中文短文本分類方法[J];計算機應(yīng)用;2009年03期
4 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計算機應(yīng)用;2013年06期
5 蘇金樹;張博鋒;徐昕;;基于機器學習的文本分類技術(shù)研究進展[J];軟件學報;2006年09期
,本文編號:590983
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/590983.html
最近更新
教材專著