面向微博的數(shù)據(jù)采集和分析系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2021-11-21 18:50
隨著社交網(wǎng)絡(luò)的興起,微博已成為了人們相互交流最重要的場所之一。在微博中,人人都可以發(fā)出自己的聲音,也可以聽到別人的聲音,因此形成了巨大的信息量和信息碎片化的特點。本文針對微博的這些特點,設(shè)計并實現(xiàn)了面向微博的數(shù)據(jù)采集和分析系統(tǒng)。主要工作是在獲取微博數(shù)據(jù)的基礎(chǔ)上,仿真并分析微博的網(wǎng)絡(luò)結(jié)構(gòu),確定微博用戶的權(quán)威性并完成了熱門微博和熱門詞匯的挖掘。具體而言,本文主要完成了以下工作:Ⅰ.研究了目前網(wǎng)絡(luò)爬蟲的設(shè)計和應(yīng)用技術(shù),在此基礎(chǔ)上,設(shè)計并實現(xiàn)了一種可根據(jù)數(shù)據(jù)種類的不同,創(chuàng)建多種爬蟲的數(shù)據(jù)采集系統(tǒng),研究人員可使用此系統(tǒng),按需求抓取不同種類的微博數(shù)據(jù)用于研究。此外,在爬行過程中,一方面使用多線程技術(shù)大幅提高爬蟲的效率,另一方面,創(chuàng)造了多AppKey復(fù)用機制,突破了新浪對API調(diào)用頻率的限制,保證了爬蟲可以連續(xù)不間斷的工作。實踐表明,此系統(tǒng)連續(xù)爬取3天即可抓取300萬個微博用戶關(guān)系;Ⅱ.深入分析了微博網(wǎng)絡(luò)中的用戶關(guān)系網(wǎng)絡(luò)的特點,并結(jié)合傳統(tǒng)的網(wǎng)絡(luò)節(jié)點評價算法,提出了“相對權(quán)威度”和“用戶活力”兩個新的概念,并使用這兩個概念完成了對微博用戶的重要性評價。實驗表明,新算法的評價效果比傳統(tǒng)算法提高了20%以...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 研究內(nèi)容
1.3 系統(tǒng)總體架構(gòu)
1.4 組織結(jié)構(gòu)
第二章 國內(nèi)外相關(guān)技術(shù)及研究現(xiàn)狀
2.1 網(wǎng)絡(luò)信息采集技術(shù)
2.1.1 基于整個萬維網(wǎng)的信息抓取
2.1.2 基于主題的信息爬取
2.1.3 增量式信息爬取
2.1.4 分布式網(wǎng)絡(luò)爬蟲
2.2 網(wǎng)頁節(jié)點的評價方法
2.2.1 PageRank算法
2.2.2 HITS算法
2.2.3 DistanceRank算法
2.2.4 無用鏈接的檢測技術(shù)
2.3 針對微博的信息挖掘研究
2.3.1 微博短文本挖掘
2.3.2 情感傾向性分析
2.3.3 話題趨勢檢測
2.4 本章小結(jié)
第三章 微博數(shù)據(jù)的分類爬取及存儲
3.1 微博應(yīng)用的創(chuàng)建
3.2 OAuth授權(quán)機制
3.3 爬蟲的設(shè)計和調(diào)度
3.4 微博數(shù)據(jù)獲取
3.4.1 用戶信息獲取
3.4.2 用戶標簽獲取
3.4.3 用戶關(guān)系獲取
3.4.4 微博內(nèi)容獲取
3.4.5 微博評論獲取
3.5 數(shù)據(jù)庫設(shè)計
3.6 本章小結(jié)
第四章 基于相對權(quán)威度和用戶活力的微博用戶權(quán)威度評價算法(UAEA)
4.1 評價算法綜述
4.2 基于相對權(quán)威度的UA值分配
4.2.1 算法描述
4.2.2 算法效率
4.3 基于用戶活力的UA值分配
4.3.1 算法描述
4.3.2 算法效率
4.4 UAEA評價算法
4.5 算法測試
4.5.1 基于相對權(quán)威度的評價算法測試
4.5.2 UAEA評價算法測試
4.6 UAEA算法的不足
4.7 本章小結(jié)
第五章 微博熱點內(nèi)容發(fā)現(xiàn)
5.1 引言
5.2 熱門微博的發(fā)現(xiàn)
5.2.1 單條評論的熱度評價
5.2.2 單條微博的熱度評價
5.3 熱門詞匯的提取
5.3.1 去停用詞
5.3.2 分詞
5.3.3 熱門詞匯的提取
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 主要工作及創(chuàng)新點
6.2 未來研究方向
參考文獻
致謝
作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻】:
期刊論文
[1]國內(nèi)中文自動分詞技術(shù)研究綜述[J]. 奉國和,鄭偉. 圖書情報工作. 2011(02)
[2]Twitter中近似重復(fù)消息的判定方法研究[J]. 曹鵬,李靜遠,滿彤,劉悅,程學(xué)旗. 中文信息學(xué)報. 2011(01)
[3]話題發(fā)現(xiàn)與追蹤技術(shù)研究[J]. 張曉艷,王挺. 計算機科學(xué)與探索. 2009(04)
[4]一種基于本體的PageRank算法的改進策略[J]. 姚文琳,劉文. 計算機工程. 2009(06)
[5]對線程池模式的分析及其實現(xiàn)[J]. 陳勇,申海燕,宋之毅. 現(xiàn)代電子技術(shù). 2005(16)
[6]專業(yè)搜索引擎的實現(xiàn)與研究——中文分詞算法[J]. 王堅,趙恒永. 電子科學(xué)技術(shù)評論. 2005(03)
[7]中文文本挖掘中最長頻繁序列的發(fā)現(xiàn)算法[J]. 胥桂仙,樸泰雄,楊丹丹,徐小博,高旭. 中央民族大學(xué)學(xué)報(自然科學(xué)版). 2004(01)
[8]話題識別與跟蹤研究[J]. 李保利,俞士汶. 計算機工程與應(yīng)用. 2003(17)
博士論文
[1]短文本語言計算的關(guān)鍵技術(shù)研究[D]. 龔才春.中國科學(xué)院研究生院(計算技術(shù)研究所) 2008
本文編號:3510046
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 研究內(nèi)容
1.3 系統(tǒng)總體架構(gòu)
1.4 組織結(jié)構(gòu)
第二章 國內(nèi)外相關(guān)技術(shù)及研究現(xiàn)狀
2.1 網(wǎng)絡(luò)信息采集技術(shù)
2.1.1 基于整個萬維網(wǎng)的信息抓取
2.1.2 基于主題的信息爬取
2.1.3 增量式信息爬取
2.1.4 分布式網(wǎng)絡(luò)爬蟲
2.2 網(wǎng)頁節(jié)點的評價方法
2.2.1 PageRank算法
2.2.2 HITS算法
2.2.3 DistanceRank算法
2.2.4 無用鏈接的檢測技術(shù)
2.3 針對微博的信息挖掘研究
2.3.1 微博短文本挖掘
2.3.2 情感傾向性分析
2.3.3 話題趨勢檢測
2.4 本章小結(jié)
第三章 微博數(shù)據(jù)的分類爬取及存儲
3.1 微博應(yīng)用的創(chuàng)建
3.2 OAuth授權(quán)機制
3.3 爬蟲的設(shè)計和調(diào)度
3.4 微博數(shù)據(jù)獲取
3.4.1 用戶信息獲取
3.4.2 用戶標簽獲取
3.4.3 用戶關(guān)系獲取
3.4.4 微博內(nèi)容獲取
3.4.5 微博評論獲取
3.5 數(shù)據(jù)庫設(shè)計
3.6 本章小結(jié)
第四章 基于相對權(quán)威度和用戶活力的微博用戶權(quán)威度評價算法(UAEA)
4.1 評價算法綜述
4.2 基于相對權(quán)威度的UA值分配
4.2.1 算法描述
4.2.2 算法效率
4.3 基于用戶活力的UA值分配
4.3.1 算法描述
4.3.2 算法效率
4.4 UAEA評價算法
4.5 算法測試
4.5.1 基于相對權(quán)威度的評價算法測試
4.5.2 UAEA評價算法測試
4.6 UAEA算法的不足
4.7 本章小結(jié)
第五章 微博熱點內(nèi)容發(fā)現(xiàn)
5.1 引言
5.2 熱門微博的發(fā)現(xiàn)
5.2.1 單條評論的熱度評價
5.2.2 單條微博的熱度評價
5.3 熱門詞匯的提取
5.3.1 去停用詞
5.3.2 分詞
5.3.3 熱門詞匯的提取
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 主要工作及創(chuàng)新點
6.2 未來研究方向
參考文獻
致謝
作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻】:
期刊論文
[1]國內(nèi)中文自動分詞技術(shù)研究綜述[J]. 奉國和,鄭偉. 圖書情報工作. 2011(02)
[2]Twitter中近似重復(fù)消息的判定方法研究[J]. 曹鵬,李靜遠,滿彤,劉悅,程學(xué)旗. 中文信息學(xué)報. 2011(01)
[3]話題發(fā)現(xiàn)與追蹤技術(shù)研究[J]. 張曉艷,王挺. 計算機科學(xué)與探索. 2009(04)
[4]一種基于本體的PageRank算法的改進策略[J]. 姚文琳,劉文. 計算機工程. 2009(06)
[5]對線程池模式的分析及其實現(xiàn)[J]. 陳勇,申海燕,宋之毅. 現(xiàn)代電子技術(shù). 2005(16)
[6]專業(yè)搜索引擎的實現(xiàn)與研究——中文分詞算法[J]. 王堅,趙恒永. 電子科學(xué)技術(shù)評論. 2005(03)
[7]中文文本挖掘中最長頻繁序列的發(fā)現(xiàn)算法[J]. 胥桂仙,樸泰雄,楊丹丹,徐小博,高旭. 中央民族大學(xué)學(xué)報(自然科學(xué)版). 2004(01)
[8]話題識別與跟蹤研究[J]. 李保利,俞士汶. 計算機工程與應(yīng)用. 2003(17)
博士論文
[1]短文本語言計算的關(guān)鍵技術(shù)研究[D]. 龔才春.中國科學(xué)院研究生院(計算技術(shù)研究所) 2008
本文編號:3510046
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3510046.html
最近更新
教材專著