天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博的數(shù)據(jù)采集和分析系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2021-11-21 18:50
  隨著社交網(wǎng)絡的興起,微博已成為了人們相互交流最重要的場所之一。在微博中,人人都可以發(fā)出自己的聲音,也可以聽到別人的聲音,因此形成了巨大的信息量和信息碎片化的特點。本文針對微博的這些特點,設計并實現(xiàn)了面向微博的數(shù)據(jù)采集和分析系統(tǒng)。主要工作是在獲取微博數(shù)據(jù)的基礎上,仿真并分析微博的網(wǎng)絡結構,確定微博用戶的權威性并完成了熱門微博和熱門詞匯的挖掘。具體而言,本文主要完成了以下工作:Ⅰ.研究了目前網(wǎng)絡爬蟲的設計和應用技術,在此基礎上,設計并實現(xiàn)了一種可根據(jù)數(shù)據(jù)種類的不同,創(chuàng)建多種爬蟲的數(shù)據(jù)采集系統(tǒng),研究人員可使用此系統(tǒng),按需求抓取不同種類的微博數(shù)據(jù)用于研究。此外,在爬行過程中,一方面使用多線程技術大幅提高爬蟲的效率,另一方面,創(chuàng)造了多AppKey復用機制,突破了新浪對API調(diào)用頻率的限制,保證了爬蟲可以連續(xù)不間斷的工作。實踐表明,此系統(tǒng)連續(xù)爬取3天即可抓取300萬個微博用戶關系;Ⅱ.深入分析了微博網(wǎng)絡中的用戶關系網(wǎng)絡的特點,并結合傳統(tǒng)的網(wǎng)絡節(jié)點評價算法,提出了“相對權威度”和“用戶活力”兩個新的概念,并使用這兩個概念完成了對微博用戶的重要性評價。實驗表明,新算法的評價效果比傳統(tǒng)算法提高了20%以... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:79 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景和意義
    1.2 研究內(nèi)容
    1.3 系統(tǒng)總體架構
    1.4 組織結構
第二章 國內(nèi)外相關技術及研究現(xiàn)狀
    2.1 網(wǎng)絡信息采集技術
        2.1.1 基于整個萬維網(wǎng)的信息抓取
        2.1.2 基于主題的信息爬取
        2.1.3 增量式信息爬取
        2.1.4 分布式網(wǎng)絡爬蟲
    2.2 網(wǎng)頁節(jié)點的評價方法
        2.2.1 PageRank算法
        2.2.2 HITS算法
        2.2.3 DistanceRank算法
        2.2.4 無用鏈接的檢測技術
    2.3 針對微博的信息挖掘研究
        2.3.1 微博短文本挖掘
        2.3.2 情感傾向性分析
        2.3.3 話題趨勢檢測
    2.4 本章小結
第三章 微博數(shù)據(jù)的分類爬取及存儲
    3.1 微博應用的創(chuàng)建
    3.2 OAuth授權機制
    3.3 爬蟲的設計和調(diào)度
    3.4 微博數(shù)據(jù)獲取
        3.4.1 用戶信息獲取
        3.4.2 用戶標簽獲取
        3.4.3 用戶關系獲取
        3.4.4 微博內(nèi)容獲取
        3.4.5 微博評論獲取
    3.5 數(shù)據(jù)庫設計
    3.6 本章小結
第四章 基于相對權威度和用戶活力的微博用戶權威度評價算法(UAEA)
    4.1 評價算法綜述
    4.2 基于相對權威度的UA值分配
        4.2.1 算法描述
        4.2.2 算法效率
    4.3 基于用戶活力的UA值分配
        4.3.1 算法描述
        4.3.2 算法效率
    4.4 UAEA評價算法
    4.5 算法測試
        4.5.1 基于相對權威度的評價算法測試
        4.5.2 UAEA評價算法測試
    4.6 UAEA算法的不足
    4.7 本章小結
第五章 微博熱點內(nèi)容發(fā)現(xiàn)
    5.1 引言
    5.2 熱門微博的發(fā)現(xiàn)
        5.2.1 單條評論的熱度評價
        5.2.2 單條微博的熱度評價
    5.3 熱門詞匯的提取
        5.3.1 去停用詞
        5.3.2 分詞
        5.3.3 熱門詞匯的提取
    5.4 本章小結
第六章 總結與展望
    6.1 主要工作及創(chuàng)新點
    6.2 未來研究方向
參考文獻
致謝
作者攻讀學位期間發(fā)表的學術論文目錄


【參考文獻】:
期刊論文
[1]國內(nèi)中文自動分詞技術研究綜述[J]. 奉國和,鄭偉.  圖書情報工作. 2011(02)
[2]Twitter中近似重復消息的判定方法研究[J]. 曹鵬,李靜遠,滿彤,劉悅,程學旗.  中文信息學報. 2011(01)
[3]話題發(fā)現(xiàn)與追蹤技術研究[J]. 張曉艷,王挺.  計算機科學與探索. 2009(04)
[4]一種基于本體的PageRank算法的改進策略[J]. 姚文琳,劉文.  計算機工程. 2009(06)
[5]對線程池模式的分析及其實現(xiàn)[J]. 陳勇,申海燕,宋之毅.  現(xiàn)代電子技術. 2005(16)
[6]專業(yè)搜索引擎的實現(xiàn)與研究——中文分詞算法[J]. 王堅,趙恒永.  電子科學技術評論. 2005(03)
[7]中文文本挖掘中最長頻繁序列的發(fā)現(xiàn)算法[J]. 胥桂仙,樸泰雄,楊丹丹,徐小博,高旭.  中央民族大學學報(自然科學版). 2004(01)
[8]話題識別與跟蹤研究[J]. 李保利,俞士汶.  計算機工程與應用. 2003(17)

博士論文
[1]短文本語言計算的關鍵技術研究[D]. 龔才春.中國科學院研究生院(計算技術研究所) 2008



本文編號:3510046

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3510046.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶99dcd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com