天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于詞共現(xiàn)模型的微博熱點話題發(fā)現(xiàn)方法研究

發(fā)布時間:2021-08-19 21:30
  當今社會是一個網(wǎng)絡化的時代,互聯(lián)網(wǎng)的存在對社會的影響是空前的。隨著互聯(lián)網(wǎng)的迅猛發(fā)展,通過互聯(lián)網(wǎng)傳播的信息更是爆炸式的增長,數(shù)據(jù)信息量也在瘋狂增長。微博作為一種新興的網(wǎng)絡信息載體,逐漸成為公眾獲取各方面信息和發(fā)布信息的重要渠道。自國內(nèi)微博平臺誕生以來,很多熱點話題首先由微博平臺爆出,進而被傳統(tǒng)媒體關注,進一步成為社會熱點話題。也有不法分子利用微博平臺進行謠言的散播,破壞社會穩(wěn)定,因此針對中文微博熱點話題的發(fā)現(xiàn)對于熱點話題的及時發(fā)現(xiàn)和輿論正確的導向都具有極其重要的意義。微博作為新興的一種網(wǎng)絡信息載體,具有內(nèi)容簡短(限制在140字以內(nèi))、語法結構不規(guī)范等特點,因此針對中文微博信息的數(shù)據(jù)挖掘方法研究成為國內(nèi)研究中文信息挖掘領域的重要方向之一。本文通過引入了詞共現(xiàn)模型,來重點解決微博內(nèi)容簡短的問題;對傳統(tǒng)的詞共現(xiàn)模型進行改進,提高了系統(tǒng)發(fā)現(xiàn)微博熱點話題的性能;隨后引入中文知識庫“知網(wǎng)”,并與詞共現(xiàn)模型結合起來,通過引入語義信息提高了系統(tǒng)發(fā)現(xiàn)微博熱點話題的性能;針對系統(tǒng)處理微博數(shù)據(jù)量巨大的問題,在分析了Hadoop分布式計算平臺的基礎上,分別將傳統(tǒng)的特征項提取算法TF-IDF和詞共現(xiàn)算法進行了改進... 

【文章來源】:中國地質(zhì)大學(北京)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 引言
    1.2 研究背景及意義
    1.3 國內(nèi)外研究現(xiàn)狀
        1.3.1 基于語義方法的研究
        1.3.2 基于統(tǒng)計學方法的研究
    1.4 論文組織及結構
        1.4.1 論文主要研究內(nèi)容
        1.4.2 論文結構安排
第2章 微博話題發(fā)現(xiàn)相關理論研究
    2.1 中文微博功能與特點
        2.1.1 微博功能
        2.1.2 微博傳播特點
    2.2 文本聚類
        2.2.1 聚類算法的分類
        2.2.2 文本聚類算法
    2.3 文本預處理
        2.3.1 文本分詞
        2.3.2 文本特征表示
        2.3.3 文本特征提取
    2.4“知網(wǎng)(Hownet)”
        2.4.1“知網(wǎng)”基礎概念
        2.4.2 義原相似度計算
        2.4.3 概念相似度計算
        2.4.4 詞語相似度計算
    2.5 本章小結
第3章 詞共現(xiàn)方法發(fā)現(xiàn)微博熱點話題
    3.1 詞共現(xiàn)模型
    3.2 詞共現(xiàn)圖模型
    3.3 改進的詞共現(xiàn)方法
    3.4 結合“知網(wǎng)”的詞共現(xiàn)算法
    3.5 本章小結
第4章 系統(tǒng)的設計與實現(xiàn)
    4.1 系統(tǒng)整體框架
    4.2 數(shù)據(jù)收集模塊
    4.3 數(shù)據(jù)預處理模塊
    4.4 熱點話題發(fā)現(xiàn)模塊
    4.5 話題展示模塊
    4.6 本章小結
第5章 基于Hadoop平臺算法的實現(xiàn)
    5.1 Hadoop簡介
        5.1.1 HDFS
        5.1.2 MapReduce
        5.1.3 Hadoop整體架構
    5.2 MapReduce編程基本原理
    5.3 TF-IDF的Hadoop實現(xiàn)
        5.3.1 TF-IDF算法簡介
        5.3.2 改進適用微博的TF-IDF算法
        5.3.3 Hadoop平臺算法的實現(xiàn)
    5.4 詞共現(xiàn)模型的Hadoop實現(xiàn)
    5.5 本章小結
第6章 實驗及結果分析
    6.1 實驗環(huán)境
    6.2 實驗效果評價指標
    6.3 實驗結果與分析
        6.3.1 傳統(tǒng)詞共現(xiàn)算法閾值確定
        6.3.2 詞共現(xiàn)方法與K-Means算法比較
        6.3.3 傳統(tǒng)詞共現(xiàn)方法與結合“知網(wǎng)”詞共現(xiàn)算法比較
        6.3.4 傳統(tǒng)詞共現(xiàn)方法與改進詞共現(xiàn)算法比較
        6.3.5 傳統(tǒng)詞共現(xiàn)方法與Hadoop平臺算法運行速度比較
    6.4 本章小結
第7章 總結與展望
    7.1 本文工作總結
    7.2 未來工作展望
致謝
參考文獻
附錄


【參考文獻】:
期刊論文
[1]基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J]. 馬雯雯,魏文晗,鄧一貴.  計算機工程與應用. 2014(01)
[2]MB-SinglePass:基于組合相似度的微博話題檢測[J]. 周剛,鄒鴻程,熊小兵,黃永忠.  計算機科學. 2012(10)
[3]微博意見領袖對網(wǎng)絡輿論的影響[J]. 張萌,余芬芬.  新聞世界. 2012(07)
[4]基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J]. 路榮,項亮,劉明榮,楊青.  模式識別與人工智能. 2012(03)
[5]一種中文微博新聞話題檢測的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦.  計算機科學. 2012(01)
[6]一種基于名詞的微博語義計算方法[J]. 時睿,封化民.  北京電子科技學院學報. 2011(04)
[7]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群.  計算機研究與發(fā)展. 2011(10)
[8]微博在我國的傳播現(xiàn)狀及傳播特征分析[J]. 殷俊,何芳.  河南大學學報(社會科學版). 2011(03)
[9]微博的歷史、現(xiàn)狀與發(fā)展趨勢[J]. 謝耘耕,徐穎.  現(xiàn)代傳播(中國傳媒大學學報). 2011(04)
[10]云端的小飛象—Hadoop[J]. 孫牧.  程序員. 2008(10)

博士論文
[1]多文檔自動文摘關鍵技術研究[D]. 徐永東.哈爾濱工業(yè)大學 2007

碩士論文
[1]基于話題識別的中文郵件管理技術研究[D]. 張霞.北京郵電大學 2008



本文編號:3352178

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3352178.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶e9e29***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com