天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博數(shù)據(jù)提取及話題檢測(cè)方法研究

發(fā)布時(shí)間:2024-02-04 19:38
  微博作為近年來(lái)急速流行起來(lái)的網(wǎng)絡(luò)應(yīng)用,正在快速深入每個(gè)人的日常生活中。由于其不僅可以通過(guò)電腦而且可以通過(guò)手機(jī)等移動(dòng)便攜設(shè)備進(jìn)行內(nèi)容發(fā)布,所以其具有諸如實(shí)時(shí)性,碎片性等特點(diǎn)。同時(shí)微博博主可以有關(guān)注和被關(guān)注的關(guān)系,微博內(nèi)容也有評(píng)論轉(zhuǎn)發(fā)等形式,故也體現(xiàn)出其互動(dòng)性和靈活性。本文基于微博以上特點(diǎn)做了數(shù)據(jù)提取和話題檢測(cè)兩方面工作。 傳統(tǒng)的網(wǎng)絡(luò)文本數(shù)據(jù)提取一般是利用圖遍歷的思想通過(guò)網(wǎng)絡(luò)爬蟲(chóng)搜集信息,本文在此基礎(chǔ)上研究了使用微博開(kāi)放API接口進(jìn)行數(shù)據(jù)獲取的方法。首先著重分析了OAuth2.0認(rèn)證原理,然后研究了獲取認(rèn)證的流程,此認(rèn)證的獲取是利用開(kāi)放接口的前提條件,目的是讓第三方應(yīng)用可以接入服務(wù)方的數(shù)據(jù)且不泄露個(gè)人信息,最后利用新浪微博的開(kāi)放接口實(shí)現(xiàn)數(shù)據(jù)的提取并將獲取的數(shù)據(jù)以更高效的JSON格式保存,實(shí)驗(yàn)證明此方法相比傳統(tǒng)方法處理效率更高,在同等數(shù)據(jù)量前提下文件大小更小。 話題檢測(cè)在數(shù)據(jù)挖掘領(lǐng)域已經(jīng)得到了深入的研究,其可以從分散的多個(gè)文本文件中提取出少量的不同主題,從而可以更清晰明了地展現(xiàn)數(shù)據(jù)的整體概況。在進(jìn)行話題檢測(cè)時(shí)傳統(tǒng)的基于空間向量模型建模方法容易造成語(yǔ)義丟失的問(wèn)題,于是本文改進(jìn)現(xiàn)有的特征權(quán)重和相...

【文章頁(yè)數(shù)】:59 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景
    1.2 研究現(xiàn)狀
    1.3 研究?jī)?nèi)容及意義
        1.3.1 研究?jī)?nèi)容
        1.3.2 研究意義
    1.4 論文組織結(jié)構(gòu)
2 相關(guān)背景知識(shí)簡(jiǎn)介
    2.1 微博
        2.1.1 微博及其特性
        2.1.2 微博在生活中的作用
    2.2 數(shù)據(jù)挖掘
        2.2.1 數(shù)據(jù)挖掘的主要任務(wù)
        2.2.2 數(shù)據(jù)挖掘的主要步驟
    2.3 WEB挖掘
3 微博數(shù)據(jù)提取方法研究
    3.1 常用網(wǎng)絡(luò)信息采集方法
    3.2 利用API提取微博數(shù)據(jù)方法研究
        3.2.1 開(kāi)放平臺(tái)簡(jiǎn)要介紹
        3.2.2 OAuth 1.0與OAuth 2.0協(xié)議分析
        3.2.3 利用開(kāi)放API獲取微博數(shù)據(jù)
4 微博話題檢測(cè)方法研究
    4.1 常用話題檢測(cè)算法流程
        4.1.1 話題數(shù)據(jù)的提取及前期處理
        4.1.2 模型化方式表示文本
        4.1.3 計(jì)算文本相似度
        4.1.4 選擇聚類(lèi)算法
    4.2 微博文本的建模
        4.2.1 微博數(shù)據(jù)的預(yù)處理
        4.2.2 構(gòu)建文本模型,特征項(xiàng)及特征權(quán)重
    4.3 微博話題檢測(cè)算法
        4.3.1 話題相似度計(jì)算
        4.3.2 話題檢測(cè)流程
5 實(shí)驗(yàn)及結(jié)果分析
    5.1 獲取方式及存儲(chǔ)方式比較
    5.2 采集數(shù)據(jù)
    5.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
    5.4 相似度參數(shù)及時(shí)間參數(shù)的確定
    5.5 不同檢測(cè)算法比較
    5.6 不同相似度算法比較
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝



本文編號(hào):3895744

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3895744.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶048a4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com