當(dāng)前位置：主頁 > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

微博數(shù)據(jù)提取及話題檢測(cè)方法研究

發(fā)布時(shí)間：2024-02-04 19:38

　　微博作為近年來急速流行起來的網(wǎng)絡(luò)應(yīng)用,正在快速深入每個(gè)人的日常生活中。由于其不僅可以通過電腦而且可以通過手機(jī)等移動(dòng)便攜設(shè)備進(jìn)行內(nèi)容發(fā)布,所以其具有諸如實(shí)時(shí)性,碎片性等特點(diǎn)。同時(shí)微博博主可以有關(guān)注和被關(guān)注的關(guān)系,微博內(nèi)容也有評(píng)論轉(zhuǎn)發(fā)等形式,故也體現(xiàn)出其互動(dòng)性和靈活性。本文基于微博以上特點(diǎn)做了數(shù)據(jù)提取和話題檢測(cè)兩方面工作。傳統(tǒng)的網(wǎng)絡(luò)文本數(shù)據(jù)提取一般是利用圖遍歷的思想通過網(wǎng)絡(luò)爬蟲搜集信息,本文在此基礎(chǔ)上研究了使用微博開放API接口進(jìn)行數(shù)據(jù)獲取的方法。首先著重分析了OAuth2.0認(rèn)證原理,然后研究了獲取認(rèn)證的流程,此認(rèn)證的獲取是利用開放接口的前提條件,目的是讓第三方應(yīng)用可以接入服務(wù)方的數(shù)據(jù)且不泄露個(gè)人信息,最后利用新浪微博的開放接口實(shí)現(xiàn)數(shù)據(jù)的提取并將獲取的數(shù)據(jù)以更高效的JSON格式保存,實(shí)驗(yàn)證明此方法相比傳統(tǒng)方法處理效率更高,在同等數(shù)據(jù)量前提下文件大小更小。話題檢測(cè)在數(shù)據(jù)挖掘領(lǐng)域已經(jīng)得到了深入的研究,其可以從分散的多個(gè)文本文件中提取出少量的不同主題,從而可以更清晰明了地展現(xiàn)數(shù)據(jù)的整體概況。在進(jìn)行話題檢測(cè)時(shí)傳統(tǒng)的基于空間向量模型建模方法容易造成語義丟失的問題,于是本文改進(jìn)現(xiàn)有的特征權(quán)重和相...

【文章頁數(shù)】：59 頁

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
Abstract
1 緒論
    1.1 研究背景
    1.2 研究現(xiàn)狀
    1.3 研究?jī)?nèi)容及意義
        1.3.1 研究?jī)?nèi)容
        1.3.2 研究意義
    1.4 論文組織結(jié)構(gòu)
2 相關(guān)背景知識(shí)簡(jiǎn)介
    2.1 微博
        2.1.1 微博及其特性
        2.1.2 微博在生活中的作用
    2.2 數(shù)據(jù)挖掘
        2.2.1 數(shù)據(jù)挖掘的主要任務(wù)
        2.2.2 數(shù)據(jù)挖掘的主要步驟
    2.3 WEB挖掘
3 微博數(shù)據(jù)提取方法研究
    3.1 常用網(wǎng)絡(luò)信息采集方法
    3.2 利用API提取微博數(shù)據(jù)方法研究
        3.2.1 開放平臺(tái)簡(jiǎn)要介紹
        3.2.2 OAuth 1.0與OAuth 2.0協(xié)議分析
        3.2.3 利用開放API獲取微博數(shù)據(jù)
4 微博話題檢測(cè)方法研究
    4.1 常用話題檢測(cè)算法流程
        4.1.1 話題數(shù)據(jù)的提取及前期處理
        4.1.2 模型化方式表示文本
        4.1.3 計(jì)算文本相似度
        4.1.4 選擇聚類算法
    4.2 微博文本的建模
        4.2.1 微博數(shù)據(jù)的預(yù)處理
        4.2.2 構(gòu)建文本模型,特征項(xiàng)及特征權(quán)重
    4.3 微博話題檢測(cè)算法
        4.3.1 話題相似度計(jì)算
        4.3.2 話題檢測(cè)流程
5 實(shí)驗(yàn)及結(jié)果分析
    5.1 獲取方式及存儲(chǔ)方式比較
    5.2 采集數(shù)據(jù)
    5.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
    5.4 相似度參數(shù)及時(shí)間參數(shù)的確定
    5.5 不同檢測(cè)算法比較
    5.6 不同相似度算法比較
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝

本文編號(hào)：3895744

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3895744.html

上一篇：基于接口集成的云開放平臺(tái)
下一篇：CDN-P2P環(huán)境下的內(nèi)容副本放置方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博數(shù)據(jù)提取及話題檢測(cè)方法研究