微博數(shù)據(jù)提取及話題檢測(cè)方法研究
發(fā)布時(shí)間:2024-02-04 19:38
微博作為近年來(lái)急速流行起來(lái)的網(wǎng)絡(luò)應(yīng)用,正在快速深入每個(gè)人的日常生活中。由于其不僅可以通過(guò)電腦而且可以通過(guò)手機(jī)等移動(dòng)便攜設(shè)備進(jìn)行內(nèi)容發(fā)布,所以其具有諸如實(shí)時(shí)性,碎片性等特點(diǎn)。同時(shí)微博博主可以有關(guān)注和被關(guān)注的關(guān)系,微博內(nèi)容也有評(píng)論轉(zhuǎn)發(fā)等形式,故也體現(xiàn)出其互動(dòng)性和靈活性。本文基于微博以上特點(diǎn)做了數(shù)據(jù)提取和話題檢測(cè)兩方面工作。 傳統(tǒng)的網(wǎng)絡(luò)文本數(shù)據(jù)提取一般是利用圖遍歷的思想通過(guò)網(wǎng)絡(luò)爬蟲(chóng)搜集信息,本文在此基礎(chǔ)上研究了使用微博開(kāi)放API接口進(jìn)行數(shù)據(jù)獲取的方法。首先著重分析了OAuth2.0認(rèn)證原理,然后研究了獲取認(rèn)證的流程,此認(rèn)證的獲取是利用開(kāi)放接口的前提條件,目的是讓第三方應(yīng)用可以接入服務(wù)方的數(shù)據(jù)且不泄露個(gè)人信息,最后利用新浪微博的開(kāi)放接口實(shí)現(xiàn)數(shù)據(jù)的提取并將獲取的數(shù)據(jù)以更高效的JSON格式保存,實(shí)驗(yàn)證明此方法相比傳統(tǒng)方法處理效率更高,在同等數(shù)據(jù)量前提下文件大小更小。 話題檢測(cè)在數(shù)據(jù)挖掘領(lǐng)域已經(jīng)得到了深入的研究,其可以從分散的多個(gè)文本文件中提取出少量的不同主題,從而可以更清晰明了地展現(xiàn)數(shù)據(jù)的整體概況。在進(jìn)行話題檢測(cè)時(shí)傳統(tǒng)的基于空間向量模型建模方法容易造成語(yǔ)義丟失的問(wèn)題,于是本文改進(jìn)現(xiàn)有的特征權(quán)重和相...
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容及意義
1.3.1 研究?jī)?nèi)容
1.3.2 研究意義
1.4 論文組織結(jié)構(gòu)
2 相關(guān)背景知識(shí)簡(jiǎn)介
2.1 微博
2.1.1 微博及其特性
2.1.2 微博在生活中的作用
2.2 數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘的主要任務(wù)
2.2.2 數(shù)據(jù)挖掘的主要步驟
2.3 WEB挖掘
3 微博數(shù)據(jù)提取方法研究
3.1 常用網(wǎng)絡(luò)信息采集方法
3.2 利用API提取微博數(shù)據(jù)方法研究
3.2.1 開(kāi)放平臺(tái)簡(jiǎn)要介紹
3.2.2 OAuth 1.0與OAuth 2.0協(xié)議分析
3.2.3 利用開(kāi)放API獲取微博數(shù)據(jù)
4 微博話題檢測(cè)方法研究
4.1 常用話題檢測(cè)算法流程
4.1.1 話題數(shù)據(jù)的提取及前期處理
4.1.2 模型化方式表示文本
4.1.3 計(jì)算文本相似度
4.1.4 選擇聚類(lèi)算法
4.2 微博文本的建模
4.2.1 微博數(shù)據(jù)的預(yù)處理
4.2.2 構(gòu)建文本模型,特征項(xiàng)及特征權(quán)重
4.3 微博話題檢測(cè)算法
4.3.1 話題相似度計(jì)算
4.3.2 話題檢測(cè)流程
5 實(shí)驗(yàn)及結(jié)果分析
5.1 獲取方式及存儲(chǔ)方式比較
5.2 采集數(shù)據(jù)
5.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
5.4 相似度參數(shù)及時(shí)間參數(shù)的確定
5.5 不同檢測(cè)算法比較
5.6 不同相似度算法比較
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號(hào):3895744
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容及意義
1.3.1 研究?jī)?nèi)容
1.3.2 研究意義
1.4 論文組織結(jié)構(gòu)
2 相關(guān)背景知識(shí)簡(jiǎn)介
2.1 微博
2.1.1 微博及其特性
2.1.2 微博在生活中的作用
2.2 數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘的主要任務(wù)
2.2.2 數(shù)據(jù)挖掘的主要步驟
2.3 WEB挖掘
3 微博數(shù)據(jù)提取方法研究
3.1 常用網(wǎng)絡(luò)信息采集方法
3.2 利用API提取微博數(shù)據(jù)方法研究
3.2.1 開(kāi)放平臺(tái)簡(jiǎn)要介紹
3.2.2 OAuth 1.0與OAuth 2.0協(xié)議分析
3.2.3 利用開(kāi)放API獲取微博數(shù)據(jù)
4 微博話題檢測(cè)方法研究
4.1 常用話題檢測(cè)算法流程
4.1.1 話題數(shù)據(jù)的提取及前期處理
4.1.2 模型化方式表示文本
4.1.3 計(jì)算文本相似度
4.1.4 選擇聚類(lèi)算法
4.2 微博文本的建模
4.2.1 微博數(shù)據(jù)的預(yù)處理
4.2.2 構(gòu)建文本模型,特征項(xiàng)及特征權(quán)重
4.3 微博話題檢測(cè)算法
4.3.1 話題相似度計(jì)算
4.3.2 話題檢測(cè)流程
5 實(shí)驗(yàn)及結(jié)果分析
5.1 獲取方式及存儲(chǔ)方式比較
5.2 采集數(shù)據(jù)
5.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
5.4 相似度參數(shù)及時(shí)間參數(shù)的確定
5.5 不同檢測(cè)算法比較
5.6 不同相似度算法比較
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號(hào):3895744
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3895744.html
最近更新
教材專(zhuān)著