微博用戶興趣挖掘技術(shù)研究
本文關(guān)鍵詞:微博用戶興趣挖掘技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:微博作為當(dāng)前最流行的社交網(wǎng)絡(luò)平臺之一,用戶可以通過計算機(jī)或移動終端關(guān)注和分享自己感興趣的信息,發(fā)表個人觀點等。微博已經(jīng)成了一個實時信息獲取、分享、交流和傳播的平臺;ヂ(lián)網(wǎng)上每天都產(chǎn)生著數(shù)以億計的微博數(shù)據(jù),這些由用戶所產(chǎn)生的海量微博數(shù)據(jù)背后蘊(yùn)含著巨大的商業(yè)價值,而準(zhǔn)確地分析用戶興趣對挖掘微博價值和提升微博用戶體驗有著重要的意義。 本文基于模擬瀏覽器行為的方式爬取海量微博數(shù)據(jù),然后對微博數(shù)據(jù)進(jìn)行自動清洗,再利用切詞、分類、關(guān)鍵詞抽取等多種自然語言處理技術(shù)對處理后的用戶微博數(shù)據(jù)進(jìn)行分析和挖掘。本文主要工作如下: 第一,通過Http Watch9.1截取和分析網(wǎng)頁數(shù)據(jù)流,并基于模擬瀏覽器行為技術(shù)和清洗模式規(guī)則技術(shù),自動化爬取、采集和清洗海量微博數(shù)據(jù); 第二,結(jié)合微博內(nèi)容特性,對傳統(tǒng)TF-IDF算法模型進(jìn)行應(yīng)用改進(jìn)和拓展,提出融合基本IDF詞典和聯(lián)合興趣度的動態(tài)IDF詞典的用戶個性化IDF詞典,并基于改進(jìn)的TF-IDF算法應(yīng)用模型抽取基于用戶微博內(nèi)容的興趣關(guān)鍵詞; 第三,研究分析了廣義僵尸用戶的定義和判別特征的選擇,并針對微博用戶特點,使用基于多特征融合的AdaBoost.Ml分類算法對目標(biāo)用戶的關(guān)聯(lián)用戶進(jìn)行分類和處理;同時在傳統(tǒng)排名算法PageRank的基礎(chǔ)上,考慮微博用戶關(guān)聯(lián)關(guān)系特性,提出了RelationRank算法對關(guān)聯(lián)用戶進(jìn)行重要性排序,最后通過篩選所得到的關(guān)聯(lián)用戶的微博內(nèi)容對目標(biāo)用戶的興趣進(jìn)行描述。 最后,基于上述研究內(nèi)容,文中采用模塊化分層設(shè)計思想,設(shè)計并實現(xiàn)了一個微博用戶興趣挖掘平臺,并通過實驗對比分析了興趣挖掘平臺的有效性和準(zhǔn)確性。
【關(guān)鍵詞】:微博數(shù)據(jù)采集 IDF詞典 廣義僵尸用戶 RelationRank算法 用戶興趣挖掘
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-15
- 1.1 研究背景及意義10-13
- 1.1.1 研究背景10-13
- 1.1.2 研究意義13
- 1.2 本文主要研究內(nèi)容13-14
- 1.2.1 海量微博數(shù)據(jù)自動化爬取采集技術(shù)13
- 1.2.2 基于目標(biāo)用戶微博內(nèi)容的興趣關(guān)鍵詞抽取模型13
- 1.2.3 基于關(guān)聯(lián)用戶微博內(nèi)容的興趣關(guān)鍵詞抽取模型13-14
- 1.2.4 微博用戶興趣挖掘平臺架構(gòu)設(shè)計與實現(xiàn)14
- 1.3 本文章節(jié)安排14-15
- 第2章 相關(guān)技術(shù)綜述15-24
- 2.1 網(wǎng)絡(luò)爬蟲技術(shù)15-16
- 2.1.1 網(wǎng)絡(luò)爬蟲背景15
- 2.1.2 網(wǎng)絡(luò)爬蟲現(xiàn)狀分析15-16
- 2.2 中文切詞技術(shù)16-18
- 2.2.1 中文切詞背景16-17
- 2.2.2 中文切詞現(xiàn)狀分析17-18
- 2.3 關(guān)鍵詞抽取技術(shù)18-19
- 2.3.1 關(guān)鍵詞抽取背景18-19
- 2.3.2 關(guān)鍵詞抽取現(xiàn)狀分析19
- 2.4 用戶興趣建模技術(shù)19-21
- 2.4.1 用戶興趣建模背景19-20
- 2.4.2 用戶興趣建,F(xiàn)狀分析20-21
- 2.5 其他相關(guān)技術(shù)21-23
- 2.5.1 分類算法22
- 2.5.2 PageRank算法22-23
- 2.6 本章小結(jié)23-24
- 第3章 微博用戶興趣挖掘平臺架構(gòu)24-29
- 3.1 平臺設(shè)計思想24
- 3.2 平臺架構(gòu)24-25
- 3.3 平臺功能層次框架設(shè)計25-28
- 3.3.1 數(shù)據(jù)層25-26
- 3.3.2 算法層26
- 3.3.3 應(yīng)用層26
- 3.3.4 用戶層26-28
- 3.4 本章小結(jié)28-29
- 第4章 基于模擬瀏覽器行為的海量微博數(shù)據(jù)爬取采集29-49
- 4.1 概述29
- 4.2 基于微博API的數(shù)據(jù)采集方案29-34
- 4.2.1 應(yīng)用創(chuàng)建流程與OAuth2.0授權(quán)29-30
- 4.2.2 微博API數(shù)據(jù)采集實現(xiàn)30-34
- 4.2.3 基于微博API采集微博數(shù)據(jù)優(yōu)缺點34
- 4.3 基于模擬瀏覽器行為的微博數(shù)據(jù)采集方案34-44
- 4.3.1 網(wǎng)頁數(shù)據(jù)分析工具(HttpWatch)34-37
- 4.3.2 微博模擬登錄37-39
- 4.3.3 微博數(shù)據(jù)抓取39-43
- 4.3.4 微博數(shù)據(jù)解析43-44
- 4.3.5 微博數(shù)據(jù)存儲44
- 4.3.6 基于模擬瀏覽器行為爬取采集微博數(shù)據(jù)優(yōu)缺點44
- 4.4 數(shù)值實驗與結(jié)果分析44-48
- 4.4.1 實驗結(jié)果45-47
- 4.4.2 實驗分析47-48
- 4.5 本章小結(jié)48-49
- 第5章 基于目標(biāo)用戶微博內(nèi)容的興趣模型49-59
- 5.1 概述49-53
- 5.1.1 微博用戶內(nèi)容49-51
- 5.1.2 微博用戶自身信息與用戶興趣關(guān)系51-53
- 5.2 基于改進(jìn)的TF-IDF算法模型的微博用戶興趣關(guān)鍵詞抽取53-56
- 5.2.1 基本IDF詞典構(gòu)建及定時更新53
- 5.2.2 基于聯(lián)合興趣度的動態(tài)IDF詞典構(gòu)建53-55
- 5.2.3 基于微博內(nèi)容構(gòu)建用戶興趣關(guān)鍵詞研究55-56
- 5.3 數(shù)值實驗與結(jié)果分析56-58
- 5.4 本章小結(jié)58-59
- 第6章 基于關(guān)聯(lián)用戶微博內(nèi)容的興趣模型59-69
- 6.1 概述59-61
- 6.1.1 微博用戶關(guān)系59
- 6.1.2 關(guān)聯(lián)用戶微博內(nèi)容與目標(biāo)用戶的興趣關(guān)系59-61
- 6.2 基于關(guān)聯(lián)用戶微博內(nèi)容的興趣關(guān)鍵詞抽取61
- 6.3 廣義僵尸用戶識別61-66
- 6.3.1 廣義僵尸用戶特征分析和選擇63-65
- 6.3.2 廣義僵尸用戶識別分析65-66
- 6.4 微博關(guān)聯(lián)用戶重要性排名算法(RelationRank)66-68
- 6.4.1 RelationRank算法思想66
- 6.4.2 RelationRank算法具體實現(xiàn)66-68
- 6.5 本章小結(jié)68-69
- 第7章 微博用戶興趣挖掘平臺實現(xiàn)與應(yīng)用69-78
- 7.1 微博用戶興趣挖掘平臺總體設(shè)計69
- 7.1.1 平臺設(shè)計目標(biāo)69
- 7.1.2 平臺主要功能模塊69
- 7.2 微博用戶興趣挖掘平臺實現(xiàn)69-75
- 7.2.1 微博數(shù)據(jù)采集模塊69-70
- 7.2.2 基于目標(biāo)用戶微博內(nèi)容興趣關(guān)鍵詞構(gòu)建模塊70-72
- 7.2.3 基于關(guān)聯(lián)用戶微博內(nèi)容興趣關(guān)鍵詞構(gòu)建模塊72-74
- 7.2.4 興趣關(guān)鍵詞可視化模塊74-75
- 7.3 微博用戶興趣挖掘平臺實驗測試75-77
- 7.4 本章小結(jié)77-78
- 第8章 總結(jié)和展望78-79
- 8.1 研究工作總結(jié)78
- 8.2 進(jìn)一步研究展望78-79
- 參考文獻(xiàn)79-85
- 致謝85-86
- 附錄186-87
- 附錄287-89
- 附錄389-91
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李玲俐;;數(shù)據(jù)挖掘中分類算法綜述[J];重慶師范大學(xué)學(xué)報(自然科學(xué)版);2011年04期
2 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期
3 李華波;吳禮發(fā);賴海光;鄭成輝;黃康宇;;有效的爬行Ajax頁面的網(wǎng)絡(luò)爬行算法[J];電子科技大學(xué)學(xué)報;2013年01期
4 鐘思志;林秋霞;潘曉曉;傅仰耿;吳英杰;;基于Base64的URL參數(shù)壓縮算法[J];福州大學(xué)學(xué)報(自然科學(xué)版);2013年05期
5 張丹;;中文分詞算法綜述[J];黑龍江科技信息;2012年08期
6 劉遷;賈惠波;;中文信息處理中自動分詞技術(shù)的研究與展望[J];計算機(jī)工程與應(yīng)用;2006年03期
7 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計算機(jī)科學(xué);2011年S1期
8 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機(jī)科學(xué);2012年01期
9 唐亞偉;秦玉平;;基于數(shù)據(jù)挖掘的分類算法綜述[J];渤海大學(xué)學(xué)報(自然科學(xué)版);2011年04期
10 曹瑩;苗啟廣;劉家辰;高琳;;AdaBoost算法研究進(jìn)展與展望[J];自動化學(xué)報;2013年06期
本文關(guān)鍵詞:微博用戶興趣挖掘技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:325628
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/325628.html