基于推薦算法的微博個人數(shù)據(jù)可視化
發(fā)布時間:2022-03-12 07:08
微博已經(jīng)成為了人們獲取信息、分享觀點的重要平臺,海量數(shù)據(jù)背后蘊藏著巨大的學術研究價值。因此,本文以微博為研究對象,圍繞微博數(shù)據(jù)的采集、挖掘、可視化進行研究,設計并實現(xiàn)基于推薦算法的微博個人數(shù)據(jù)可視化系統(tǒng)。本文中設計并實現(xiàn)了三個主要子系統(tǒng):數(shù)據(jù)采集子系統(tǒng)、關系計算子系統(tǒng)、可視化展示子系統(tǒng)。數(shù)據(jù)采集子系統(tǒng)通過模擬登陸的方法來解決身份認證問題。關系計算子系統(tǒng)對原始數(shù)據(jù)進行處理轉化為可視化數(shù)據(jù)。系統(tǒng)重點實現(xiàn)了微博用戶關系計算模塊,我們利用推薦算法來計算關系度用于衡量兩個人之間的關系。子系統(tǒng)中還利用TF-IDF算法提取微博關鍵字。可視化子系統(tǒng)系統(tǒng),可視化子系統(tǒng)由瀏覽器呈現(xiàn)數(shù)據(jù)挖掘結果。本文中采用柱狀圖、折線圖、極坐標、地圖、標簽云以及關系圖來呈現(xiàn)數(shù)據(jù)分析結果。本文中主要貢獻和創(chuàng)新點包括:(1)設計并實現(xiàn)了微博數(shù)據(jù)采集、關系計算、個人信息可視化系統(tǒng)。搭建的系統(tǒng)實現(xiàn)了用戶關系度的計算和微博用戶分析的功能,為后續(xù)研究提供基礎平臺。同時在系統(tǒng)中我們使用Redis數(shù)據(jù)庫作為數(shù)據(jù)處理的緩存,減少系統(tǒng)響應時間。(2)系統(tǒng)實現(xiàn)了利用推薦算法來衡量關系度,利用SVM算法進行模型建立,通過各個分類的概率來進行關系度...
【文章來源】:天津大學天津市211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 概述
1.1 背景介紹
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 課題簡介
1.4 論文主要工作和組織結構
第2章 相關研究工作
2.1 推薦算法
2.1.1 基于內(nèi)容的推薦算法
2.1.2 協(xié)同過濾推薦算法
2.1.3 混合推薦算法
2.1.4 其它推薦算法
2.2 TF-IDF算法
2.3 信息可視化
2.3.1 平行坐標可視化
2.3.2 圖表可視化
2.3.3 地圖可視化
2.3.4 標簽云可視化
2.4 數(shù)據(jù)采集
2.4.1 通過微博API采集
2.4.2 通過網(wǎng)絡爬蟲采集
2.5 本章小結
第3章 推薦算法和TF-IDF算法的應用
3.1 基于內(nèi)容的推薦算法在微博關系中的應用
3.1.1 算法基本原理
3.1.2 目標用戶配置模板的建立
3.1.3 關系度計算
3.2 TF-IDF算法的應用
3.3 本章小結
第4章 系統(tǒng)設計與實現(xiàn)
4.1 需求分析
4.1.1 數(shù)據(jù)采集需求
4.1.2 數(shù)據(jù)處理與分析需求
4.1.3 可視化展示需求
4.2 系統(tǒng)架構設計
4.3 功能模塊詳細設計
4.3.1 數(shù)據(jù)庫子系統(tǒng)
4.3.2 數(shù)據(jù)采集子系統(tǒng)
4.3.3 關系計算子系統(tǒng)
4.3.4 可視化展示子系統(tǒng)
4.4 本章小結
第5章 系統(tǒng)介紹與可視化展示
5.1 使用技術
5.1.1 FlaskWeb框架
5.1.2 MySQL數(shù)據(jù)庫
5.1.3 Redis數(shù)據(jù)庫
5.1.4 Echarts可視化組件
5.2 可視化展示
5.2.1 關系可視化
5.2.2 關系度分數(shù)可視化
5.2.3 地域分布可視化
5.2.4 微博發(fā)送時間可視化
5.2.5 性別可視化
5.2.6 關鍵詞可視化
5.3 本章小結
第6章 總結與展望
6.1 總結
6.2 展望
參考文獻
發(fā)表論文和參加科研情況說明
致謝
【參考文獻】:
期刊論文
[1]面向微博主題的可視分析研究[J]. 王臻皇,陳思明,袁曉如. 軟件學報. 2018(04)
[2]基于文本挖掘的微博文本情緒分析技術研究[J]. 戴天翔,岑鑫,柳珺文,王帥,歐陽帆. 科技資訊. 2017(07)
[3]基于時序行為的協(xié)同過濾推薦算法[J]. 孫光福,吳樂,劉淇,朱琛,陳恩紅. 軟件學報. 2013(11)
[4]基于項目流行度的協(xié)同過濾TopN推薦算法[J]. 郝立燕,王靖. 計算機工程與設計. 2013(10)
[5]國內(nèi)微博研究綜述[J]. 周金元,張莎莎,劉桂鋒,王振. 情報雜志. 2013(09)
[6]大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J]. 孟小峰,慈祥. 計算機研究與發(fā)展. 2013(01)
[7]使用機器學習方法進行新聞的情感自動分類[J]. 徐軍,丁宇新,王曉龍. 中文信息學報. 2007(06)
[8]從科學計算可視化到信息可視化[J]. 楊峰. 情報雜志. 2007(01)
[9]基于領域知識的個性化推薦算法研究[J]. 張丙奇. 計算機工程. 2005(21)
[10]個性化推薦算法設計[J]. 趙亮,胡乃靜,張守志. 計算機研究與發(fā)展. 2002(08)
本文編號:3645840
【文章來源】:天津大學天津市211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 概述
1.1 背景介紹
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 課題簡介
1.4 論文主要工作和組織結構
第2章 相關研究工作
2.1 推薦算法
2.1.1 基于內(nèi)容的推薦算法
2.1.2 協(xié)同過濾推薦算法
2.1.3 混合推薦算法
2.1.4 其它推薦算法
2.2 TF-IDF算法
2.3 信息可視化
2.3.1 平行坐標可視化
2.3.2 圖表可視化
2.3.3 地圖可視化
2.3.4 標簽云可視化
2.4 數(shù)據(jù)采集
2.4.1 通過微博API采集
2.4.2 通過網(wǎng)絡爬蟲采集
2.5 本章小結
第3章 推薦算法和TF-IDF算法的應用
3.1 基于內(nèi)容的推薦算法在微博關系中的應用
3.1.1 算法基本原理
3.1.2 目標用戶配置模板的建立
3.1.3 關系度計算
3.2 TF-IDF算法的應用
3.3 本章小結
第4章 系統(tǒng)設計與實現(xiàn)
4.1 需求分析
4.1.1 數(shù)據(jù)采集需求
4.1.2 數(shù)據(jù)處理與分析需求
4.1.3 可視化展示需求
4.2 系統(tǒng)架構設計
4.3 功能模塊詳細設計
4.3.1 數(shù)據(jù)庫子系統(tǒng)
4.3.2 數(shù)據(jù)采集子系統(tǒng)
4.3.3 關系計算子系統(tǒng)
4.3.4 可視化展示子系統(tǒng)
4.4 本章小結
第5章 系統(tǒng)介紹與可視化展示
5.1 使用技術
5.1.1 FlaskWeb框架
5.1.2 MySQL數(shù)據(jù)庫
5.1.3 Redis數(shù)據(jù)庫
5.1.4 Echarts可視化組件
5.2 可視化展示
5.2.1 關系可視化
5.2.2 關系度分數(shù)可視化
5.2.3 地域分布可視化
5.2.4 微博發(fā)送時間可視化
5.2.5 性別可視化
5.2.6 關鍵詞可視化
5.3 本章小結
第6章 總結與展望
6.1 總結
6.2 展望
參考文獻
發(fā)表論文和參加科研情況說明
致謝
【參考文獻】:
期刊論文
[1]面向微博主題的可視分析研究[J]. 王臻皇,陳思明,袁曉如. 軟件學報. 2018(04)
[2]基于文本挖掘的微博文本情緒分析技術研究[J]. 戴天翔,岑鑫,柳珺文,王帥,歐陽帆. 科技資訊. 2017(07)
[3]基于時序行為的協(xié)同過濾推薦算法[J]. 孫光福,吳樂,劉淇,朱琛,陳恩紅. 軟件學報. 2013(11)
[4]基于項目流行度的協(xié)同過濾TopN推薦算法[J]. 郝立燕,王靖. 計算機工程與設計. 2013(10)
[5]國內(nèi)微博研究綜述[J]. 周金元,張莎莎,劉桂鋒,王振. 情報雜志. 2013(09)
[6]大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J]. 孟小峰,慈祥. 計算機研究與發(fā)展. 2013(01)
[7]使用機器學習方法進行新聞的情感自動分類[J]. 徐軍,丁宇新,王曉龍. 中文信息學報. 2007(06)
[8]從科學計算可視化到信息可視化[J]. 楊峰. 情報雜志. 2007(01)
[9]基于領域知識的個性化推薦算法研究[J]. 張丙奇. 計算機工程. 2005(21)
[10]個性化推薦算法設計[J]. 趙亮,胡乃靜,張守志. 計算機研究與發(fā)展. 2002(08)
本文編號:3645840
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3645840.html
最近更新
教材專著