基于微博信息分析對旅游景點熱度預測系統(tǒng)的設計與實現(xiàn)
本文關鍵詞:基于微博信息分析對旅游景點熱度預測系統(tǒng)的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:微博作為目前最流行的社會化網絡媒體,其對旅游景點熱度預測方面有一定的作用和意義,不僅可以幫助用戶在選擇游玩景點時提供決策參考的價值,還可以幫助商家給用戶提供個性化的旅游景點推薦,甚至在預防突發(fā)事件的發(fā)生上也有一定的重要作用。要想實現(xiàn)旅游景點熱度預測系統(tǒng),需要解決如下一些問題:一是,微博數(shù)據(jù)庫的數(shù)據(jù)量正在爆炸式的增長,其數(shù)據(jù)量之大,已經超出了傳統(tǒng)的技術對數(shù)據(jù)的處理能力。二是,,傳統(tǒng)的關鍵詞提取算法只考慮關鍵詞與它出現(xiàn)的文本數(shù)之間的關系,但是忽略了關鍵詞在一個類別內的分布情況,從而導致對微博中關鍵詞提取的準確性下降問題。三是,為了得到有效關鍵用戶需要消除僵尸粉的干擾、廣告用戶的影響。四是,目前的相關研究都是針對過去的內容或當前的信息記錄,沒有做到預測性,因此需要設計相關算法。 面對以上的問題,本文首先通過設計算法來消除僵尸粉的干擾以及廣告用戶的影響來得到有效的關鍵用戶集合;其次,對海量微博信息進行了分類,從中分離出有關旅游方面的微博,對得到的旅游相關微博信息進行中文分詞,進而使用改進后的TF-IDF函數(shù)進行詞語權值計算,得到在某段時間內高頻的旅游類關鍵詞;然后通過對用戶之間的行為影響力的分析,結合關鍵用戶集合和高頻旅游類關鍵詞集合來分析計算旅游信息的傳播趨勢,從而可以預測旅游景點的熱度;最后將該系統(tǒng)移植到Hadoop分布式框架中。實驗表明,該系統(tǒng)是有效可行的并且Hadoop框架能快速的處理海量數(shù)據(jù)。
【關鍵詞】:微博 Hadoop 海量數(shù)據(jù) 用戶影響力 旅游景點熱度預測
【學位授予單位】:杭州電子科技大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-15
- 1.1 課題研究背景及意義9-10
- 1.2 國內外研究現(xiàn)狀10-13
- 1.2.1 微博關鍵詞提取10-11
- 1.2.2 微博用戶影響力11-13
- 1.3 課題研究的主要內容13-14
- 1.4 論文結構14-15
- 第二章 相關理論與技術15-25
- 2.1 云計算的相關介紹15-20
- 2.1.1 云計算的定義15-16
- 2.1.2 Hadoop 概述及集群高層體系結構16-17
- 2.1.3 Hadoop 文件系統(tǒng)(HDFS)17-19
- 2.1.4 MapReduce 編程模型19-20
- 2.2 微博關鍵詞提取20-21
- 2.2.1 TF-IDF 算法的基本概念20
- 2.2.2 TF-IDF 算法的基本原理20-21
- 2.3 微博用戶21-22
- 2.3.1 僵尸粉的基本概念21-22
- 2.3.2 關鍵用戶的基本概念22
- 2.4 微博用戶影響力22-24
- 2.4.1 用戶影響力的基本概念22-23
- 2.4.2 用戶影響力的評價因素23-24
- 2.5 本章小結24-25
- 第三章 旅游景點熱度預測系統(tǒng)的需求分析與設計25-34
- 3.1 需求分析25
- 3.2 系統(tǒng)總體設計25-27
- 3.3 數(shù)據(jù)采集模塊的設計27
- 3.4 提取關鍵用戶模塊的設計27-30
- 3.4.1 消除僵尸粉干擾的算法設計28
- 3.4.2 關鍵用戶提取算法設計28-30
- 3.5 基于改進 TF-IDF 算法的高頻旅游類關鍵詞提取模塊的設計30-31
- 3.6 關鍵用戶行為影響力分析模塊的設計31-32
- 3.6.1 好友聯(lián)合影響概率的概念31
- 3.6.2 好友聯(lián)合影響概率計算方法31-32
- 3.7 旅游信息傳播趨勢分析模塊的設計32
- 3.8 本章小結32-34
- 第四章 旅游景點熱度預測系統(tǒng)的實現(xiàn)34-40
- 4.1 數(shù)據(jù)采集模塊的實現(xiàn)34-35
- 4.2 提取關鍵用戶模塊的實現(xiàn)35
- 4.3 基于改進 TF-IDF 算法的高頻旅游類關鍵詞提取模塊的實現(xiàn)35-37
- 4.4 關鍵用戶行為影響力模塊的實現(xiàn)37-38
- 4.5 旅游信息傳播趨勢分析模塊的實現(xiàn)38-39
- 4.6 本章小結39-40
- 第五章 實驗與分析40-54
- 5.1 實驗環(huán)境40
- 5.2 數(shù)據(jù)采集及存儲40-41
- 5.3 實驗流程與結果分析41-50
- 5.3.1 獲得關鍵用戶41-42
- 5.3.2 獲得高頻旅游類關鍵詞42-45
- 5.3.3 獲得關鍵用戶行為影響力45-49
- 5.3.4 預測旅游景點熱度49-50
- 5.4 實驗結果驗證50-53
- 5.5 本章小結53-54
- 第六章 總結與展望54-57
- 6.1 本文完成的主要研究工作54-55
- 6.2 不足之處及后期工作展望55-57
- 致謝57-58
- 參考文獻58-61
- 附錄61-62
- 詳細摘要62-64
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王小妮;高學東;倪曉明;;基于云計算的分布式數(shù)據(jù)挖掘平臺架構[J];北京信息科技大學學報(自然科學版);2011年05期
2 谷瓊;朱莉;蔡之華;袁紅星;;基于決策樹技術的高校研究生信息庫數(shù)據(jù)挖掘研究[J];電子技術應用;2006年01期
3 梁爽;;基于SOA的云計算框架模型的研究與實現(xiàn)[J];計算機工程與應用;2011年35期
4 張建勛;古志民;鄭超;;云計算研究進展綜述[J];計算機應用研究;2010年02期
5 劉非凡;趙軍;呂碧波;徐波;于浩;夏迎炬;;面向商務信息抽取的產品命名實體識別研究[J];中文信息學報;2006年01期
6 韓法旺;;基于云計算模式的圖像檢索研究[J];情報科學;2011年10期
7 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學學報(自然科學版);2011年10期
8 王曉光;;微博客用戶行為特征與關系特征實證分析——以“新浪微博”為例[J];圖書情報工作;2010年14期
9 李海蓉;;基于概念向量空間的文檔語義分類模型研究[J];圖書情報工作;2011年24期
10 平亮;宗利永;;基于社會網絡中心性分析的微博信息傳播研究——以Sina微博為例[J];圖書情報知識;2010年06期
本文關鍵詞:基于微博信息分析對旅游景點熱度預測系統(tǒng)的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:401986
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/401986.html