基于微博信息分析對旅游景點(diǎn)熱度預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于微博信息分析對旅游景點(diǎn)熱度預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:微博作為目前最流行的社會化網(wǎng)絡(luò)媒體,其對旅游景點(diǎn)熱度預(yù)測方面有一定的作用和意義,不僅可以幫助用戶在選擇游玩景點(diǎn)時提供決策參考的價值,還可以幫助商家給用戶提供個性化的旅游景點(diǎn)推薦,甚至在預(yù)防突發(fā)事件的發(fā)生上也有一定的重要作用。要想實(shí)現(xiàn)旅游景點(diǎn)熱度預(yù)測系統(tǒng),需要解決如下一些問題:一是,微博數(shù)據(jù)庫的數(shù)據(jù)量正在爆炸式的增長,其數(shù)據(jù)量之大,已經(jīng)超出了傳統(tǒng)的技術(shù)對數(shù)據(jù)的處理能力。二是,,傳統(tǒng)的關(guān)鍵詞提取算法只考慮關(guān)鍵詞與它出現(xiàn)的文本數(shù)之間的關(guān)系,但是忽略了關(guān)鍵詞在一個類別內(nèi)的分布情況,從而導(dǎo)致對微博中關(guān)鍵詞提取的準(zhǔn)確性下降問題。三是,為了得到有效關(guān)鍵用戶需要消除僵尸粉的干擾、廣告用戶的影響。四是,目前的相關(guān)研究都是針對過去的內(nèi)容或當(dāng)前的信息記錄,沒有做到預(yù)測性,因此需要設(shè)計(jì)相關(guān)算法。 面對以上的問題,本文首先通過設(shè)計(jì)算法來消除僵尸粉的干擾以及廣告用戶的影響來得到有效的關(guān)鍵用戶集合;其次,對海量微博信息進(jìn)行了分類,從中分離出有關(guān)旅游方面的微博,對得到的旅游相關(guān)微博信息進(jìn)行中文分詞,進(jìn)而使用改進(jìn)后的TF-IDF函數(shù)進(jìn)行詞語權(quán)值計(jì)算,得到在某段時間內(nèi)高頻的旅游類關(guān)鍵詞;然后通過對用戶之間的行為影響力的分析,結(jié)合關(guān)鍵用戶集合和高頻旅游類關(guān)鍵詞集合來分析計(jì)算旅游信息的傳播趨勢,從而可以預(yù)測旅游景點(diǎn)的熱度;最后將該系統(tǒng)移植到Hadoop分布式框架中。實(shí)驗(yàn)表明,該系統(tǒng)是有效可行的并且Hadoop框架能快速的處理海量數(shù)據(jù)。
【關(guān)鍵詞】:微博 Hadoop 海量數(shù)據(jù) 用戶影響力 旅游景點(diǎn)熱度預(yù)測
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-15
- 1.1 課題研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 微博關(guān)鍵詞提取10-11
- 1.2.2 微博用戶影響力11-13
- 1.3 課題研究的主要內(nèi)容13-14
- 1.4 論文結(jié)構(gòu)14-15
- 第二章 相關(guān)理論與技術(shù)15-25
- 2.1 云計(jì)算的相關(guān)介紹15-20
- 2.1.1 云計(jì)算的定義15-16
- 2.1.2 Hadoop 概述及集群高層體系結(jié)構(gòu)16-17
- 2.1.3 Hadoop 文件系統(tǒng)(HDFS)17-19
- 2.1.4 MapReduce 編程模型19-20
- 2.2 微博關(guān)鍵詞提取20-21
- 2.2.1 TF-IDF 算法的基本概念20
- 2.2.2 TF-IDF 算法的基本原理20-21
- 2.3 微博用戶21-22
- 2.3.1 僵尸粉的基本概念21-22
- 2.3.2 關(guān)鍵用戶的基本概念22
- 2.4 微博用戶影響力22-24
- 2.4.1 用戶影響力的基本概念22-23
- 2.4.2 用戶影響力的評價因素23-24
- 2.5 本章小結(jié)24-25
- 第三章 旅游景點(diǎn)熱度預(yù)測系統(tǒng)的需求分析與設(shè)計(jì)25-34
- 3.1 需求分析25
- 3.2 系統(tǒng)總體設(shè)計(jì)25-27
- 3.3 數(shù)據(jù)采集模塊的設(shè)計(jì)27
- 3.4 提取關(guān)鍵用戶模塊的設(shè)計(jì)27-30
- 3.4.1 消除僵尸粉干擾的算法設(shè)計(jì)28
- 3.4.2 關(guān)鍵用戶提取算法設(shè)計(jì)28-30
- 3.5 基于改進(jìn) TF-IDF 算法的高頻旅游類關(guān)鍵詞提取模塊的設(shè)計(jì)30-31
- 3.6 關(guān)鍵用戶行為影響力分析模塊的設(shè)計(jì)31-32
- 3.6.1 好友聯(lián)合影響概率的概念31
- 3.6.2 好友聯(lián)合影響概率計(jì)算方法31-32
- 3.7 旅游信息傳播趨勢分析模塊的設(shè)計(jì)32
- 3.8 本章小結(jié)32-34
- 第四章 旅游景點(diǎn)熱度預(yù)測系統(tǒng)的實(shí)現(xiàn)34-40
- 4.1 數(shù)據(jù)采集模塊的實(shí)現(xiàn)34-35
- 4.2 提取關(guān)鍵用戶模塊的實(shí)現(xiàn)35
- 4.3 基于改進(jìn) TF-IDF 算法的高頻旅游類關(guān)鍵詞提取模塊的實(shí)現(xiàn)35-37
- 4.4 關(guān)鍵用戶行為影響力模塊的實(shí)現(xiàn)37-38
- 4.5 旅游信息傳播趨勢分析模塊的實(shí)現(xiàn)38-39
- 4.6 本章小結(jié)39-40
- 第五章 實(shí)驗(yàn)與分析40-54
- 5.1 實(shí)驗(yàn)環(huán)境40
- 5.2 數(shù)據(jù)采集及存儲40-41
- 5.3 實(shí)驗(yàn)流程與結(jié)果分析41-50
- 5.3.1 獲得關(guān)鍵用戶41-42
- 5.3.2 獲得高頻旅游類關(guān)鍵詞42-45
- 5.3.3 獲得關(guān)鍵用戶行為影響力45-49
- 5.3.4 預(yù)測旅游景點(diǎn)熱度49-50
- 5.4 實(shí)驗(yàn)結(jié)果驗(yàn)證50-53
- 5.5 本章小結(jié)53-54
- 第六章 總結(jié)與展望54-57
- 6.1 本文完成的主要研究工作54-55
- 6.2 不足之處及后期工作展望55-57
- 致謝57-58
- 參考文獻(xiàn)58-61
- 附錄61-62
- 詳細(xì)摘要62-64
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王小妮;高學(xué)東;倪曉明;;基于云計(jì)算的分布式數(shù)據(jù)挖掘平臺架構(gòu)[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期
2 谷瓊;朱莉;蔡之華;袁紅星;;基于決策樹技術(shù)的高校研究生信息庫數(shù)據(jù)挖掘研究[J];電子技術(shù)應(yīng)用;2006年01期
3 梁爽;;基于SOA的云計(jì)算框架模型的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2011年35期
4 張建勛;古志民;鄭超;;云計(jì)算研究進(jìn)展綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年02期
5 劉非凡;趙軍;呂碧波;徐波;于浩;夏迎炬;;面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識別研究[J];中文信息學(xué)報(bào);2006年01期
6 韓法旺;;基于云計(jì)算模式的圖像檢索研究[J];情報(bào)科學(xué);2011年10期
7 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期
8 王曉光;;微博客用戶行為特征與關(guān)系特征實(shí)證分析——以“新浪微博”為例[J];圖書情報(bào)工作;2010年14期
9 李海蓉;;基于概念向量空間的文檔語義分類模型研究[J];圖書情報(bào)工作;2011年24期
10 平亮;宗利永;;基于社會網(wǎng)絡(luò)中心性分析的微博信息傳播研究——以Sina微博為例[J];圖書情報(bào)知識;2010年06期
本文關(guān)鍵詞:基于微博信息分析對旅游景點(diǎn)熱度預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:401986
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/401986.html