互聯(lián)網(wǎng)環(huán)境下多源數(shù)據(jù)的特征分析與趨勢(shì)預(yù)測(cè)研究
發(fā)布時(shí)間:2020-05-04 18:00
【摘要】:當(dāng)前互聯(lián)網(wǎng)環(huán)境下,網(wǎng)民越來越習(xí)慣于使用搜索引擎查詢自身感興趣的資訊,也會(huì)使用微博、論壇等平臺(tái)來發(fā)表自己的觀點(diǎn)。網(wǎng)民群體的龐大使得他們?cè)诨ヂ?lián)網(wǎng)留下了大量的行為數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含在各個(gè)網(wǎng)絡(luò)平臺(tái)中。用戶在互聯(lián)網(wǎng)留下的行為數(shù)據(jù)具有對(duì)現(xiàn)實(shí)社會(huì)的指導(dǎo)意義。現(xiàn)實(shí)中某些指標(biāo)數(shù)據(jù)往往會(huì)因?yàn)槠浣y(tǒng)計(jì)流程的繁瑣不能及時(shí)發(fā)布。而此時(shí)互聯(lián)網(wǎng)數(shù)據(jù)卻能夠反映出該類指標(biāo)數(shù)據(jù)的走向。流感的病例數(shù)已經(jīng)被證明可以通過搜索引擎的搜索頻次進(jìn)行較為準(zhǔn)確的預(yù)估。此外,用戶群體在社交網(wǎng)絡(luò)留下的動(dòng)態(tài)數(shù)據(jù)也同樣被研究者們用于預(yù)測(cè)。綜合上述互聯(lián)網(wǎng)中的多源數(shù)據(jù)來改善現(xiàn)實(shí)指標(biāo)預(yù)測(cè)的準(zhǔn)確度是本文的研究重點(diǎn)。想要利用互聯(lián)網(wǎng)環(huán)境下龐大的用戶行為數(shù)據(jù)必須先篩選出對(duì)預(yù)測(cè)有指導(dǎo)意義的數(shù)據(jù)源。在獲得數(shù)據(jù)之后還需要對(duì)數(shù)據(jù)進(jìn)行特征分析,最后將分析結(jié)果用于模型訓(xùn)練和預(yù)測(cè)。所以論文的主要工作內(nèi)容包含如下幾點(diǎn):(1)研究了互聯(lián)網(wǎng)多源數(shù)據(jù)的采集與特征分析。以流感病例數(shù)的非直接相關(guān)互聯(lián)網(wǎng)數(shù)據(jù)為例,設(shè)計(jì)了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的采集與特征分析方案。其中的多源數(shù)據(jù)主要指的是搜索引擎數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)。該方法可以很好的篩選與目標(biāo)主題相關(guān)的互聯(lián)網(wǎng)數(shù)據(jù)并獲得其主要特征。(2)提出了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的組合預(yù)測(cè)模型,以流感樣病例數(shù)的預(yù)測(cè)為例。該模型從互聯(lián)網(wǎng)的不同數(shù)據(jù)源中分別訓(xùn)練預(yù)測(cè)模型,再基于得到的預(yù)測(cè)結(jié)果使用GBDT算法作為次級(jí)學(xué)習(xí)器進(jìn)行集成。該模型具有比只使用單一數(shù)據(jù)源的預(yù)測(cè)模型更好的預(yù)測(cè)效果。(3)以九寨溝游客量為例,證明采集分析方案和組合預(yù)測(cè)模型對(duì)其他現(xiàn)實(shí)指標(biāo)數(shù)據(jù)的應(yīng)用價(jià)值。在該實(shí)例上,組合預(yù)測(cè)模型的預(yù)測(cè)效果依然優(yōu)于只使用單一數(shù)據(jù)源的預(yù)測(cè)模型。(4)設(shè)計(jì)并實(shí)現(xiàn)了一種互聯(lián)網(wǎng)多源數(shù)據(jù)采集分析系統(tǒng)。并對(duì)系統(tǒng)進(jìn)行了測(cè)試,測(cè)試結(jié)果說明本方案能夠快速采集多源數(shù)據(jù)并訓(xùn)練模型,可以對(duì)模型的擬合及預(yù)測(cè)效果進(jìn)行對(duì)比分析。綜上所述,本文的主要研究內(nèi)容是給出了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的采集與特征分析方案,并在此基礎(chǔ)上提出了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的組合預(yù)測(cè)模型。
【圖文】:
圖 2-1 交叉驗(yàn)證思路常見的交叉驗(yàn)證種類有:(1)K 折交叉驗(yàn)證:K 折交叉驗(yàn)證需要將初始樣本數(shù)據(jù)集劃分為 K 個(gè)子樣本數(shù)據(jù)集。其中一個(gè)樣本子集作為測(cè)試集,其他的樣本子集用于訓(xùn)練。重復(fù)進(jìn)行 K 此訓(xùn)練,直到每個(gè)子樣本都被預(yù)測(cè)一次。該方法的優(yōu)點(diǎn)在于它重復(fù)利用了隨機(jī)生成的子樣本集進(jìn)行訓(xùn)練和驗(yàn)證。其中,,K 常常被取值為 10.(2)保持驗(yàn)證:也被稱為 hold-out 驗(yàn)證。該驗(yàn)證方法其實(shí)并沒有交叉的使用數(shù)據(jù),它隨機(jī)地選擇樣本劃分測(cè)試集與訓(xùn)練集。(3)留一驗(yàn)證:保留一個(gè)驗(yàn)證僅使用原始樣本中的一個(gè)樣本作為驗(yàn)證集,而其余的作為訓(xùn)練數(shù)據(jù)。繼續(xù)該步驟,直到將每個(gè)樣品視為驗(yàn)證數(shù)據(jù)。實(shí)際上,這相當(dāng)于 K 折交叉驗(yàn)證,其中 K 是原始樣本數(shù)。2.3 趨勢(shì)預(yù)測(cè)相關(guān)技術(shù)
圖 2-2Boosting 集成學(xué)習(xí)方法(2)Bagging:Bagging(bootstrapaggregating)是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù),主要思想是分別訓(xùn)練幾個(gè)不同的模型,然后讓所有模型給出測(cè)試樣例的輸出。該方法利用了模型平均這一特性,不同的模型往往不會(huì)在測(cè)試集上產(chǎn)生完全相同的誤差。該算法大致思路如下圖 2-3 所示。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.3
本文編號(hào):2648778
【圖文】:
圖 2-1 交叉驗(yàn)證思路常見的交叉驗(yàn)證種類有:(1)K 折交叉驗(yàn)證:K 折交叉驗(yàn)證需要將初始樣本數(shù)據(jù)集劃分為 K 個(gè)子樣本數(shù)據(jù)集。其中一個(gè)樣本子集作為測(cè)試集,其他的樣本子集用于訓(xùn)練。重復(fù)進(jìn)行 K 此訓(xùn)練,直到每個(gè)子樣本都被預(yù)測(cè)一次。該方法的優(yōu)點(diǎn)在于它重復(fù)利用了隨機(jī)生成的子樣本集進(jìn)行訓(xùn)練和驗(yàn)證。其中,,K 常常被取值為 10.(2)保持驗(yàn)證:也被稱為 hold-out 驗(yàn)證。該驗(yàn)證方法其實(shí)并沒有交叉的使用數(shù)據(jù),它隨機(jī)地選擇樣本劃分測(cè)試集與訓(xùn)練集。(3)留一驗(yàn)證:保留一個(gè)驗(yàn)證僅使用原始樣本中的一個(gè)樣本作為驗(yàn)證集,而其余的作為訓(xùn)練數(shù)據(jù)。繼續(xù)該步驟,直到將每個(gè)樣品視為驗(yàn)證數(shù)據(jù)。實(shí)際上,這相當(dāng)于 K 折交叉驗(yàn)證,其中 K 是原始樣本數(shù)。2.3 趨勢(shì)預(yù)測(cè)相關(guān)技術(shù)
圖 2-2Boosting 集成學(xué)習(xí)方法(2)Bagging:Bagging(bootstrapaggregating)是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù),主要思想是分別訓(xùn)練幾個(gè)不同的模型,然后讓所有模型給出測(cè)試樣例的輸出。該方法利用了模型平均這一特性,不同的模型往往不會(huì)在測(cè)試集上產(chǎn)生完全相同的誤差。該算法大致思路如下圖 2-3 所示。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 丁兆云;賈焰;周斌;;微博數(shù)據(jù)挖掘研究綜述[J];計(jì)算機(jī)研究與發(fā)展;2014年04期
2 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期
3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
4 劉洋;馮玉強(qiáng);邵真;;基于Bagging與決策樹算法的在線拍賣成交價(jià)格預(yù)測(cè)模型[J];系統(tǒng)工程理論與實(shí)踐;2009年12期
相關(guān)博士學(xué)位論文 前1條
1 田野;基于微博平臺(tái)的事件趨勢(shì)分析及預(yù)測(cè)研究[D];武漢大學(xué);2012年
本文編號(hào):2648778
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2648778.html
最近更新
教材專著