基于數(shù)據(jù)挖掘技術(shù)的信息分析方法研究——以集裝箱海運價格預(yù)測為例
發(fā)布時間:2021-11-17 15:46
【目的/意義】針對多組時間序列的海量數(shù)據(jù)集和以預(yù)測為目標(biāo)的信息分析方法,提出了基于數(shù)據(jù)挖掘技術(shù)的預(yù)測模型,在大數(shù)據(jù)環(huán)境下,提高了預(yù)測精度,以期在其他領(lǐng)域的信息分析和情報預(yù)測能有所借鑒!痉椒/過程】以集裝箱海運價格預(yù)測為例,提出集裝箱海運價格預(yù)測模型,設(shè)計自適應(yīng)的網(wǎng)格搜索策略,高效準(zhǔn)確地確定數(shù)據(jù)挖掘算法中的超參數(shù)組合,提出基于時間序列留出法的評估方法,降低了集裝箱運價這種多組時間序列數(shù)據(jù)集在數(shù)據(jù)挖掘結(jié)果上的泛化誤差,針對海量運價信息,對GBDT算法進行并行計算設(shè)計和預(yù)排序后的損失函數(shù)迭代計算優(yōu)化策略,提高了算法在大數(shù)據(jù)環(huán)境下的計算效率!窘Y(jié)果/結(jié)論】模型和算法運行結(jié)果仿真顯示:對于傳統(tǒng)的時間序列問題,基于數(shù)據(jù)挖掘方法的預(yù)測模型取得了比傳統(tǒng)時間序列方法更優(yōu)的結(jié)果。
【文章來源】:情報科學(xué). 2019,37(07)北大核心CSSCI
【文章頁數(shù)】:7 頁
【部分圖文】:
運價預(yù)測模型示意圖
ATEn就是第n周的輸出屬性,表征的是第n+1周相對于第n周運價的波動幅度。CLF被定義為決策建議,是指若運價預(yù)測模型的輸出結(jié)果是持平或上漲,那么建議用戶訂艙(值為1),否則建議暫時觀望(值為0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含義同上,CLFn表示第n周的決策情況。衍生后最終得到的數(shù)據(jù)集共包含39個屬性。44.5運價預(yù)測的效果4.5.1分類結(jié)果以歐洲線為例,其分析結(jié)果如表3所示,準(zhǔn)確率如圖6所示。表3分類模型預(yù)測結(jié)果示例(歐洲線)學(xué)習(xí)方法decisionTreeextratreeRandomForest驗證集準(zhǔn)確率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15測試集準(zhǔn)確率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100.03—94.0469.6871.3611.91—11.208.308.5077.9868.4577.9854.1758.0460.0444.9732.038.1322.287.155.363.810.972.65圖6分類模型預(yù)測準(zhǔn)確率分析示意圖分類算法當(dāng)中KNN和采用RBF核的支持向量機模型在準(zhǔn)確率和泛化性上表現(xiàn)最為優(yōu)越,驗證集準(zhǔn)確率達到79.17%,測試集上達到77.98%。4.5.2回歸結(jié)果回歸預(yù)測結(jié)果如表4所示,誤差分析如圖7所示。表4回歸模型預(yù)測結(jié)果示例(歐洲線)學(xué)習(xí)方法LassoRidgeRegressionSVRAdaboostLinearModleRandomForestExtraTreeGBDT驗證集MSE444.15496.43446.69357.76712.97
EDA分析,包括各航線數(shù)據(jù)占比分析、各航線運價箱型圖分析、各航線運價走勢分析等,其中箱型圖如圖5所示。圖5各航線運價箱型圖44.4維度衍生為了提高預(yù)測精度,針對特征屬性衍生了基于運價的橫向同期指標(biāo)、縱向歷史指標(biāo)、歷史變化指標(biāo),基于起始港和目的港衍生的距離屬性等;針對預(yù)測目標(biāo)衍生了三類,分別為PRICE_NEXT_WEEK(下一周運價)、CHANGE_RATE(漲跌幅)和CLF。PRICE_NEXT_WEEK為中間結(jié)果,CHANGE_RATE(漲跌幅)定義如下:CHANGE_RATEn=pricen+1-pricenpricenpricen+1是第n+1周的運價,pricen是第n周的運價,CHANGE_RATEn就是第n周的輸出屬性,表征的是第n+1周相對于第n周運價的波動幅度。CLF被定義為決策建議,是指若運價預(yù)測模型的輸出結(jié)果是持平或上漲,那么建議用戶訂艙(值為1),否則建議暫時觀望(值為0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含義同上,CLFn表示第n周的決策情況。衍生后最終得到的數(shù)據(jù)集共包含39個屬性。44.5運價預(yù)測的效果4.5.1分類結(jié)果以歐洲線為例,其分析結(jié)果如表3所示,準(zhǔn)確率如圖6所示。表3分類模型預(yù)測結(jié)果示例(歐洲線)學(xué)習(xí)方法decisionTreeextratreeRandomForest驗證集準(zhǔn)確率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15測試集準(zhǔn)確率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)時代下的情報分析與挖掘技術(shù)研究——電信客戶流失情況分析[J]. 王曉佳,楊善林,陳志強. 情報學(xué)報. 2013 (06)
[2]基于BP神經(jīng)網(wǎng)絡(luò)的干散貨航運市場運價預(yù)警[J]. 朱小婷,林國龍. 水運管理. 2012(04)
[3]運用神經(jīng)網(wǎng)絡(luò)模型預(yù)測鐵礦石即期海運運價[J]. 尚介麗,駱溫平. 水運管理. 2012(04)
[4]基于支持向量機的干散貨航運市場運價預(yù)警[J]. 楊華龍,東方. 中國航海. 2009(03)
[5]神經(jīng)網(wǎng)絡(luò)在波羅的海運價指數(shù)預(yù)測中的應(yīng)用研究[J]. 曾慶成. 大連海事大學(xué)學(xué)報. 2004(03)
[6]海運價格指數(shù)的波動規(guī)律[J]. 呂靖,陳慶輝. 大連海事大學(xué)學(xué)報. 2003(01)
碩士論文
[1]基于小波分析和神經(jīng)網(wǎng)絡(luò)的BFI預(yù)測研究[D]. 徐萍.大連海事大學(xué) 2006
本文編號:3501221
【文章來源】:情報科學(xué). 2019,37(07)北大核心CSSCI
【文章頁數(shù)】:7 頁
【部分圖文】:
運價預(yù)測模型示意圖
ATEn就是第n周的輸出屬性,表征的是第n+1周相對于第n周運價的波動幅度。CLF被定義為決策建議,是指若運價預(yù)測模型的輸出結(jié)果是持平或上漲,那么建議用戶訂艙(值為1),否則建議暫時觀望(值為0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含義同上,CLFn表示第n周的決策情況。衍生后最終得到的數(shù)據(jù)集共包含39個屬性。44.5運價預(yù)測的效果4.5.1分類結(jié)果以歐洲線為例,其分析結(jié)果如表3所示,準(zhǔn)確率如圖6所示。表3分類模型預(yù)測結(jié)果示例(歐洲線)學(xué)習(xí)方法decisionTreeextratreeRandomForest驗證集準(zhǔn)確率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15測試集準(zhǔn)確率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100.03—94.0469.6871.3611.91—11.208.308.5077.9868.4577.9854.1758.0460.0444.9732.038.1322.287.155.363.810.972.65圖6分類模型預(yù)測準(zhǔn)確率分析示意圖分類算法當(dāng)中KNN和采用RBF核的支持向量機模型在準(zhǔn)確率和泛化性上表現(xiàn)最為優(yōu)越,驗證集準(zhǔn)確率達到79.17%,測試集上達到77.98%。4.5.2回歸結(jié)果回歸預(yù)測結(jié)果如表4所示,誤差分析如圖7所示。表4回歸模型預(yù)測結(jié)果示例(歐洲線)學(xué)習(xí)方法LassoRidgeRegressionSVRAdaboostLinearModleRandomForestExtraTreeGBDT驗證集MSE444.15496.43446.69357.76712.97
EDA分析,包括各航線數(shù)據(jù)占比分析、各航線運價箱型圖分析、各航線運價走勢分析等,其中箱型圖如圖5所示。圖5各航線運價箱型圖44.4維度衍生為了提高預(yù)測精度,針對特征屬性衍生了基于運價的橫向同期指標(biāo)、縱向歷史指標(biāo)、歷史變化指標(biāo),基于起始港和目的港衍生的距離屬性等;針對預(yù)測目標(biāo)衍生了三類,分別為PRICE_NEXT_WEEK(下一周運價)、CHANGE_RATE(漲跌幅)和CLF。PRICE_NEXT_WEEK為中間結(jié)果,CHANGE_RATE(漲跌幅)定義如下:CHANGE_RATEn=pricen+1-pricenpricenpricen+1是第n+1周的運價,pricen是第n周的運價,CHANGE_RATEn就是第n周的輸出屬性,表征的是第n+1周相對于第n周運價的波動幅度。CLF被定義為決策建議,是指若運價預(yù)測模型的輸出結(jié)果是持平或上漲,那么建議用戶訂艙(值為1),否則建議暫時觀望(值為0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含義同上,CLFn表示第n周的決策情況。衍生后最終得到的數(shù)據(jù)集共包含39個屬性。44.5運價預(yù)測的效果4.5.1分類結(jié)果以歐洲線為例,其分析結(jié)果如表3所示,準(zhǔn)確率如圖6所示。表3分類模型預(yù)測結(jié)果示例(歐洲線)學(xué)習(xí)方法decisionTreeextratreeRandomForest驗證集準(zhǔn)確率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15測試集準(zhǔn)確率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)時代下的情報分析與挖掘技術(shù)研究——電信客戶流失情況分析[J]. 王曉佳,楊善林,陳志強. 情報學(xué)報. 2013 (06)
[2]基于BP神經(jīng)網(wǎng)絡(luò)的干散貨航運市場運價預(yù)警[J]. 朱小婷,林國龍. 水運管理. 2012(04)
[3]運用神經(jīng)網(wǎng)絡(luò)模型預(yù)測鐵礦石即期海運運價[J]. 尚介麗,駱溫平. 水運管理. 2012(04)
[4]基于支持向量機的干散貨航運市場運價預(yù)警[J]. 楊華龍,東方. 中國航海. 2009(03)
[5]神經(jīng)網(wǎng)絡(luò)在波羅的海運價指數(shù)預(yù)測中的應(yīng)用研究[J]. 曾慶成. 大連海事大學(xué)學(xué)報. 2004(03)
[6]海運價格指數(shù)的波動規(guī)律[J]. 呂靖,陳慶輝. 大連海事大學(xué)學(xué)報. 2003(01)
碩士論文
[1]基于小波分析和神經(jīng)網(wǎng)絡(luò)的BFI預(yù)測研究[D]. 徐萍.大連海事大學(xué) 2006
本文編號:3501221
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3501221.html
最近更新
教材專著