基于機器學習的政府采購電商大數(shù)據(jù)標定與評價
發(fā)布時間:2022-12-07 21:12
政府采購商城是各地政府在互聯(lián)網(wǎng)上的采購平臺,每天要處理大量供貨電商數(shù)據(jù)。面對數(shù)據(jù)來源各異、品類眾多且書寫格式無統(tǒng)一規(guī)范等問題,傳統(tǒng)處理手段不僅費時費力,而且處理結(jié)果不理想。本文基于機器學習開展政府采購電商大數(shù)據(jù)的獲取、標定與評價研究,實現(xiàn)政采數(shù)據(jù)快速獲取、同一商品準確標定、利用同一商品歷史價格有效預測并評價供貨商新報價等,推進機器學習在政府電子采購領域的應用,協(xié)助政府智能監(jiān)控商品質(zhì)量與價格,減少人為因素干擾及管理成本,降低采購交易價格,提高采購效率增強采購及時性,確保政府采購商城、供貨電商以及采購人三方合作共贏。本文開展的研究工作如下:首先,分析政府采購電商大數(shù)據(jù)的多樣性來源與差異化特點,設計并實現(xiàn)數(shù)據(jù)采集程序來定向快速獲取各政采商城網(wǎng)頁上的電商數(shù)據(jù)。程序獲取過程中能避免政采網(wǎng)頁間差異性、能自動過濾重復網(wǎng)頁、能自動篩選出各類商品,并以品類名稱分類存儲所獲取的電商數(shù)據(jù),方便后續(xù)通過多種不同形式查詢調(diào)用所保存數(shù)據(jù)。實驗結(jié)果表明,每天能夠?qū)崟r采集更新政府采購電商有效數(shù)據(jù)數(shù)量達20萬條以上,為后續(xù)商品同一性標定以及報價預測及合理性評價提供數(shù)據(jù)支持。然后,提出一種基于長短時記憶網(wǎng)絡(Long S...
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)頁數(shù)據(jù)采集研究現(xiàn)狀
1.2.2 文本關鍵詞提取及相似度計算研究現(xiàn)狀
1.2.3 時間序列預測研究現(xiàn)狀
1.2.4 電商大數(shù)據(jù)應用現(xiàn)狀
1.3 論文主要工作和結(jié)構(gòu)
第2章 政府采購電商大數(shù)據(jù)獲取及整理
2.1 引言
2.2 政府采購電商大數(shù)據(jù)來源與特點
2.3 政府采購電商大數(shù)據(jù)采集程序編寫
2.3.1 程序編寫相關技術簡介
2.3.2 程序設計路線
2.3.3 程序運行方式
2.3.4 程序測試環(huán)境
2.4 政府采購電商大數(shù)據(jù)采集過程與結(jié)果
2.4.1 采集過程
2.4.2 采集結(jié)果分析
2.5 本章小結(jié)
第3章 政府采購電商大數(shù)據(jù)同一性標定研究
3.1 引言
3.2 基于LSTM的同一性標定模型構(gòu)建
3.2.1 長短時記憶網(wǎng)絡簡介
3.2.2 模型整體架構(gòu)
3.3 分詞子模型構(gòu)建
3.4 LSTM重要性排序子模型構(gòu)建
3.4.1 GloVe詞向量化
3.4.2 引入Glo Ve詞向量的LSTM重要性排序子模型
3.5 LSTM相似度計算子模型構(gòu)建
3.5.1 LSTM相似度計算子模型概述
3.5.2 在子模型中引入詞序列語義校驗
3.5.3 在子模型中引入二分法查找
3.6 學習樣本制備
3.6.1 政府采購電商大數(shù)據(jù)整理與預處理
3.6.2 LSTM重要性排序子模型的學習樣本制備
3.6.3 LSTM相似度計算子模型的學習樣本制備
3.7 同一性標定模型訓練
3.7.1 模型訓練策略
3.7.2 LSTM重要性排序子模型訓練
3.7.3 LSTM相似度計算子模型訓練
3.8 實驗結(jié)果及分析
3.8.1 實驗一:兩個子模型與傳統(tǒng)模型對比實驗
3.8.2 實驗二:模型性能測試實驗
3.9 本章小結(jié)
第4章 政府采購電商大數(shù)據(jù)報價預測及合理性評價
4.1 引言
4.2 商品報價可視化及預處理
4.2.1 python可視化工具簡介
4.2.2 基于matplotlib的報價可視化
4.2.3 報價初步分析及空缺值處理
4.3 報價數(shù)據(jù)聚類及平穩(wěn)性分析
4.3.1 K-means、凝聚層次聚類、基于密度聚類簡介
4.3.2 報價聚類結(jié)果分析
4.3.3 擴展迪基-福勒檢驗簡介
4.3.4 平穩(wěn)性檢驗結(jié)果分析
4.4 ARIMA與 SVM報價數(shù)據(jù)擬合及分析
4.4.1 差分自回歸移動平均模型簡介
4.4.2 支持向量機簡介
4.4.3 擬合結(jié)果分析
4.5 高斯過程與高斯過程混合模型報價數(shù)據(jù)擬合及分析
4.5.1 高斯過程模型簡介
4.5.2 高斯過程混合模型簡介
4.5.3 擬合結(jié)果分析
4.6 基于高斯過程混合模型報價預測及合理性評價
4.7 本章小結(jié)
第5章 總結(jié)與展望
5.1 研究總結(jié)
5.2 研究展望
致謝
參考文獻
附錄
【參考文獻】:
期刊論文
[1]基于加權TextRank的文本關鍵詞提取方法[J]. 徐立. 計算機科學. 2019(S1)
[2]融合耦合距離區(qū)分度和強類別特征的短文本相似度計算方法[J]. 馬慧芳,劉文,李志欣,藺想紅. 電子學報. 2019(06)
[3]邁上現(xiàn)代治理新臺階的中國政府采購制度——回顧與展望(下)[J]. 姜愛華,馬海濤. 中國政府采購. 2019(03)
[4]邁上現(xiàn)代治理新臺階的中國政府采購制度——回顧與展望(中)[J]. 姜愛華,馬海濤. 中國政府采購. 2019(02)
[5]邁上現(xiàn)代治理新臺階的中國政府采購制度——回顧與展望(上)[J]. 姜愛華,馬海濤. 中國政府采購. 2019(01)
[6]時間序列預測方法綜述[J]. 楊海民,潘志松,白瑋. 計算機科學. 2019(01)
[7]基于網(wǎng)絡輿情分析的電子商務產(chǎn)品價格預測模型[J]. 楊茂保. 合作經(jīng)濟與科技. 2018(11)
[8]基于Scrapy技術的數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)[J]. 楊君,陳春玲,余瀚. 計算機技術與發(fā)展. 2018(10)
[9]基于LSTM循環(huán)神經(jīng)網(wǎng)絡的故障時間序列預測[J]. 王鑫,吳際,劉超,楊海燕,杜艷麗,牛文生. 北京航空航天大學學報. 2018(04)
[10]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學. 2017(09)
碩士論文
[1]基于圖與LDA的中文文本關鍵詞提取算法[D]. 郭慶.北京郵電大學 2019
[2]基于互聯(lián)網(wǎng)技術的高校節(jié)能平臺數(shù)據(jù)采集系統(tǒng)設計與實現(xiàn)[D]. 桂永娟.齊魯工業(yè)大學 2019
[3]基于網(wǎng)頁數(shù)據(jù)挖掘的高鐵出游影響因素研究[D]. 吳瑞.長安大學 2019
[4]基于業(yè)務插件化的電商大數(shù)據(jù)采集系統(tǒng)[D]. 李天琦.浙江工業(yè)大學 2019
[5]基于經(jīng)驗模態(tài)分解的時間序列預測研究[D]. 成小林.大連理工大學 2018
[6]互聯(lián)網(wǎng)氣象水文數(shù)據(jù)定向采集系統(tǒng)設計與實現(xiàn)[D]. 李杰.國防科技大學 2018
[7]面向電商領域的關鍵詞提取技術研究[D]. 樊繼康.哈爾濱工業(yè)大學 2018
[8]基于Django的生鮮電商系統(tǒng)的研究與開發(fā)[D]. 陳毅.東華大學 2018
[9]社交網(wǎng)絡數(shù)據(jù)采集方法研究及系統(tǒng)實現(xiàn)[D]. 楊杰.電子科技大學 2018
[10]基于視覺塊識別的網(wǎng)頁元數(shù)據(jù)提取方法[D]. 孫景春.東南大學 2017
本文編號:3712862
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)頁數(shù)據(jù)采集研究現(xiàn)狀
1.2.2 文本關鍵詞提取及相似度計算研究現(xiàn)狀
1.2.3 時間序列預測研究現(xiàn)狀
1.2.4 電商大數(shù)據(jù)應用現(xiàn)狀
1.3 論文主要工作和結(jié)構(gòu)
第2章 政府采購電商大數(shù)據(jù)獲取及整理
2.1 引言
2.2 政府采購電商大數(shù)據(jù)來源與特點
2.3 政府采購電商大數(shù)據(jù)采集程序編寫
2.3.1 程序編寫相關技術簡介
2.3.2 程序設計路線
2.3.3 程序運行方式
2.3.4 程序測試環(huán)境
2.4 政府采購電商大數(shù)據(jù)采集過程與結(jié)果
2.4.1 采集過程
2.4.2 采集結(jié)果分析
2.5 本章小結(jié)
第3章 政府采購電商大數(shù)據(jù)同一性標定研究
3.1 引言
3.2 基于LSTM的同一性標定模型構(gòu)建
3.2.1 長短時記憶網(wǎng)絡簡介
3.2.2 模型整體架構(gòu)
3.3 分詞子模型構(gòu)建
3.4 LSTM重要性排序子模型構(gòu)建
3.4.1 GloVe詞向量化
3.4.2 引入Glo Ve詞向量的LSTM重要性排序子模型
3.5 LSTM相似度計算子模型構(gòu)建
3.5.1 LSTM相似度計算子模型概述
3.5.2 在子模型中引入詞序列語義校驗
3.5.3 在子模型中引入二分法查找
3.6 學習樣本制備
3.6.1 政府采購電商大數(shù)據(jù)整理與預處理
3.6.2 LSTM重要性排序子模型的學習樣本制備
3.6.3 LSTM相似度計算子模型的學習樣本制備
3.7 同一性標定模型訓練
3.7.1 模型訓練策略
3.7.2 LSTM重要性排序子模型訓練
3.7.3 LSTM相似度計算子模型訓練
3.8 實驗結(jié)果及分析
3.8.1 實驗一:兩個子模型與傳統(tǒng)模型對比實驗
3.8.2 實驗二:模型性能測試實驗
3.9 本章小結(jié)
第4章 政府采購電商大數(shù)據(jù)報價預測及合理性評價
4.1 引言
4.2 商品報價可視化及預處理
4.2.1 python可視化工具簡介
4.2.2 基于matplotlib的報價可視化
4.2.3 報價初步分析及空缺值處理
4.3 報價數(shù)據(jù)聚類及平穩(wěn)性分析
4.3.1 K-means、凝聚層次聚類、基于密度聚類簡介
4.3.2 報價聚類結(jié)果分析
4.3.3 擴展迪基-福勒檢驗簡介
4.3.4 平穩(wěn)性檢驗結(jié)果分析
4.4 ARIMA與 SVM報價數(shù)據(jù)擬合及分析
4.4.1 差分自回歸移動平均模型簡介
4.4.2 支持向量機簡介
4.4.3 擬合結(jié)果分析
4.5 高斯過程與高斯過程混合模型報價數(shù)據(jù)擬合及分析
4.5.1 高斯過程模型簡介
4.5.2 高斯過程混合模型簡介
4.5.3 擬合結(jié)果分析
4.6 基于高斯過程混合模型報價預測及合理性評價
4.7 本章小結(jié)
第5章 總結(jié)與展望
5.1 研究總結(jié)
5.2 研究展望
致謝
參考文獻
附錄
【參考文獻】:
期刊論文
[1]基于加權TextRank的文本關鍵詞提取方法[J]. 徐立. 計算機科學. 2019(S1)
[2]融合耦合距離區(qū)分度和強類別特征的短文本相似度計算方法[J]. 馬慧芳,劉文,李志欣,藺想紅. 電子學報. 2019(06)
[3]邁上現(xiàn)代治理新臺階的中國政府采購制度——回顧與展望(下)[J]. 姜愛華,馬海濤. 中國政府采購. 2019(03)
[4]邁上現(xiàn)代治理新臺階的中國政府采購制度——回顧與展望(中)[J]. 姜愛華,馬海濤. 中國政府采購. 2019(02)
[5]邁上現(xiàn)代治理新臺階的中國政府采購制度——回顧與展望(上)[J]. 姜愛華,馬海濤. 中國政府采購. 2019(01)
[6]時間序列預測方法綜述[J]. 楊海民,潘志松,白瑋. 計算機科學. 2019(01)
[7]基于網(wǎng)絡輿情分析的電子商務產(chǎn)品價格預測模型[J]. 楊茂保. 合作經(jīng)濟與科技. 2018(11)
[8]基于Scrapy技術的數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)[J]. 楊君,陳春玲,余瀚. 計算機技術與發(fā)展. 2018(10)
[9]基于LSTM循環(huán)神經(jīng)網(wǎng)絡的故障時間序列預測[J]. 王鑫,吳際,劉超,楊海燕,杜艷麗,牛文生. 北京航空航天大學學報. 2018(04)
[10]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學. 2017(09)
碩士論文
[1]基于圖與LDA的中文文本關鍵詞提取算法[D]. 郭慶.北京郵電大學 2019
[2]基于互聯(lián)網(wǎng)技術的高校節(jié)能平臺數(shù)據(jù)采集系統(tǒng)設計與實現(xiàn)[D]. 桂永娟.齊魯工業(yè)大學 2019
[3]基于網(wǎng)頁數(shù)據(jù)挖掘的高鐵出游影響因素研究[D]. 吳瑞.長安大學 2019
[4]基于業(yè)務插件化的電商大數(shù)據(jù)采集系統(tǒng)[D]. 李天琦.浙江工業(yè)大學 2019
[5]基于經(jīng)驗模態(tài)分解的時間序列預測研究[D]. 成小林.大連理工大學 2018
[6]互聯(lián)網(wǎng)氣象水文數(shù)據(jù)定向采集系統(tǒng)設計與實現(xiàn)[D]. 李杰.國防科技大學 2018
[7]面向電商領域的關鍵詞提取技術研究[D]. 樊繼康.哈爾濱工業(yè)大學 2018
[8]基于Django的生鮮電商系統(tǒng)的研究與開發(fā)[D]. 陳毅.東華大學 2018
[9]社交網(wǎng)絡數(shù)據(jù)采集方法研究及系統(tǒng)實現(xiàn)[D]. 楊杰.電子科技大學 2018
[10]基于視覺塊識別的網(wǎng)頁元數(shù)據(jù)提取方法[D]. 孫景春.東南大學 2017
本文編號:3712862
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3712862.html
最近更新
教材專著