航空訂票服務器爬蟲檢測技術研究
發(fā)布時間:2021-03-19 18:01
網(wǎng)絡爬蟲是一種自動化瀏覽網(wǎng)頁和抓取網(wǎng)頁數(shù)據(jù)的程序,是多種網(wǎng)絡應用的關鍵技術,如搜索引擎依賴于爬蟲獲取網(wǎng)頁中的信息。但隨著網(wǎng)絡爬蟲技術的發(fā)展,一些惡意爬蟲對電子商務造成了不可忽視的損失,它們占據(jù)網(wǎng)絡帶寬,觸碰用戶隱私,竊取商業(yè)信息等。在航空訂票系統(tǒng)網(wǎng)絡爬蟲的危害更甚,因此本文設計了一套針對航空查訂票系統(tǒng)的反爬蟲可視交互系統(tǒng),協(xié)助用戶通過分析大規(guī)模且動態(tài)變化的IP日志數(shù)據(jù)來檢測爬蟲。本文系統(tǒng)采用反爬蟲模型離線計算,爬蟲實時在線檢測的運行方式。使用歷史日志數(shù)據(jù)建立反爬蟲模型,再利用此模型對實時的訪問日志進行分析,判斷當前的訪問是否為爬蟲。同時可以定期進行離線模型的再學習和更新,以適應新型爬蟲。本系統(tǒng)利用Redis緩存技術處理航空票務網(wǎng)站等其他電商平臺的高并發(fā)請求來保證實時爬蟲檢測響應。本文設計的可視化界面提供了航線圖、柱狀圖、餅圖等多種可視化手段,方便用戶隨時查看歷史和實時的查訂票狀況和爬蟲檢測效果。同時以IP地址聚合和查詢量排序模塊協(xié)助用戶分析和識別動態(tài)IP爬蟲,以特征篩選、IP歷史詳情查詢等可視化模塊支持用戶手工篩選訓練樣本來更新SVM分類模型。本文創(chuàng)新點有:開發(fā)了E-build服務器端...
【文章來源】:杭州電子科技大學浙江省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
015第1季度至2016第4季度中國在線機票預訂交易規(guī)模,數(shù)據(jù)來源:https://www.analysys.cn/analysis/trade/detail/1000555/
ild 是中國航信為航空公司提供的電子商務統(tǒng)一接入和應用開發(fā)平的接入層為航空公司提供多種方式的電子商務應用服務,包括了航旅客訂座記錄等。E-Build 積累了大量的代理訂票歷史數(shù)據(jù),即 IP據(jù),并可以對代理訂票行為進行實時數(shù)據(jù)監(jiān)控。在 E-Build 服務器監(jiān)控與檢測,通過歷史數(shù)據(jù)與實時數(shù)據(jù)結合分析,開發(fā)設計反爬蟲和研究價值。空公司網(wǎng)站如需提取航班時刻、座位信息和票價詳情,其每次查詢航信 E-Build 服務器發(fā)起請求,并向中航信支付相應流量費。許多了免費獲取低價機票數(shù)據(jù)與航班信息,通過大量爬蟲訪問航空公司據(jù),從而導致航空公司訪問 E-Build 服務器的流量費劇增。根據(jù)航全統(tǒng)計,即使在航空機票銷售的淡季,虛假流量也占據(jù)航空網(wǎng)站實,高峰期更是高達 90%以上,而這些爬蟲只消耗流量卻不產(chǎn)生任也有些航空公司在自己網(wǎng)站上布置了反爬蟲系統(tǒng),但各自為政,開爬蟲效果一般。本文希望開發(fā)一個在 E-build 端的通用爬蟲檢測系的航空公司反爬蟲需要,如圖 1.2 所示。
圖為用戶相同會話中的查詢時間間隔與查詢量的關系,下圖為用時間間隔與查詢量關系器學習方法,使用機器學習模型來判斷訪問是否來自爬網(wǎng)絡[12-13],貝葉斯分類器[14-15],決策樹[16-17],SVM[18-19],。D Stevanovic[13]等研究了兩種無監(jiān)督神經(jīng)網(wǎng)絡用于網(wǎng)映射 SOM 與改進的自適應共振理論 ATR2,旨在根據(jù)用網(wǎng)絡訪問者的類型與分布情況,以及調(diào)查惡意爬蟲與用戶把數(shù)據(jù)集的聚類結果映射到 SOM 輸出層上,幫助用戶了規(guī)模、空間鄰近度和數(shù)據(jù)集最主要的集群,如圖 1.4。S葉斯方法的兩個變種:弱貝葉斯方法(WBA)與強貝葉斯絡機器人會話集合去訓練分類模型用于網(wǎng)絡爬蟲檢測。對實時的會話請求進行分類,使用該方法來區(qū)分人類與通過有監(jiān)督機器學習來識別和檢測垃圾郵件網(wǎng)絡爬蟲,述垃圾郵件爬蟲與人類用戶的不同行為特征。Lu[20]等使
【參考文獻】:
期刊論文
[1]EasySVM: A visual analysis approach for open-box support vector machines[J]. Yuxin Ma,Wei Chen,Xiaohong Ma,Jiayi Xu,Xinxin Huang,Ross Maciejewski,Anthony K.H.Tung. Computational Visual Media. 2017(02)
本文編號:3089984
【文章來源】:杭州電子科技大學浙江省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
015第1季度至2016第4季度中國在線機票預訂交易規(guī)模,數(shù)據(jù)來源:https://www.analysys.cn/analysis/trade/detail/1000555/
ild 是中國航信為航空公司提供的電子商務統(tǒng)一接入和應用開發(fā)平的接入層為航空公司提供多種方式的電子商務應用服務,包括了航旅客訂座記錄等。E-Build 積累了大量的代理訂票歷史數(shù)據(jù),即 IP據(jù),并可以對代理訂票行為進行實時數(shù)據(jù)監(jiān)控。在 E-Build 服務器監(jiān)控與檢測,通過歷史數(shù)據(jù)與實時數(shù)據(jù)結合分析,開發(fā)設計反爬蟲和研究價值。空公司網(wǎng)站如需提取航班時刻、座位信息和票價詳情,其每次查詢航信 E-Build 服務器發(fā)起請求,并向中航信支付相應流量費。許多了免費獲取低價機票數(shù)據(jù)與航班信息,通過大量爬蟲訪問航空公司據(jù),從而導致航空公司訪問 E-Build 服務器的流量費劇增。根據(jù)航全統(tǒng)計,即使在航空機票銷售的淡季,虛假流量也占據(jù)航空網(wǎng)站實,高峰期更是高達 90%以上,而這些爬蟲只消耗流量卻不產(chǎn)生任也有些航空公司在自己網(wǎng)站上布置了反爬蟲系統(tǒng),但各自為政,開爬蟲效果一般。本文希望開發(fā)一個在 E-build 端的通用爬蟲檢測系的航空公司反爬蟲需要,如圖 1.2 所示。
圖為用戶相同會話中的查詢時間間隔與查詢量的關系,下圖為用時間間隔與查詢量關系器學習方法,使用機器學習模型來判斷訪問是否來自爬網(wǎng)絡[12-13],貝葉斯分類器[14-15],決策樹[16-17],SVM[18-19],。D Stevanovic[13]等研究了兩種無監(jiān)督神經(jīng)網(wǎng)絡用于網(wǎng)映射 SOM 與改進的自適應共振理論 ATR2,旨在根據(jù)用網(wǎng)絡訪問者的類型與分布情況,以及調(diào)查惡意爬蟲與用戶把數(shù)據(jù)集的聚類結果映射到 SOM 輸出層上,幫助用戶了規(guī)模、空間鄰近度和數(shù)據(jù)集最主要的集群,如圖 1.4。S葉斯方法的兩個變種:弱貝葉斯方法(WBA)與強貝葉斯絡機器人會話集合去訓練分類模型用于網(wǎng)絡爬蟲檢測。對實時的會話請求進行分類,使用該方法來區(qū)分人類與通過有監(jiān)督機器學習來識別和檢測垃圾郵件網(wǎng)絡爬蟲,述垃圾郵件爬蟲與人類用戶的不同行為特征。Lu[20]等使
【參考文獻】:
期刊論文
[1]EasySVM: A visual analysis approach for open-box support vector machines[J]. Yuxin Ma,Wei Chen,Xiaohong Ma,Jiayi Xu,Xinxin Huang,Ross Maciejewski,Anthony K.H.Tung. Computational Visual Media. 2017(02)
本文編號:3089984
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3089984.html
最近更新
教材專著