支持云計(jì)算產(chǎn)品RIA模式頁面數(shù)據(jù)抓取的模型和策略研究
本文關(guān)鍵詞:支持云計(jì)算產(chǎn)品RIA模式頁面數(shù)據(jù)抓取的模型和策略研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著云計(jì)算產(chǎn)業(yè)的發(fā)展,越來越多的云計(jì)算產(chǎn)品在市場上出現(xiàn),這在給中小企業(yè)和其它用戶帶來更多降低企業(yè)和應(yīng)用成本的同時(shí),也使得企業(yè)和用戶在面對大量產(chǎn)品信息的同時(shí)不知所措。這一方面是由于云產(chǎn)品具有可高度定制化的特點(diǎn),令其信息量大增;另一方面是源自這些信息分散地存在于各云產(chǎn)品廠商的服務(wù)器上,難以進(jìn)行集中處理。這些問題阻礙著企業(yè)和用戶在選擇云計(jì)算產(chǎn)品應(yīng)用云計(jì)算技術(shù)時(shí)的有效決策。在傳統(tǒng)互聯(lián)網(wǎng)領(lǐng)域,為了解決從海量信息中有效獲取有用信息這一問題,人們開發(fā)了搜索引擎,通過抓取分散在Web上的信息,可以實(shí)現(xiàn)對Web信息的快速查詢。但Web發(fā)展到今天,信息在Web上的存在和展現(xiàn)方式已經(jīng)發(fā)生了翻天覆地的變化,以Ajax技術(shù)為基礎(chǔ),應(yīng)用大量如jQuery等前端腳本技術(shù)的Web站點(diǎn),已然形成了將大量信息隱藏在搜索引擎抓取能力之外的RIAs (Rich Internet Applications),而云計(jì)算廠商的產(chǎn)品頁面則幾乎都是復(fù)雜的RIA。傳統(tǒng)搜索引擎出于技術(shù)和成本的考慮,在抓取RIA中的深層網(wǎng)信息時(shí)力不從心。因此,為了抓取云計(jì)算廠商RIA頁面中的產(chǎn)品信息,給企業(yè)和用戶提供決策的支持,而要研究支持從RIA模式頁面中抓取信息的模型和策略。 本文通過對傳統(tǒng)Web抓取技術(shù),也就是網(wǎng)絡(luò)爬蟲,以及現(xiàn)有的在支持Web2.0及Ajax的抓取技術(shù)方面的研究,提出了一個(gè)支持從RIA中抓取可定制化產(chǎn)品信息的抓取模型和策略。研究在通用的Scrapy抓取框架的基礎(chǔ)上,增加了用于存儲(chǔ)和處理抓取規(guī)則的功能,重寫了抓取算法,改善了調(diào)度方法,實(shí)現(xiàn)了腳本解析、DOM操作和用戶事件觸發(fā)等機(jī)制。和傳統(tǒng)網(wǎng)絡(luò)爬蟲及現(xiàn)有支持Ajax抓取的系統(tǒng)不同,本模型和策略既不是一個(gè)通用的網(wǎng)絡(luò)爬蟲,也不是一個(gè)針對個(gè)別網(wǎng)站的專用抓取系統(tǒng),通過特定的事件觸發(fā)和RIA頁面模型遍歷算法,本模型和策略可以通過解析抓取規(guī)則,實(shí)現(xiàn)對用戶可定制產(chǎn)品參數(shù)的產(chǎn)品RIA頁面進(jìn)行抓取。本模型和策略與傳統(tǒng)網(wǎng)絡(luò)爬蟲的主要區(qū)別在于能對RIA頁面中的腳本進(jìn)行解析,并根據(jù)腳本執(zhí)行結(jié)果操作頁面DOM,從而獲取隱藏在RIA中的深層信息;與現(xiàn)有的支持Ajax的抓取系統(tǒng)的區(qū)別在于,通過對抓取的目標(biāo)頁面重新建模,并采用不同的抓取算法和腳本支持方法,實(shí)現(xiàn)模擬用戶對RIA頁面助用戶事件的觸發(fā)。 本文對支持從云計(jì)算產(chǎn)品RIA頁面中抓取數(shù)據(jù)的抓取模型和策略的研究,對于利用云計(jì)算產(chǎn)品信息,為企業(yè)和用戶提供云計(jì)算決策支持有重要意義,同時(shí)對獲取可定制化產(chǎn)品的信息,對相關(guān)產(chǎn)品和行業(yè)進(jìn)行分析也具有一定的應(yīng)用價(jià)值。
【關(guān)鍵詞】:RIA 云計(jì)算產(chǎn)品 抓取
【學(xué)位授予單位】:浙江工商大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.09
【目錄】:
- 摘要2-4
- ABSTRACT4-8
- 第1章 緒論8-18
- 1.1 研究背景與目的意義8-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-15
- 1.2.1 抓取模型11-13
- 1.2.2 抓取策略13-15
- 1.3 主要研究工作與方法15
- 1.4 主要研究內(nèi)容15-18
- 第2章 相關(guān)技術(shù)理論介紹18-30
- 2.1 構(gòu)建RIA的關(guān)鍵技術(shù)19-22
- 2.1.1 Ajax的原理和簡介19-21
- 2.1.2 jQuery的原理和簡介21-22
- 2.2 模型和策略的理論介紹22-26
- 2.2.1 抓取模型架構(gòu)理論22-24
- 2.2.2 抓取策略理論24-26
- 2.3 Scrapy框架介紹26-28
- 2.4 Selenium簡介28
- 2.5 本章小結(jié)28-30
- 第3章 模型與策略分析30-36
- 3.1 抓取研究面臨的問題32-33
- 3.2 抓取模型問題分析33-34
- 3.2.1 腳本解析問題分析33
- 3.2.2 用戶事件觸發(fā)問題分析33-34
- 3.3 抓取策略問題分析34-35
- 3.3.1 頁面建模問題分析34-35
- 3.3.2 抓取算法問題分析35
- 3.4 本章小結(jié)35-36
- 第4章 模型與策略設(shè)計(jì)36-54
- 4.1 抓取模型設(shè)計(jì)36-45
- 4.1.1 抓取模型架構(gòu)設(shè)計(jì)36-39
- 4.1.2 腳本解析方案設(shè)計(jì)39-40
- 4.1.3 事件觸發(fā)方案設(shè)計(jì)40-41
- 4.1.4 模型主要模塊處理流程設(shè)計(jì)41-45
- 4.1.4.1 Spider模塊處理流程41-42
- 4.1.4.2 Rules及其構(gòu)建流程42-43
- 4.1.4.3 Scheduler模塊處理流程43-44
- 4.1.4.4 DOM Storage模塊處理流程44-45
- 4.2 抓取策略設(shè)計(jì)45-53
- 4.2.1 目標(biāo)頁面建模方案設(shè)計(jì)45-50
- 4.2.1.1 建立新模型47-50
- 4.2.2 抓取算法方案設(shè)計(jì)50-52
- 4.2.3 抓取策略處理流程設(shè)計(jì)52-53
- 4.3 本章小結(jié)53-54
- 第5章 實(shí)例運(yùn)行實(shí)驗(yàn)54-68
- 5.1 實(shí)驗(yàn)環(huán)境56-57
- 5.1.1 硬件環(huán)境56
- 5.1.2 軟件環(huán)境56-57
- 5.1.3 實(shí)驗(yàn)環(huán)境架構(gòu)57
- 5.2 初始設(shè)置57-60
- 5.2.1 系統(tǒng)支持組件包部署58
- 5.2.2 URLs及Rules初始實(shí)驗(yàn)數(shù)據(jù)設(shè)置58-60
- 5.2.3 Spider模塊參數(shù)設(shè)置60
- 5.3 其它參數(shù)設(shè)置60
- 5.4 實(shí)驗(yàn)及結(jié)果60-64
- 5.5 結(jié)果分析64-67
- 5.6 本章小結(jié)67-68
- 第6章 總結(jié)與展望68-70
- 6.1 總結(jié)68-69
- 6.2 不足與展望69-70
- 參考文獻(xiàn)70-74
- 致謝74-75
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 金偉新;“串并聯(lián)”模型框架與作戰(zhàn)效能評估[J];系統(tǒng)工程與電子技術(shù);2001年07期
2 徐享忠,王精業(yè),馬亞龍;知識管理的模型框架及其關(guān)鍵技術(shù)[J];計(jì)算機(jī)工程;2002年02期
3 徐志毅;新7S管理模型框架與應(yīng)用[J];通信企業(yè)管理;2003年02期
4 秦剛,陳超波,雷斌,王青岳;一種基于元模型的軟件構(gòu)建方法[J];西安工業(yè)學(xué)院學(xué)報(bào);2004年03期
5 孫晶,趙會(huì)群;基于模型代數(shù)的DSS建模與實(shí)現(xiàn)方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年34期
6 夏冬梅;孫林;;實(shí)例推理的敏捷虛擬企業(yè)模型重用方法研究[J];現(xiàn)代制造工程;2010年03期
7 曹強(qiáng);張明智;羅批;李志強(qiáng);;虛擬社會(huì)中城際交通模型研究[J];計(jì)算機(jī)仿真;2009年01期
8 姜軍平;劉偉;;Java并發(fā)模型框架的構(gòu)建及應(yīng)用[J];西北醫(yī)學(xué)教育;2006年03期
9 張宇,宋國寧,王成恩;流程企業(yè)過程管理的模型框架[J];計(jì)算機(jī)集成制造系統(tǒng)-CIMS;2001年06期
10 榮岡;肖俊;胡云蘋;馮毅萍;;基于中立模型表達(dá)的數(shù)學(xué)知識管理方法[J];南京理工大學(xué)學(xué)報(bào);2014年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前7條
1 馬運(yùn)全;;金融創(chuàng)新與制度環(huán)境:模型框架與實(shí)證分析[A];2011年(第九屆)“中國法經(jīng)濟(jì)學(xué)論壇”論文集[C];2011年
2 金偉新;肖田元;胡曉峰;馬亞平;;戰(zhàn)爭CAWSOM模型[A];中國系統(tǒng)仿真學(xué)會(huì)第五次全國會(huì)員代表大會(huì)暨2006年全國學(xué)術(shù)年會(huì)論文集[C];2006年
3 柯嵩;韓亮;;CGF系統(tǒng)中的情緒模型及實(shí)現(xiàn)方法初探[A];第五屆全國仿真器學(xué)術(shù)會(huì)論文集[C];2004年
4 王秀敏;應(yīng)益榮;;MWZ模型框架下的交易者互動(dòng)模型研究[A];第二屆中國智能計(jì)算大會(huì)論文集[C];2008年
5 岳永;;強(qiáng)制性制度變遷、意識形態(tài)與經(jīng)濟(jì)績效——一個(gè)關(guān)于中俄改革分析的模型框架[A];中國制度經(jīng)濟(jì)學(xué)年會(huì)論文集[C];2003年
6 劉穎斐;余玉苗;;基于風(fēng)險(xiǎn)控制價(jià)值的獨(dú)立審計(jì)定價(jià)模型框架[A];中國會(huì)計(jì)學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文集(上冊)[C];2006年
7 陳宏;黃洪;;ERP實(shí)施就緒度模型(IRM-ERP)設(shè)計(jì)與研究[A];全國第十屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)年會(huì)論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前2條
1 海通股指期貨聯(lián)合研究中心 李子婧;基于BIRR模型的宏觀因子套利策略[N];期貨日報(bào);2010年
2 王懷民邋漆青;武漢大學(xué)主導(dǎo)研制的一項(xiàng)標(biāo)準(zhǔn)成為國際標(biāo)準(zhǔn)[N];科技日報(bào);2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 江濱;GHM模型的推論和擴(kuò)展[D];東北財(cái)經(jīng)大學(xué);2013年
2 鮑群芳;基于對數(shù)均值回復(fù)模型的VIX建模[D];浙江大學(xué);2013年
3 曹京;有限溫有限密QCD的準(zhǔn)粒子模型研究[D];南京大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 尹強(qiáng);模型獨(dú)立框架下高階π演算及表達(dá)能力研究[D];上海交通大學(xué);2012年
2 葉蜜冬;基于中國市場的最優(yōu)套期保值比率模型績效實(shí)證檢驗(yàn)[D];廈門大學(xué);2009年
3 郭琦;海南省CGE模型的理論框架及其參數(shù)估計(jì)[D];華南熱帶農(nóng)業(yè)大學(xué);2006年
4 徐繼峰;中國金融CGE模型的建立及農(nóng)業(yè)信貸政策模擬[D];中國農(nóng)業(yè)科學(xué)院;2008年
5 錢育(石羨);災(zāi)情預(yù)測和財(cái)產(chǎn)損失評估模型的研究和實(shí)現(xiàn)[D];中國科學(xué)院研究生院(軟件研究所);2004年
6 方婧;聚合風(fēng)險(xiǎn)模型下的保費(fèi)估計(jì)及信度估計(jì)的推廣[D];江西師范大學(xué);2013年
7 林娟華;基于KMV模型的銀行信貸風(fēng)險(xiǎn)管理實(shí)證研究[D];華東師范大學(xué);2009年
8 周鑫;VaR-GARCH-EVT模型及在中國證券市場的實(shí)證研究[D];東北大學(xué);2007年
9 馬穎奇;北京市CGE模型的構(gòu)建及應(yīng)用[D];吉林大學(xué);2007年
10 汪澍;支持云計(jì)算產(chǎn)品RIA模式頁面數(shù)據(jù)抓取的模型和策略研究[D];浙江工商大學(xué);2014年
本文關(guān)鍵詞:支持云計(jì)算產(chǎn)品RIA模式頁面數(shù)據(jù)抓取的模型和策略研究,由筆耕文化傳播整理發(fā)布。
本文編號:357432
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/357432.html