數(shù)字航海通告自動獲取與管理系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2021-06-23 17:58
海圖,是現(xiàn)代航海導(dǎo)航的基本工具。海圖制圖人員快速準確地獲取航海通告信息,及時地用于更正和更新海圖產(chǎn)品,對于保障艦船航行安全具有重要意義。航海通告是海圖生產(chǎn)、海圖改正的重要數(shù)據(jù)來源。隨著國內(nèi)外海圖制圖工作由純手工操作進入到以數(shù)據(jù)庫為核心驅(qū)動的數(shù)字化階段。近年來,基于快速發(fā)展的互聯(lián)網(wǎng)技術(shù),航海通告在發(fā)布和應(yīng)用方式上也發(fā)生了巨大的變化。依托網(wǎng)絡(luò)和數(shù)字媒介,較之紙質(zhì)、電報等傳統(tǒng)載體,具有發(fā)布速度快、海圖改正應(yīng)用效率高、節(jié)約人力成本等優(yōu)勢。雖然目前依據(jù)相關(guān)國際條約,我國海圖生產(chǎn)部門可以不定期地從國內(nèi)外航海通告發(fā)布機構(gòu)獲取紙質(zhì)航海通告,但是鑒于通過郵寄方式獲取紙質(zhì)文檔的周期較長,不利于保障海圖產(chǎn)品的現(xiàn)勢性,所以通常將其作為資料備份或歷史文檔保存。因而,針對目前以互聯(lián)網(wǎng)發(fā)布為主的數(shù)字航海通告發(fā)布模式,利用計算機智能化技術(shù)準確、快速、及時地采集通告數(shù)據(jù),提高海圖制圖人員的工作效率,是海圖生產(chǎn)部門亟待解決的一個重要問題。本文以國內(nèi)外55個航海通告官方網(wǎng)站發(fā)布的數(shù)字航海通告為研究對象,研究了數(shù)字海圖改正、數(shù)字航海通告的內(nèi)容與結(jié)構(gòu)、編發(fā)模式、計算機網(wǎng)絡(luò)爬蟲技術(shù)、數(shù)據(jù)庫技術(shù)等,結(jié)合我國海圖生產(chǎn)部門對數(shù)字航海通...
【文章來源】:上海海洋大學(xué)上海市
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
通用網(wǎng)絡(luò)爬蟲Fig.3-1Generalpurposewebcrawler(2)聚焦網(wǎng)絡(luò)爬蟲
上海海洋大學(xué)碩士學(xué)位論文12的抓取,確保數(shù)據(jù)是最新的[38、39]。增量式網(wǎng)絡(luò)爬蟲只會在該網(wǎng)站產(chǎn)生新的數(shù)據(jù)時進行爬取,可極大地降低數(shù)據(jù)下載量,減少時間和存儲空間上的耗費,但增加了網(wǎng)絡(luò)爬蟲相關(guān)算法的復(fù)雜度和實現(xiàn)難度。圖3-2主題網(wǎng)絡(luò)爬蟲Fig.3-2Topic-focusedcrawler(4)深層網(wǎng)絡(luò)爬蟲Web網(wǎng)頁按存在方式可以分為表層網(wǎng)頁和深層網(wǎng)頁[40]。表層網(wǎng)頁是可以通過超鏈接鏈接到的靜態(tài)網(wǎng)頁,傳統(tǒng)搜索引擎一般可以檢索的網(wǎng)頁。深層網(wǎng)頁是只有用戶提交相關(guān)數(shù)據(jù)才可以獲取的表單式頁面,例如:例如用戶登錄后才能訪問的頁面。相對其他爬蟲,深層網(wǎng)絡(luò)爬蟲需要具備頁面自動導(dǎo)航交互功能。特別是互聯(lián)網(wǎng)進入Web2.0[41]以后,Ajax、JavaScript腳本技術(shù)在網(wǎng)站中越來越多的被采用,以至于深層網(wǎng)頁數(shù)量的占比在持續(xù)增大,其數(shù)量十分巨大。深層網(wǎng)頁可分為兩類:1)基于Ajax的動態(tài)渲染頁面。深層網(wǎng)絡(luò)爬蟲需要具有普通瀏覽器腳本執(zhí)行功能,進而加載相應(yīng)的內(nèi)容。2)表單頁面。表單頁面是指需要用戶登錄后才能查詢相關(guān)數(shù)據(jù)的網(wǎng)頁,因此,需要實現(xiàn)自動提交用戶信息并記錄原有的Cookie,以及實現(xiàn)自動導(dǎo)航交互瀏覽。3.1.3禮貌采集
上海海洋大學(xué)碩士學(xué)位論文14[46]。其數(shù)據(jù)結(jié)構(gòu)采用先進先出(FIFO)的設(shè)計,廣度優(yōu)先策略將網(wǎng)頁分為若干層次,按照網(wǎng)頁層次順序,依次抓取每一層的頁面。該搜索算法的效率較低,適合普通的搜索引擎使用。如圖33所示,廣度搜索策略順序是A-C-D-F-B-G-E。3.2.2深度優(yōu)先策略深度優(yōu)先搜索策略是相對于廣度優(yōu)先搜索的策略,設(shè)計思想是從根URL開始,找到網(wǎng)頁中的第一個URL進行爬取,然后在采集到的這個頁面中再抽取第一個URL再繼續(xù)爬取,一直重復(fù)上述步驟,直到最后一個頁面沒有URL或滿足停止條件,然后回到根URL,找到第二個URL繼續(xù)上面的采集步驟[46]。但由于圖的結(jié)構(gòu)復(fù)雜,容易出現(xiàn)死循環(huán),因此一般都會采用URL去重策略和停止條件的組合使用避免爬蟲陷入死循環(huán)。如圖3-4所示,其搜索策略順序是A-C-B-D-F-G-E。3.2.3最佳優(yōu)先策略最佳優(yōu)先策略對URL采用一定的算法計算其與主題的相關(guān)度,并選取評價度最好的一個或若干個URL進行抓取[47]。但該搜索策略也存在一個問題,即是一種局部最佳搜索算法,一些局部外的相關(guān)網(wǎng)頁無法識別獲取,造成數(shù)據(jù)的丟失。在具體應(yīng)用過程中需要結(jié)合實際情況加以優(yōu)化,以跳出局部最優(yōu)點的缺陷。圖3-3廣度優(yōu)先搜索策略示意圖Fig.3-3Breadthfirstsearchstrategyschematic
【參考文獻】:
期刊論文
[1]航海通告自動獲取系統(tǒng)的設(shè)計與實現(xiàn)[J]. 付燕飛,郭立新,吳婉婷,朱書穎. 海洋測繪. 2019(04)
[2]海圖與航海通告一體化生產(chǎn)技術(shù)研究[J]. 王斌,唐巖,王偉,劉波. 海洋測繪. 2016(04)
[3]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學(xué). 2015(02)
[4]Web信息抽取網(wǎng)頁自動瀏覽導(dǎo)航與集成規(guī)則研究[J]. 王海濤,張志亮,孫煜華,袁春風(fēng),黃宜華. 計算機科學(xué)與探索. 2014(09)
[5]基于CasperJS的Web自動化測試的研究與應(yīng)用[J]. 潘偉,李佳欣. 信息系統(tǒng)工程. 2014(01)
[6]矢量海圖通告改正自動處理方法研究[J]. 崔洪生,劉國輝,魏麗君. 海洋測繪. 2012(01)
[7]海圖產(chǎn)品一體化更新問題研究[J]. 彭認燦,劉國輝,董箭,鄭義東,唐夢堯. 海洋測繪. 2011(01)
[8]航海通告數(shù)字化生產(chǎn)系統(tǒng)的設(shè)計與實現(xiàn)[J]. 劉國輝,彭認燦,魏麗君. 測繪科學(xué). 2011(05)
[9]基于一體化思想的海圖更新數(shù)據(jù)模型[J]. 劉國輝,彭認燦,董箭,李明輝. 測繪科學(xué)技術(shù)學(xué)報. 2010(06)
[10]航海通告數(shù)字化生產(chǎn)方法研究[J]. 劉國輝,彭認燦,肖京國,李紀東. 海洋測繪. 2010(06)
博士論文
[1]非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D]. 樂小虬.中國科學(xué)院研究生院(遙感應(yīng)用研究所) 2006
碩士論文
[1]基于SpringBoot框架社交網(wǎng)絡(luò)平臺的設(shè)計與實現(xiàn)[D]. 劉敏.湖南大學(xué) 2018
[2]面向主題的多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 蔡光波.西北民族大學(xué) 2017
[3]垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現(xiàn)[D]. 王松.北京郵電大學(xué) 2017
[4]分布式智能網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 何國正.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2016
[5]支持動態(tài)頁面的快速URL提取方法研究[D]. 張洪慶.哈爾濱工業(yè)大學(xué) 2013
[6]精確Web信息抽取集成模型與關(guān)鍵技術(shù)研究[D]. 解濤.南京大學(xué) 2011
[7]網(wǎng)站結(jié)構(gòu)對搜索引擎抓取的影響[D]. 丁軍艷.鄭州大學(xué) 2011
[8]基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D]. 黃曉鵬.北京郵電大學(xué) 2010
[9]國際標(biāo)準電子海圖自動改正系統(tǒng)的設(shè)計與實現(xiàn)[D]. 李邵喜.大連海事大學(xué) 2004
[10]數(shù)字航海通告的生成與發(fā)布研究[D]. 王強.大連海事大學(xué) 2003
本文編號:3245401
【文章來源】:上海海洋大學(xué)上海市
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
通用網(wǎng)絡(luò)爬蟲Fig.3-1Generalpurposewebcrawler(2)聚焦網(wǎng)絡(luò)爬蟲
上海海洋大學(xué)碩士學(xué)位論文12的抓取,確保數(shù)據(jù)是最新的[38、39]。增量式網(wǎng)絡(luò)爬蟲只會在該網(wǎng)站產(chǎn)生新的數(shù)據(jù)時進行爬取,可極大地降低數(shù)據(jù)下載量,減少時間和存儲空間上的耗費,但增加了網(wǎng)絡(luò)爬蟲相關(guān)算法的復(fù)雜度和實現(xiàn)難度。圖3-2主題網(wǎng)絡(luò)爬蟲Fig.3-2Topic-focusedcrawler(4)深層網(wǎng)絡(luò)爬蟲Web網(wǎng)頁按存在方式可以分為表層網(wǎng)頁和深層網(wǎng)頁[40]。表層網(wǎng)頁是可以通過超鏈接鏈接到的靜態(tài)網(wǎng)頁,傳統(tǒng)搜索引擎一般可以檢索的網(wǎng)頁。深層網(wǎng)頁是只有用戶提交相關(guān)數(shù)據(jù)才可以獲取的表單式頁面,例如:例如用戶登錄后才能訪問的頁面。相對其他爬蟲,深層網(wǎng)絡(luò)爬蟲需要具備頁面自動導(dǎo)航交互功能。特別是互聯(lián)網(wǎng)進入Web2.0[41]以后,Ajax、JavaScript腳本技術(shù)在網(wǎng)站中越來越多的被采用,以至于深層網(wǎng)頁數(shù)量的占比在持續(xù)增大,其數(shù)量十分巨大。深層網(wǎng)頁可分為兩類:1)基于Ajax的動態(tài)渲染頁面。深層網(wǎng)絡(luò)爬蟲需要具有普通瀏覽器腳本執(zhí)行功能,進而加載相應(yīng)的內(nèi)容。2)表單頁面。表單頁面是指需要用戶登錄后才能查詢相關(guān)數(shù)據(jù)的網(wǎng)頁,因此,需要實現(xiàn)自動提交用戶信息并記錄原有的Cookie,以及實現(xiàn)自動導(dǎo)航交互瀏覽。3.1.3禮貌采集
上海海洋大學(xué)碩士學(xué)位論文14[46]。其數(shù)據(jù)結(jié)構(gòu)采用先進先出(FIFO)的設(shè)計,廣度優(yōu)先策略將網(wǎng)頁分為若干層次,按照網(wǎng)頁層次順序,依次抓取每一層的頁面。該搜索算法的效率較低,適合普通的搜索引擎使用。如圖33所示,廣度搜索策略順序是A-C-D-F-B-G-E。3.2.2深度優(yōu)先策略深度優(yōu)先搜索策略是相對于廣度優(yōu)先搜索的策略,設(shè)計思想是從根URL開始,找到網(wǎng)頁中的第一個URL進行爬取,然后在采集到的這個頁面中再抽取第一個URL再繼續(xù)爬取,一直重復(fù)上述步驟,直到最后一個頁面沒有URL或滿足停止條件,然后回到根URL,找到第二個URL繼續(xù)上面的采集步驟[46]。但由于圖的結(jié)構(gòu)復(fù)雜,容易出現(xiàn)死循環(huán),因此一般都會采用URL去重策略和停止條件的組合使用避免爬蟲陷入死循環(huán)。如圖3-4所示,其搜索策略順序是A-C-B-D-F-G-E。3.2.3最佳優(yōu)先策略最佳優(yōu)先策略對URL采用一定的算法計算其與主題的相關(guān)度,并選取評價度最好的一個或若干個URL進行抓取[47]。但該搜索策略也存在一個問題,即是一種局部最佳搜索算法,一些局部外的相關(guān)網(wǎng)頁無法識別獲取,造成數(shù)據(jù)的丟失。在具體應(yīng)用過程中需要結(jié)合實際情況加以優(yōu)化,以跳出局部最優(yōu)點的缺陷。圖3-3廣度優(yōu)先搜索策略示意圖Fig.3-3Breadthfirstsearchstrategyschematic
【參考文獻】:
期刊論文
[1]航海通告自動獲取系統(tǒng)的設(shè)計與實現(xiàn)[J]. 付燕飛,郭立新,吳婉婷,朱書穎. 海洋測繪. 2019(04)
[2]海圖與航海通告一體化生產(chǎn)技術(shù)研究[J]. 王斌,唐巖,王偉,劉波. 海洋測繪. 2016(04)
[3]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學(xué). 2015(02)
[4]Web信息抽取網(wǎng)頁自動瀏覽導(dǎo)航與集成規(guī)則研究[J]. 王海濤,張志亮,孫煜華,袁春風(fēng),黃宜華. 計算機科學(xué)與探索. 2014(09)
[5]基于CasperJS的Web自動化測試的研究與應(yīng)用[J]. 潘偉,李佳欣. 信息系統(tǒng)工程. 2014(01)
[6]矢量海圖通告改正自動處理方法研究[J]. 崔洪生,劉國輝,魏麗君. 海洋測繪. 2012(01)
[7]海圖產(chǎn)品一體化更新問題研究[J]. 彭認燦,劉國輝,董箭,鄭義東,唐夢堯. 海洋測繪. 2011(01)
[8]航海通告數(shù)字化生產(chǎn)系統(tǒng)的設(shè)計與實現(xiàn)[J]. 劉國輝,彭認燦,魏麗君. 測繪科學(xué). 2011(05)
[9]基于一體化思想的海圖更新數(shù)據(jù)模型[J]. 劉國輝,彭認燦,董箭,李明輝. 測繪科學(xué)技術(shù)學(xué)報. 2010(06)
[10]航海通告數(shù)字化生產(chǎn)方法研究[J]. 劉國輝,彭認燦,肖京國,李紀東. 海洋測繪. 2010(06)
博士論文
[1]非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D]. 樂小虬.中國科學(xué)院研究生院(遙感應(yīng)用研究所) 2006
碩士論文
[1]基于SpringBoot框架社交網(wǎng)絡(luò)平臺的設(shè)計與實現(xiàn)[D]. 劉敏.湖南大學(xué) 2018
[2]面向主題的多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 蔡光波.西北民族大學(xué) 2017
[3]垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現(xiàn)[D]. 王松.北京郵電大學(xué) 2017
[4]分布式智能網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 何國正.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2016
[5]支持動態(tài)頁面的快速URL提取方法研究[D]. 張洪慶.哈爾濱工業(yè)大學(xué) 2013
[6]精確Web信息抽取集成模型與關(guān)鍵技術(shù)研究[D]. 解濤.南京大學(xué) 2011
[7]網(wǎng)站結(jié)構(gòu)對搜索引擎抓取的影響[D]. 丁軍艷.鄭州大學(xué) 2011
[8]基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D]. 黃曉鵬.北京郵電大學(xué) 2010
[9]國際標(biāo)準電子海圖自動改正系統(tǒng)的設(shè)計與實現(xiàn)[D]. 李邵喜.大連海事大學(xué) 2004
[10]數(shù)字航海通告的生成與發(fā)布研究[D]. 王強.大連海事大學(xué) 2003
本文編號:3245401
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3245401.html
最近更新
教材專著