數字航海通告自動獲取與管理系統(tǒng)的設計與實現
發(fā)布時間:2021-06-23 17:58
海圖,是現代航海導航的基本工具。海圖制圖人員快速準確地獲取航海通告信息,及時地用于更正和更新海圖產品,對于保障艦船航行安全具有重要意義。航海通告是海圖生產、海圖改正的重要數據來源。隨著國內外海圖制圖工作由純手工操作進入到以數據庫為核心驅動的數字化階段。近年來,基于快速發(fā)展的互聯網技術,航海通告在發(fā)布和應用方式上也發(fā)生了巨大的變化。依托網絡和數字媒介,較之紙質、電報等傳統(tǒng)載體,具有發(fā)布速度快、海圖改正應用效率高、節(jié)約人力成本等優(yōu)勢。雖然目前依據相關國際條約,我國海圖生產部門可以不定期地從國內外航海通告發(fā)布機構獲取紙質航海通告,但是鑒于通過郵寄方式獲取紙質文檔的周期較長,不利于保障海圖產品的現勢性,所以通常將其作為資料備份或歷史文檔保存。因而,針對目前以互聯網發(fā)布為主的數字航海通告發(fā)布模式,利用計算機智能化技術準確、快速、及時地采集通告數據,提高海圖制圖人員的工作效率,是海圖生產部門亟待解決的一個重要問題。本文以國內外55個航海通告官方網站發(fā)布的數字航海通告為研究對象,研究了數字海圖改正、數字航海通告的內容與結構、編發(fā)模式、計算機網絡爬蟲技術、數據庫技術等,結合我國海圖生產部門對數字航海通...
【文章來源】:上海海洋大學上海市
【文章頁數】:69 頁
【學位級別】:碩士
【部分圖文】:
通用網絡爬蟲Fig.3-1Generalpurposewebcrawler(2)聚焦網絡爬蟲
上海海洋大學碩士學位論文12的抓取,確保數據是最新的[38、39]。增量式網絡爬蟲只會在該網站產生新的數據時進行爬取,可極大地降低數據下載量,減少時間和存儲空間上的耗費,但增加了網絡爬蟲相關算法的復雜度和實現難度。圖3-2主題網絡爬蟲Fig.3-2Topic-focusedcrawler(4)深層網絡爬蟲Web網頁按存在方式可以分為表層網頁和深層網頁[40]。表層網頁是可以通過超鏈接鏈接到的靜態(tài)網頁,傳統(tǒng)搜索引擎一般可以檢索的網頁。深層網頁是只有用戶提交相關數據才可以獲取的表單式頁面,例如:例如用戶登錄后才能訪問的頁面。相對其他爬蟲,深層網絡爬蟲需要具備頁面自動導航交互功能。特別是互聯網進入Web2.0[41]以后,Ajax、JavaScript腳本技術在網站中越來越多的被采用,以至于深層網頁數量的占比在持續(xù)增大,其數量十分巨大。深層網頁可分為兩類:1)基于Ajax的動態(tài)渲染頁面。深層網絡爬蟲需要具有普通瀏覽器腳本執(zhí)行功能,進而加載相應的內容。2)表單頁面。表單頁面是指需要用戶登錄后才能查詢相關數據的網頁,因此,需要實現自動提交用戶信息并記錄原有的Cookie,以及實現自動導航交互瀏覽。3.1.3禮貌采集
上海海洋大學碩士學位論文14[46]。其數據結構采用先進先出(FIFO)的設計,廣度優(yōu)先策略將網頁分為若干層次,按照網頁層次順序,依次抓取每一層的頁面。該搜索算法的效率較低,適合普通的搜索引擎使用。如圖33所示,廣度搜索策略順序是A-C-D-F-B-G-E。3.2.2深度優(yōu)先策略深度優(yōu)先搜索策略是相對于廣度優(yōu)先搜索的策略,設計思想是從根URL開始,找到網頁中的第一個URL進行爬取,然后在采集到的這個頁面中再抽取第一個URL再繼續(xù)爬取,一直重復上述步驟,直到最后一個頁面沒有URL或滿足停止條件,然后回到根URL,找到第二個URL繼續(xù)上面的采集步驟[46]。但由于圖的結構復雜,容易出現死循環(huán),因此一般都會采用URL去重策略和停止條件的組合使用避免爬蟲陷入死循環(huán)。如圖3-4所示,其搜索策略順序是A-C-B-D-F-G-E。3.2.3最佳優(yōu)先策略最佳優(yōu)先策略對URL采用一定的算法計算其與主題的相關度,并選取評價度最好的一個或若干個URL進行抓取[47]。但該搜索策略也存在一個問題,即是一種局部最佳搜索算法,一些局部外的相關網頁無法識別獲取,造成數據的丟失。在具體應用過程中需要結合實際情況加以優(yōu)化,以跳出局部最優(yōu)點的缺陷。圖3-3廣度優(yōu)先搜索策略示意圖Fig.3-3Breadthfirstsearchstrategyschematic
【參考文獻】:
期刊論文
[1]航海通告自動獲取系統(tǒng)的設計與實現[J]. 付燕飛,郭立新,吳婉婷,朱書穎. 海洋測繪. 2019(04)
[2]海圖與航海通告一體化生產技術研究[J]. 王斌,唐巖,王偉,劉波. 海洋測繪. 2016(04)
[3]主題網絡爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學. 2015(02)
[4]Web信息抽取網頁自動瀏覽導航與集成規(guī)則研究[J]. 王海濤,張志亮,孫煜華,袁春風,黃宜華. 計算機科學與探索. 2014(09)
[5]基于CasperJS的Web自動化測試的研究與應用[J]. 潘偉,李佳欣. 信息系統(tǒng)工程. 2014(01)
[6]矢量海圖通告改正自動處理方法研究[J]. 崔洪生,劉國輝,魏麗君. 海洋測繪. 2012(01)
[7]海圖產品一體化更新問題研究[J]. 彭認燦,劉國輝,董箭,鄭義東,唐夢堯. 海洋測繪. 2011(01)
[8]航海通告數字化生產系統(tǒng)的設計與實現[J]. 劉國輝,彭認燦,魏麗君. 測繪科學. 2011(05)
[9]基于一體化思想的海圖更新數據模型[J]. 劉國輝,彭認燦,董箭,李明輝. 測繪科學技術學報. 2010(06)
[10]航海通告數字化生產方法研究[J]. 劉國輝,彭認燦,肖京國,李紀東. 海洋測繪. 2010(06)
博士論文
[1]非結構化網絡空間信息智能搜索與服務研究[D]. 樂小虬.中國科學院研究生院(遙感應用研究所) 2006
碩士論文
[1]基于SpringBoot框架社交網絡平臺的設計與實現[D]. 劉敏.湖南大學 2018
[2]面向主題的多線程網絡爬蟲的設計與實現[D]. 蔡光波.西北民族大學 2017
[3]垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現[D]. 王松.北京郵電大學 2017
[4]分布式智能網絡爬蟲的設計與實現[D]. 何國正.中國科學院大學(工程管理與信息技術學院) 2016
[5]支持動態(tài)頁面的快速URL提取方法研究[D]. 張洪慶.哈爾濱工業(yè)大學 2013
[6]精確Web信息抽取集成模型與關鍵技術研究[D]. 解濤.南京大學 2011
[7]網站結構對搜索引擎抓取的影響[D]. 丁軍艷.鄭州大學 2011
[8]基于網絡爬蟲技術的內容探測系統(tǒng)設計與實現[D]. 黃曉鵬.北京郵電大學 2010
[9]國際標準電子海圖自動改正系統(tǒng)的設計與實現[D]. 李邵喜.大連海事大學 2004
[10]數字航海通告的生成與發(fā)布研究[D]. 王強.大連海事大學 2003
本文編號:3245401
【文章來源】:上海海洋大學上海市
【文章頁數】:69 頁
【學位級別】:碩士
【部分圖文】:
通用網絡爬蟲Fig.3-1Generalpurposewebcrawler(2)聚焦網絡爬蟲
上海海洋大學碩士學位論文12的抓取,確保數據是最新的[38、39]。增量式網絡爬蟲只會在該網站產生新的數據時進行爬取,可極大地降低數據下載量,減少時間和存儲空間上的耗費,但增加了網絡爬蟲相關算法的復雜度和實現難度。圖3-2主題網絡爬蟲Fig.3-2Topic-focusedcrawler(4)深層網絡爬蟲Web網頁按存在方式可以分為表層網頁和深層網頁[40]。表層網頁是可以通過超鏈接鏈接到的靜態(tài)網頁,傳統(tǒng)搜索引擎一般可以檢索的網頁。深層網頁是只有用戶提交相關數據才可以獲取的表單式頁面,例如:例如用戶登錄后才能訪問的頁面。相對其他爬蟲,深層網絡爬蟲需要具備頁面自動導航交互功能。特別是互聯網進入Web2.0[41]以后,Ajax、JavaScript腳本技術在網站中越來越多的被采用,以至于深層網頁數量的占比在持續(xù)增大,其數量十分巨大。深層網頁可分為兩類:1)基于Ajax的動態(tài)渲染頁面。深層網絡爬蟲需要具有普通瀏覽器腳本執(zhí)行功能,進而加載相應的內容。2)表單頁面。表單頁面是指需要用戶登錄后才能查詢相關數據的網頁,因此,需要實現自動提交用戶信息并記錄原有的Cookie,以及實現自動導航交互瀏覽。3.1.3禮貌采集
上海海洋大學碩士學位論文14[46]。其數據結構采用先進先出(FIFO)的設計,廣度優(yōu)先策略將網頁分為若干層次,按照網頁層次順序,依次抓取每一層的頁面。該搜索算法的效率較低,適合普通的搜索引擎使用。如圖33所示,廣度搜索策略順序是A-C-D-F-B-G-E。3.2.2深度優(yōu)先策略深度優(yōu)先搜索策略是相對于廣度優(yōu)先搜索的策略,設計思想是從根URL開始,找到網頁中的第一個URL進行爬取,然后在采集到的這個頁面中再抽取第一個URL再繼續(xù)爬取,一直重復上述步驟,直到最后一個頁面沒有URL或滿足停止條件,然后回到根URL,找到第二個URL繼續(xù)上面的采集步驟[46]。但由于圖的結構復雜,容易出現死循環(huán),因此一般都會采用URL去重策略和停止條件的組合使用避免爬蟲陷入死循環(huán)。如圖3-4所示,其搜索策略順序是A-C-B-D-F-G-E。3.2.3最佳優(yōu)先策略最佳優(yōu)先策略對URL采用一定的算法計算其與主題的相關度,并選取評價度最好的一個或若干個URL進行抓取[47]。但該搜索策略也存在一個問題,即是一種局部最佳搜索算法,一些局部外的相關網頁無法識別獲取,造成數據的丟失。在具體應用過程中需要結合實際情況加以優(yōu)化,以跳出局部最優(yōu)點的缺陷。圖3-3廣度優(yōu)先搜索策略示意圖Fig.3-3Breadthfirstsearchstrategyschematic
【參考文獻】:
期刊論文
[1]航海通告自動獲取系統(tǒng)的設計與實現[J]. 付燕飛,郭立新,吳婉婷,朱書穎. 海洋測繪. 2019(04)
[2]海圖與航海通告一體化生產技術研究[J]. 王斌,唐巖,王偉,劉波. 海洋測繪. 2016(04)
[3]主題網絡爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學. 2015(02)
[4]Web信息抽取網頁自動瀏覽導航與集成規(guī)則研究[J]. 王海濤,張志亮,孫煜華,袁春風,黃宜華. 計算機科學與探索. 2014(09)
[5]基于CasperJS的Web自動化測試的研究與應用[J]. 潘偉,李佳欣. 信息系統(tǒng)工程. 2014(01)
[6]矢量海圖通告改正自動處理方法研究[J]. 崔洪生,劉國輝,魏麗君. 海洋測繪. 2012(01)
[7]海圖產品一體化更新問題研究[J]. 彭認燦,劉國輝,董箭,鄭義東,唐夢堯. 海洋測繪. 2011(01)
[8]航海通告數字化生產系統(tǒng)的設計與實現[J]. 劉國輝,彭認燦,魏麗君. 測繪科學. 2011(05)
[9]基于一體化思想的海圖更新數據模型[J]. 劉國輝,彭認燦,董箭,李明輝. 測繪科學技術學報. 2010(06)
[10]航海通告數字化生產方法研究[J]. 劉國輝,彭認燦,肖京國,李紀東. 海洋測繪. 2010(06)
博士論文
[1]非結構化網絡空間信息智能搜索與服務研究[D]. 樂小虬.中國科學院研究生院(遙感應用研究所) 2006
碩士論文
[1]基于SpringBoot框架社交網絡平臺的設計與實現[D]. 劉敏.湖南大學 2018
[2]面向主題的多線程網絡爬蟲的設計與實現[D]. 蔡光波.西北民族大學 2017
[3]垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現[D]. 王松.北京郵電大學 2017
[4]分布式智能網絡爬蟲的設計與實現[D]. 何國正.中國科學院大學(工程管理與信息技術學院) 2016
[5]支持動態(tài)頁面的快速URL提取方法研究[D]. 張洪慶.哈爾濱工業(yè)大學 2013
[6]精確Web信息抽取集成模型與關鍵技術研究[D]. 解濤.南京大學 2011
[7]網站結構對搜索引擎抓取的影響[D]. 丁軍艷.鄭州大學 2011
[8]基于網絡爬蟲技術的內容探測系統(tǒng)設計與實現[D]. 黃曉鵬.北京郵電大學 2010
[9]國際標準電子海圖自動改正系統(tǒng)的設計與實現[D]. 李邵喜.大連海事大學 2004
[10]數字航海通告的生成與發(fā)布研究[D]. 王強.大連海事大學 2003
本文編號:3245401
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3245401.html