工業(yè)網(wǎng)站識別與分類系統(tǒng)的研究與實現(xiàn)
【圖文】:
第 2 章 相關(guān)工作的網(wǎng)頁下載到本地存儲,形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份,通用網(wǎng)絡(luò)爬蟲通從互聯(lián)網(wǎng)中搜集網(wǎng)頁,抓取網(wǎng)頁信息。本文再數(shù)據(jù)獲取方面主要使用了聚焦爬蟲[23]技術(shù),聚焦爬蟲相比較與通用蟲的應(yīng)用場景和工作原理有所不同,聚焦爬蟲的工作流程不僅僅是無差別的取網(wǎng)頁內(nèi)容和新的 URL,聚焦爬蟲是根據(jù)一定的分析算法,分析網(wǎng)頁結(jié)構(gòu)和頁文本內(nèi)容過濾掉與原網(wǎng)頁主題無關(guān)的鏈接,保留與原網(wǎng)頁主題貼切的鏈接,對這些鏈接展開后續(xù)的分析和爬取。相對于通用爬蟲的工作方式,聚焦爬蟲要重點研究的三個特點:(1) 對爬取網(wǎng)頁主題的定義;(2) 對爬取網(wǎng)頁內(nèi)容的分析和過濾;(3) 對 URL 爬取的搜索策略。焦爬蟲的三個研究特點是聚焦爬蟲爬取網(wǎng)頁性能的關(guān)鍵,聚焦爬蟲系統(tǒng)結(jié)構(gòu)如圖 2-1 所示:
第 2 章 相關(guān)工作求,使用聚焦爬蟲技術(shù)爬取根網(wǎng)站的網(wǎng)頁內(nèi)容,篩選網(wǎng)切的 URL,組成 URL 集合,保存只數(shù)據(jù)庫系統(tǒng)中,,為后分類獲取數(shù)據(jù)支撐。后續(xù)的系統(tǒng)研究可以查取對應(yīng)的 U塊獲取對應(yīng)的網(wǎng)站的內(nèi)容,對網(wǎng)站內(nèi)的文本進行識別和的識別和分類系統(tǒng)中聚焦爬蟲模塊的工作流程圖,如圖
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP393.092;TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 王麗麗;陳雯嫣;戴天;;《我的網(wǎng)站我設(shè)計》微課程教學(xué)設(shè)計[J];中國信息技術(shù)教育;2017年Z1期
2 栗輝;唐萌;陳豪;;基于用戶行為分析的網(wǎng)站結(jié)構(gòu)優(yōu)化研究綜述[J];計算機科學(xué);2016年S1期
3 王春艷;張彥芳;;網(wǎng)站結(jié)構(gòu)規(guī)劃探討[J];東方企業(yè)文化;2013年04期
4 徐t;;談網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進展[J];東方企業(yè)文化;2010年03期
5 奚冬芹;林文龍;竺炯林;;基于隱馬爾可夫模型的電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化[J];計算機應(yīng)用研究;2009年03期
6 朱英;瞿有利;陳誼;孫悅紅;;信息抽取中網(wǎng)站結(jié)構(gòu)樹生成方法的研究[J];北京工商大學(xué)學(xué)報(自然科學(xué)版);2006年05期
7 ;建立網(wǎng)站的基礎(chǔ)工作——定義網(wǎng)站結(jié)構(gòu)[J];上海微型計算機;1999年39期
8 王有為,汪定偉;基于關(guān)聯(lián)系數(shù)的電子超市網(wǎng)站結(jié)構(gòu)優(yōu)化模型及算法復(fù)雜性分析[J];小型微型計算機系統(tǒng);2004年04期
9 于華;;網(wǎng)站結(jié)構(gòu)優(yōu)化方案的設(shè)計與實現(xiàn)[J];現(xiàn)代計算機(專業(yè)版);2017年20期
10 井福榮;謝輔雯;;關(guān)聯(lián)規(guī)則在網(wǎng)站結(jié)構(gòu)優(yōu)化中的改進算法[J];計算機系統(tǒng)應(yīng)用;2007年01期
相關(guān)會議論文 前2條
1 何焱;;關(guān)于公共圖書館網(wǎng)站結(jié)構(gòu)和交互性探討[A];公共文化服務(wù)與圖書館實踐的創(chuàng)新——浙江省圖書館學(xué)會第十次學(xué)術(shù)研討會論文集[C];2006年
2 胡漢杰;;辦好中國聚合物網(wǎng),搭建高分子學(xué)-產(chǎn)-市場溝通的橋梁[A];2005年全國高分子學(xué)術(shù)論文報告會論文摘要集[C];2005年
相關(guān)重要報紙文章 前10條
1 雨凡;政府網(wǎng)站“高質(zhì)量”乃大勢所趨[N];中國人口報;2018年
2 劉安;檔案期刊與網(wǎng)絡(luò)相互強身[N];中國檔案報;2003年
3 飄零劍客;網(wǎng)站結(jié)構(gòu)和頁面規(guī)劃[N];中國電腦教育報;2004年
4 肖克永 王重陽 沙艷秋;市總網(wǎng)絡(luò)工作全省推廣[N];鎮(zhèn)江日報;2010年
5 ;中小企業(yè)步入“無紙”商務(wù)[N];中國工商報;2000年
6 ;三網(wǎng)合一溝通無限[N];中國電腦教育報;2003年
7 ;機構(gòu)這么多,有何區(qū)別?青少年編程國內(nèi)各機構(gòu)體驗報告[N];電腦報;2018年
8 ;Caw 4~7層測試方案[N];網(wǎng)絡(luò)世界;2002年
9 朱春雷;Wiki實現(xiàn)知識共享[N];計算機世界;2006年
10 方微;Web2.0企業(yè)化應(yīng)用 員工間協(xié)同的解決之道[N];通信信息報;2006年
相關(guān)碩士學(xué)位論文 前10條
1 葛堯;工業(yè)網(wǎng)站識別與分類系統(tǒng)的研究與實現(xiàn)[D];遼寧大學(xué);2019年
2 陳志宇;社會化問答網(wǎng)站辟謠功能研究[D];中南民族大學(xué);2018年
3 杜華;電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化模型與算法研究[D];首都師范大學(xué);2009年
4 唐明慧;基于多目標模型的電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化研究[D];沈陽大學(xué);2013年
5 孫曉磊;基于WEB挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化研究[D];電子科技大學(xué);2011年
6 劉明鳴;基于Web使用挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究[D];電子科技大學(xué);2016年
7 李亮;基于WEB挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究[D];西北師范大學(xué);2012年
8 奚冬芹;基于WEB使用挖掘的電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化[D];合肥工業(yè)大學(xué);2009年
9 余智學(xué);基于Web會話仿真的網(wǎng)站結(jié)構(gòu)優(yōu)化研究[D];合肥工業(yè)大學(xué);2008年
10 韓佳;基于禁忌搜索算法的網(wǎng)站鏈接結(jié)構(gòu)優(yōu)化方法研究[D];杭州電子科技大學(xué);2015年
本文編號:2607759
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2607759.html