探究ID3分類(lèi)算法的深度網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)方法
本文關(guān)鍵詞:探究ID3分類(lèi)算法的深度網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)方法
更多相關(guān)文章: ID算法 深度網(wǎng)絡(luò) 爬蟲(chóng)算法
【摘要】:隨著網(wǎng)絡(luò)技術(shù)不斷的發(fā)展,互聯(lián)網(wǎng)作為海量信息的載體已全面滲透到經(jīng)濟(jì)社會(huì)的各個(gè)領(lǐng)域,推動(dòng)著我國(guó)向信息化社會(huì)發(fā)展。搜索引擎技術(shù)正在從以移動(dòng)互聯(lián)網(wǎng)為標(biāo)志的個(gè)人需求精準(zhǔn)搜索向以物聯(lián)網(wǎng)為標(biāo)志的實(shí)體搜索發(fā)展。本文探討了一種按照ID3算法分類(lèi)的深度網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)方法,該方法按照ID3算法對(duì)頁(yè)面進(jìn)行收集、分析、處理和分類(lèi),從而提取深度表單數(shù)據(jù),能夠使搜索引擎減少搜索盲區(qū),有效的改善和優(yōu)化搜索結(jié)果。
【作者單位】: 十堰廣播電視大學(xué)教育學(xué)院理工部;
【關(guān)鍵詞】: ID算法 深度網(wǎng)絡(luò) 爬蟲(chóng)算法
【分類(lèi)號(hào)】:TP391.3;TP393.092
【正文快照】: 1引言隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息的產(chǎn)生量以爆炸式的速度增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。經(jīng)過(guò)大量的研究表明,目前互聯(lián)網(wǎng)上存在著很多網(wǎng)頁(yè)是不能夠通過(guò)超級(jí)鏈接的設(shè)置而進(jìn)行訪問(wèn)的。有很多深度位置的網(wǎng)頁(yè)便成為了引擎搜
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 姚全珠;楊增輝;張楠;田元;;基于啟發(fā)式查詢(xún)?cè)~選擇算法的Hidden Web獲取研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年34期
2 蘇潭英;郭憲勇;金鑫;;一種基于Lucene的中文全文檢索系統(tǒng)[J];計(jì)算機(jī)工程;2007年23期
3 李靜靜;閆宏飛;;中文網(wǎng)頁(yè)信息檢索測(cè)試集的構(gòu)建、分析及應(yīng)用[J];中文信息學(xué)報(bào);2008年01期
4 曹強(qiáng);;基于Lucene的Web站點(diǎn)站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];圖書(shū)情報(bào)工作;2007年09期
5 方巍;胡鵬昱;趙朋朋;崔志明;;基于語(yǔ)義的Deep Web數(shù)據(jù)源自動(dòng)發(fā)現(xiàn)技術(shù)[J];微電子學(xué)與計(jì)算機(jī);2007年09期
6 趙朋朋;崔志明;高嶺;仲華;;關(guān)于中國(guó)Deep Web的規(guī)模、分布和結(jié)構(gòu)[J];小型微型計(jì)算機(jī)系統(tǒng);2007年10期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 趙剛;冒亞明;劉斌;;基于Oracle和Lucene.net的文檔管理系統(tǒng)[J];電腦知識(shí)與技術(shù);2008年S2期
2 周文勤;;使用Heritrix和Lucence的全文檢索解決方案[J];甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
3 卓林;;基于本體和語(yǔ)義相似度的Deep Web數(shù)據(jù)源發(fā)現(xiàn)技術(shù)[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年20期
4 胡宏偉;虞萍;周南;喬軍;;基于Lucene的文獻(xiàn)資料全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2014年11期
5 楊麗華;袁方;姚增利;王煜;;基于啟發(fā)式規(guī)則的Deep Web接口發(fā)現(xiàn)[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
6 佟興帆;鄧輝宇;李志明;;上海光源產(chǎn)品管理系統(tǒng)及其全文檢索子系統(tǒng)的改進(jìn)[J];核技術(shù);2011年07期
7 詹青;崔賓閣;;基于網(wǎng)格的Deep Web數(shù)據(jù)集成系統(tǒng)研究[J];計(jì)算機(jī)與信息技術(shù);2009年Z2期
8 劉啟剛;;網(wǎng)絡(luò)課程答疑系統(tǒng)的研究與設(shè)計(jì)[J];江蘇廣播電視大學(xué)學(xué)報(bào);2009年03期
9 張亮;陸余良;房珊瑤;;基于量子自組織神經(jīng)網(wǎng)絡(luò)的Deep Web分類(lèi)方法研究[J];計(jì)算機(jī)科學(xué);2011年06期
10 劉玉奎;周立柱;范舉;;中文深度萬(wàn)維網(wǎng)數(shù)據(jù)庫(kù)的現(xiàn)狀研究[J];計(jì)算機(jī)學(xué)報(bào);2011年02期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 孟祥福;Web數(shù)據(jù)庫(kù)柔性查詢(xún)關(guān)鍵技術(shù)研究[D];東北大學(xué);2010年
2 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年
3 李雁妮;深網(wǎng)數(shù)據(jù)集成與挖掘關(guān)鍵問(wèn)題的建模及算法研究[D];西安電子科技大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 吳世勇;基于聚類(lèi)分析的搜索引擎自動(dòng)性能評(píng)價(jià)研究[D];江西師范大學(xué);2010年
2 王兆宇;個(gè)性化站內(nèi)搜索引擎的設(shè)計(jì)與應(yīng)用[D];東華大學(xué);2011年
3 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
4 劉照然;遠(yuǎn)程教育中智能答疑系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
5 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
6 吳代文;基于Lucene的二次全文檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
7 丁士敏;基于Ajax/Lucene的站內(nèi)搜索技術(shù)研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年
8 孟繁佳;航運(yùn)企業(yè)動(dòng)態(tài)電子商務(wù)系統(tǒng)的研究與應(yīng)用[D];大連海事大學(xué);2011年
9 鄧蓉;基于本體的深度搜索系統(tǒng)關(guān)鍵詞庫(kù)的構(gòu)造與研究[D];江西師范大學(xué);2011年
10 張仲祥;基于領(lǐng)域本體的Deep Web數(shù)據(jù)源聚焦技術(shù)研究[D];廣西師范大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 閆宏飛,李曉明;關(guān)于中國(guó)Web的大小、形狀和結(jié)構(gòu)[J];計(jì)算機(jī)研究與發(fā)展;2002年08期
2 曹元大,賀海軍,涂哲明,王琴;全文檢索字索引技術(shù)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2002年06期
3 陳士杰,張sソ,
本文編號(hào):748887
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/748887.html