天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

專用Web信息收集系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)

發(fā)布時(shí)間:2018-06-28 16:40

  本文選題:Heritrix + HTMLParser ; 參考:《煤炭技術(shù)》2011年08期


【摘要】:Heritrix是由Java開(kāi)發(fā)的開(kāi)源Web網(wǎng)絡(luò)爬蟲(chóng),HTMLParser技術(shù)對(duì)抓取后網(wǎng)頁(yè)內(nèi)容進(jìn)行高效率解析,對(duì)信息進(jìn)行再一次整合,很好的解決了專業(yè)搜索引擎所需數(shù)據(jù)來(lái)源問(wèn)題。文章探討了基于Heritrix和HTMLParser構(gòu)建Web信息收集系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。
[Abstract]:Heritrix is an open source Web crawler developed by Java. HTMLParser can efficiently parse the contents of the web pages after crawling and reintegrate the information, which solves the problem of the data source needed by the professional search engine. This paper discusses the design and implementation of Web information collection system based on Heritrix and HTML Parser.
【作者單位】: 新疆藝術(shù)學(xué)院基礎(chǔ)部;
【分類號(hào)】:TP393.09

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 歐陽(yáng)柳波,李學(xué)勇,李國(guó)徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計(jì)算機(jī)工程;2004年13期

2 朱雪蓮;;基于Lucene專業(yè)搜索引擎的研究應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2010年09期

3 珠杰;羅潘;;基于HTML Parser的網(wǎng)頁(yè)信息提取技術(shù)研究[J];西藏大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 康海燕;任俊玲;陳昕;王鶴溈;;基于自然語(yǔ)言處理的多級(jí)網(wǎng)頁(yè)過(guò)濾器研究[J];信息安全與技術(shù);2011年10期

2 陳悅;陳運(yùn);楊義先;胡迪;;基于遺傳算法的聚焦爬蟲(chóng)搜索策略設(shè)計(jì)與研究[J];成都信息工程學(xué)院學(xué)報(bào);2011年05期

3 付濤;;基于背景的Web廣泛主題發(fā)現(xiàn)方法[J];電腦學(xué)習(xí);2010年02期

4 王冬;;中文信息檢索關(guān)鍵技術(shù)分析[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年15期

5 王冬;張運(yùn)波;黃應(yīng)紅;;中文信息檢索關(guān)鍵技術(shù)分析[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年17期

6 張麗敏;;垂直搜索引擎的主題爬蟲(chóng)策略[J];電腦知識(shí)與技術(shù);2010年15期

7 王兵;許少華;張興旺;;基于改進(jìn)PageRank算法的管道專業(yè)搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];大慶石油學(xué)院學(xué)報(bào);2007年01期

8 謝吉?jiǎng)?;中小型網(wǎng)站的搜索引擎優(yōu)化實(shí)施策略[J];高等函授學(xué)報(bào)(自然科學(xué)版);2009年01期

9 孫宏;李戴維;董旭陽(yáng);季澤旭;;搜索引擎技術(shù)與發(fā)展綜述[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年14期

10 張濤;;針對(duì)企業(yè)網(wǎng)站的搜索引擎優(yōu)化策略[J];湖北工業(yè)大學(xué)學(xué)報(bào);2009年05期

相關(guān)碩士學(xué)位論文 前10條

1 李永春;主題搜索引擎的研究與實(shí)現(xiàn)[D];哈爾濱理工大學(xué);2010年

2 陳可欽;基于垂直搜索引擎的主題爬蟲(chóng)算法的研究[D];中南林業(yè)科技大學(xué);2009年

3 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江工商大學(xué);2011年

4 王兆宇;個(gè)性化站內(nèi)搜索引擎的設(shè)計(jì)與應(yīng)用[D];東華大學(xué);2011年

5 盧承山;基于領(lǐng)域的主題信息采集技術(shù)研究[D];武漢理工大學(xué);2011年

6 王小森;基于Solr的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

7 郭姣;基于WebGIS的五金產(chǎn)業(yè)信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山西財(cái)經(jīng)大學(xué);2011年

8 趙思佳;基于規(guī)則引擎的個(gè)性化網(wǎng)頁(yè)爬蟲(chóng)研究[D];中南大學(xué);2010年

9 吳宗坤;基于Fuse的資源搜索文件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2011年

10 李軍青;基于互聯(lián)網(wǎng)的個(gè)性化健康信息定制系統(tǒng)構(gòu)建[D];復(fù)旦大學(xué);2010年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 歐陽(yáng)柳波,李學(xué)勇,李國(guó)徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計(jì)算機(jī)工程;2004年13期

2 珠杰;歐珠;格桑多吉;;基于DOM修剪的藏文Web信息提取[J];計(jì)算機(jī)工程;2008年24期

3 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報(bào)科學(xué);2007年01期

4 李廣麗;劉覺(jué)夫;;垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J];情報(bào)雜志;2009年10期

相關(guān)碩士學(xué)位論文 前2條

1 呂韓飛;主題(topical)crawler及其應(yīng)用——主題搜索引擎[D];浙江大學(xué);2005年

2 程書紅;基于XML的Web信息抽取設(shè)計(jì)與實(shí)現(xiàn)[D];重慶大學(xué);2007年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李方敏;CGI的安全編程[J];計(jì)算機(jī)工程與應(yīng)用;1999年06期

2 宋如順,姜乃松;基于Web的遠(yuǎn)程考試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;1999年06期

3 王紅霞,姚家亮;利用ASP構(gòu)建新型信息系統(tǒng)的方法與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;1999年09期

4 鄧勁生,張銀福;面向?qū)ο蟮亩嗝襟w信息WEB發(fā)布[J];計(jì)算機(jī)應(yīng)用研究;1999年09期

5 刁興春,李赤紅;Intranet環(huán)境下事務(wù)處理的理論研究和實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);1999年06期

6 高昆;基于ASP的WEB站點(diǎn)開(kāi)發(fā)技術(shù)分析[J];北華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);1999年05期

7 王清心,胡建華;經(jīng)貿(mào)數(shù)據(jù)庫(kù)的WEB集成發(fā)布[J];昆明理工大學(xué)學(xué)報(bào);1999年02期

8 李晶,朱秋萍;Web頁(yè)制作中的動(dòng)態(tài)表現(xiàn)技術(shù)[J];計(jì)算機(jī)工程;2000年06期

9 劉波,代亞非,杜躍進(jìn);遠(yuǎn)程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2000年06期

10 武莊,劉友丹;基于Web的企業(yè)內(nèi)部質(zhì)量審核系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2000年05期

相關(guān)會(huì)議論文 前10條

1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個(gè)性化服務(wù)技術(shù)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

2 李利波;劉明利;;一種改進(jìn)的無(wú)回溯反向Web服務(wù)動(dòng)態(tài)組合方法[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年

3 游爭(zhēng)光;劉建勛;唐明董;;分布式Web服務(wù)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個(gè)性化導(dǎo)航知識(shí)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

5 ;基于廣義對(duì)話的Web用戶的聚類(英文)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

6 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

8 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問(wèn)控制技術(shù)研究[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

9 黃建波;丁揚(yáng);方芳;;基于代理服務(wù)器的Web加速的實(shí)現(xiàn)[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2010年

10 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

相關(guān)重要報(bào)紙文章 前10條

1 趙曉濤;Web安全 服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年

2 本報(bào)記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡(luò)世界;2008年

3 彭敏;企業(yè)級(jí)Web2.0迎來(lái)應(yīng)用高潮[N];電腦商報(bào);2009年

4 本報(bào)記者 毛江華;安啟華聯(lián)手賽門鐵克 掘金Web安全[N];計(jì)算機(jī)世界;2009年

5 閆冰;“推”出Web交付新天地[N];網(wǎng)絡(luò)世界;2009年

6 趙曉濤;中國(guó)成全球Web安全新看點(diǎn)[N];網(wǎng)絡(luò)世界;2009年

7 邊歆;動(dòng)態(tài)阻斷Web2.0威脅[N];網(wǎng)絡(luò)世界;2009年

8 泰樂(lè)公司首席技術(shù)官兼執(zhí)行副總裁Vikram Saksena;學(xué)習(xí)Web 3.0 做聰明的“管道工”[N];通信產(chǎn)業(yè)報(bào);2009年

9 ;Web2.0工具使用須謹(jǐn)慎[N];網(wǎng)絡(luò)世界;2009年

10 Anchiva中國(guó)區(qū)總經(jīng)理 李松;Web安全選型三個(gè)標(biāo)準(zhǔn)[N];網(wǎng)絡(luò)世界;2008年

相關(guān)博士學(xué)位論文 前10條

1 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

2 魏登萍;語(yǔ)義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

3 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年

4 黃雪娟;語(yǔ)義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年

5 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年

6 陳世展;服務(wù)網(wǎng)絡(luò):基于語(yǔ)義和社會(huì)化關(guān)系的Web服務(wù)計(jì)算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年

7 朱俊武;基于本體的Web服務(wù)語(yǔ)義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年

8 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

9 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年

10 王秀峰;Web導(dǎo)航中用戶認(rèn)知特征及行為研究[D];南京大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 唐黎;Deep Web頁(yè)面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年

2 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年

3 徐衛(wèi);Web新聞熱點(diǎn)發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年

4 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽(yáng)工業(yè)大學(xué);2012年

5 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國(guó)海洋大學(xué);2011年

6 焦燕廷;一種基于領(lǐng)域本體的語(yǔ)義Web服務(wù)匹配和組合方法[D];山東科技大學(xué);2011年

7 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲(chóng)技術(shù)研究[D];杭州電子科技大學(xué);2012年

8 趙春娟;Web服務(wù)組合方法的研究與實(shí)現(xiàn)[D];天津理工大學(xué);2011年

9 任強(qiáng);基于謂詞抽象與精化技術(shù)的Web服務(wù)驗(yàn)證研究[D];蘇州大學(xué);2011年

10 侯曉帆;基于云計(jì)算的Web教育爬蟲(chóng)[D];東北師范大學(xué);2011年

,

本文編號(hào):2078659

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2078659.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9d6a4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com