Heritrix在電子信息垂直搜索平臺中的應用
本文關(guān)鍵詞:Heritrix在電子信息垂直搜索平臺中的應用
更多相關(guān)文章: Heritrix ELFHash算法 多線程 電子信息 垂直搜索引擎
【摘要】:介紹了垂直搜索引擎和網(wǎng)絡爬蟲的基本概念,以及Heritrix系統(tǒng)的體系結(jié)構(gòu),分析了Heritrix工作流程,針對Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通過擴展Heritrix實現(xiàn)了電信信息搜索平臺信息的定向與多線程抓取,為建立面向電子信息的垂直搜索引擎提供了信息源.
【作者單位】: 西華大學數(shù)學與計算機學院;成都大學電子信息工程學院;
【關(guān)鍵詞】: Heritrix ELFHash算法 多線程 電子信息 垂直搜索引擎
【基金】:四川省科技基礎條件平臺資助項目
【分類號】:TP391.3
【正文快照】: 0引言隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,萬維網(wǎng)已成為大量信息的載體,如何有效地提取并利用這些信息已成為一個巨大的挑戰(zhàn).搜索引擎作為檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南,但是,作為傳統(tǒng)搜索引擎,如Goolge、百度等,存在一定的局限性:傳統(tǒng)搜索引擎不能很好地解決個人搜索需求
【共引文獻】
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 王棟;陳勇;徐建良;;基于預測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應用學術(shù)論壇論文集(二)[C];2008年
2 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 李新安;基于領(lǐng)域主題的Web信息檢索技術(shù)研究[D];山東大學;2006年
2 劉潔清;網(wǎng)站聚焦爬蟲研究[D];江西財經(jīng)大學;2006年
3 羅兵;支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲設計與實現(xiàn)[D];浙江大學;2007年
4 杜光芹;效用驅(qū)動的主題Web挖掘算法研究[D];山東師范大學;2007年
5 李文澤;個性化垂直搜索引擎研究[D];河南大學;2007年
6 王慶濤;基于本體的Web信息采集研究[D];中南大學;2007年
7 高嶺;Deep Web分類搜索引擎關(guān)鍵技術(shù)研究[D];蘇州大學;2007年
8 方利偉;個性化在線答疑系統(tǒng)的研究與實現(xiàn)[D];浙江師范大學;2007年
9 呂昊;面向垂直搜索的聚焦爬蟲研究及應用[D];浙江大學;2008年
10 鄭健珍;定題爬蟲搜索策略研究[D];廈門大學;2007年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 郝鳳英;垂直網(wǎng)站及其信息服務模式[J];情報理論與實踐;2002年02期
2 肖冬梅;垂直搜索引擎研究[J];圖書館學研究;2003年02期
3 沈賀丹;潘亞楠;邵良杉;;關(guān)于搜索引擎的研究綜述[J];計算機技術(shù)與發(fā)展;2006年04期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孟祥成;;基于Lucene和Heritrix技術(shù)搜索引擎的設計與實現(xiàn)[J];中國現(xiàn)代教育裝備;2010年03期
2 李丹;顧保磊;;基于Heritrix的內(nèi)容搜索引擎系統(tǒng)[J];軟件導刊;2010年04期
3 高偉鋒;;基于Heritrix的主題網(wǎng)絡爬蟲設計與實現(xiàn)[J];南寧職業(yè)技術(shù)學院學報;2011年01期
4 陳俊彬;曹樹金;;基于Heritrix的Web信息抽取[J];圖書情報工作;2009年09期
5 張盼;聶剛;;基于Lucene的全文檢索系統(tǒng)的設計與實現(xiàn)[J];電腦知識與技術(shù);2010年01期
6 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現(xiàn)[J];大眾科技;2010年02期
7 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期
8 孫庚;馮艷紅;于紅;史鵬輝;;一種基于Heritrix的網(wǎng)絡定題爬蟲算法——以漁業(yè)信息網(wǎng)絡為例[J];軟件導刊;2010年05期
9 劉博卿;;基于軍事的主題搜索引擎研究[J];福建電腦;2011年09期
10 張瑞;;城市公交專題搜索引擎的實現(xiàn)[J];電腦知識與技術(shù);2010年30期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 汪沛;;Isolex股市預測系統(tǒng)的設計與實現(xiàn)[A];促進企業(yè)信息化進程——第十屆中國Java技術(shù)及應用大會文集[C];2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉顯一;基于Lucene和Heritrix的主題搜索引擎的設計與實現(xiàn)[D];北京郵電大學;2012年
2 張偉;垂直搜索引擎設計與實現(xiàn)[D];西安電子科技大學;2008年
3 李亮;基于Lucene和Heritrix的職位垂直搜索引擎的設計與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年
4 呂昊;面向垂直搜索的聚焦爬蟲研究及應用[D];浙江大學;2008年
5 丁照波;基于Lucene的AEP垂直搜索引擎的研究與實現(xiàn)[D];華中科技大學;2008年
6 劉運佳;基于Lucene和Heririx構(gòu)建搜索引擎的研究和示例實現(xiàn)[D];電子科技大學;2008年
7 張書江;基于Java的垂直搜索引擎的設計與實現(xiàn)[D];安徽理工大學;2009年
8 謝僑;一個基于二次過濾的垂直搜索引擎的設計與實現(xiàn)[D];暨南大學;2008年
9 翟曉玲;面向?qū)W科的基礎教育資源垂直搜索引擎的研究與實現(xiàn)[D];東北師范大學;2009年
10 李山亭;基于語義的網(wǎng)絡化制造資源智能檢索技術(shù)研究[D];浙江大學;2008年
,本文編號:788419
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/788419.html