天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

垂直搜索引擎中聚焦爬蟲技術(shù)的研究

發(fā)布時(shí)間:2016-12-15 13:45

  本文關(guān)鍵詞:垂直搜索引擎中聚焦爬蟲技術(shù)的研究,由筆耕文化傳播整理發(fā)布。


《哈爾濱工程大學(xué)》 2012年

垂直搜索引擎中聚焦爬蟲技術(shù)的研究

劉麗杰  

【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,多元化信息呈幾何級(jí)數(shù)增長(zhǎng),用戶對(duì)于信息檢索服務(wù)也提出了越來(lái)越高的要求,尤其是在檢索結(jié)果的專業(yè)性和準(zhǔn)確性上,而通用搜索引擎的檢索能力無(wú)法滿足這種需求,垂直搜索引擎應(yīng)運(yùn)而生。它是一種全新的搜索服務(wù)模式,是為某一特定專業(yè)、人群或主題的需求提供服務(wù)的。針對(duì)通用搜索引擎而言,垂直搜索引擎具有檢索更精確、專注、具體和深入的特點(diǎn)。 聚焦爬蟲作為垂直搜索引擎的核心部件,它采用何種搜索策略檢索Web資源會(huì)直接影響到垂直搜索引擎的優(yōu)劣,因此近年來(lái)聚焦爬蟲已成為垂直搜索引擎研究中的熱點(diǎn)領(lǐng)域之一。論文詳細(xì)的闡述了垂直搜索引擎和聚焦爬蟲的相關(guān)概念、工作原理及主要關(guān)鍵技術(shù),在仔細(xì)研究搜索引擎中現(xiàn)有經(jīng)典的搜索策略、主題相關(guān)性判別算法及頁(yè)面的分布特征的基礎(chǔ)上,提出基于主題相關(guān)度和頁(yè)面重要性相結(jié)合的立即價(jià)值來(lái)判別頁(yè)面主題相關(guān)性,并采用自適應(yīng)免疫算法指導(dǎo)聚焦爬蟲的爬行策略,取得了較好的實(shí)際效果。同時(shí)針對(duì)基于單一價(jià)值評(píng)價(jià)的聚焦爬蟲搜索策略存在主題漂移等不足,提出一種基于量子進(jìn)化算法(QBEA)的智能爬行算法,該算法充分結(jié)合網(wǎng)頁(yè)在互聯(lián)網(wǎng)上的分布特點(diǎn),利用立即價(jià)值和未來(lái)價(jià)值兩類評(píng)價(jià)標(biāo)準(zhǔn)的優(yōu)勢(shì),根據(jù)聚焦爬蟲實(shí)際運(yùn)行過(guò)程中的搜索情況,在線調(diào)整這兩種標(biāo)準(zhǔn)在綜合價(jià)值中的比重,通過(guò)實(shí)驗(yàn)仿真結(jié)果可知,量子進(jìn)化算法獲得較高的頁(yè)面查全率和信息查準(zhǔn)率,,能較好地解決現(xiàn)存問(wèn)題,具有一定的自適應(yīng)性。 最后,針對(duì)實(shí)際應(yīng)用需要,將所提聚焦爬蟲搜索策略應(yīng)用到實(shí)際系統(tǒng)中,并在系統(tǒng)中引入了Oracle SES技術(shù),運(yùn)行結(jié)果表明本文的工作是有效的,具有一定的創(chuàng)新性和實(shí)際應(yīng)用價(jià)值。

【關(guān)鍵詞】:
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【目錄】:

下載全文 更多同類文獻(xiàn)

CAJ全文下載

(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 赫楓齡,左萬(wàn)利;利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期

2 駱慶;;中文搜索引擎中的網(wǎng)絡(luò)蜘蛛[J];福建電腦;2006年12期

3 唐雅媛;;基于搜索引擎的網(wǎng)絡(luò)蜘蛛實(shí)現(xiàn)原理的研究[J];湖南科技學(xué)院學(xué)報(bào);2006年11期

4 左興權(quán),李士勇;一種用于優(yōu)化計(jì)算的自適應(yīng)免疫算法[J];計(jì)算機(jī)工程與應(yīng)用;2003年20期

5 陳一峰;趙恒凱;余小清;萬(wàn)旺根;;基于遺傳算法的主題爬蟲策略改進(jìn)[J];計(jì)算機(jī)仿真;2010年10期

6 劉朋;林泓;高德威;;基于內(nèi)容和鏈接分析的主題爬蟲策略[J];計(jì)算機(jī)與數(shù)字工程;2009年01期

7 王靖,肖明君,蔡慶生;一種基于Web的智能搜索方法[J];計(jì)算機(jī)應(yīng)用研究;2001年11期

8 鄭國(guó)良;葉飛躍;張濱;林國(guó)俊;;基于網(wǎng)頁(yè)內(nèi)容和鏈接價(jià)值的相關(guān)度方法的實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年23期

9 童亞拉;;自適應(yīng)動(dòng)態(tài)演化粒子群算法在Web主題信息搜索中的應(yīng)用[J];武漢大學(xué)學(xué)報(bào)(信息科學(xué)版);2008年12期

10 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年12期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李學(xué)勇;基于鞏固學(xué)習(xí)的網(wǎng)絡(luò)蜘蛛搜索策略研究[D];湖南大學(xué);2003年

2 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年

3 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年

4 肖亮;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2008年

5 呂玉鵬;基于領(lǐng)域本體的網(wǎng)頁(yè)信息采集與檢索研究[D];大連理工大學(xué);2008年

6 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年

7 蔡陽(yáng)波;基于主題策略的網(wǎng)絡(luò)爬行器算法研究[D];重慶大學(xué);2008年

8 段一飛;垂直搜索引擎主題特征提取及相關(guān)度算法研究[D];長(zhǎng)安大學(xué);2007年

9 陳叢叢;主題爬蟲搜索策略研究[D];山東大學(xué);2009年

10 黃勝根;智能垂直搜索引擎的研究與設(shè)計(jì)[D];重慶大學(xué);2010年

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 蘭富軍;李春霆;高海忠;;農(nóng)業(yè)主題垂直搜索引擎過(guò)濾技術(shù)研究[J];安徽農(nóng)業(yè)科學(xué);2010年09期

2 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期

3 張春菊;張雪英;朱少楠;徐希濤;;基于網(wǎng)絡(luò)爬蟲的地名數(shù)據(jù)庫(kù)維護(hù)方法[J];地球信息科學(xué)學(xué)報(bào);2011年04期

4 于波;強(qiáng)明輝;余亞冰;李曉斌;;綜合智能控制策略在真空退火爐中的應(yīng)用[J];電氣自動(dòng)化;2010年03期

5 趙穎斯;劉云;;BBS輿情系統(tǒng)的數(shù)據(jù)采集方法[J];電信快報(bào);2008年12期

6 劉文浩;謝韜;吳進(jìn);;基于Heritrix和HTMLParser的網(wǎng)頁(yè)商品信息提取的研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年08期

7 李曉斌;左磊;于波;;一種自適應(yīng)免疫遺傳算法及其在系統(tǒng)辨識(shí)和參數(shù)優(yōu)化中的應(yīng)用[J];蘭州理工大學(xué)學(xué)報(bào);2006年03期

8 李曉亞;赫楓齡;左萬(wàn)利;;基于網(wǎng)頁(yè)分塊技術(shù)主題爬行器的實(shí)現(xiàn)[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2007年06期

9 苗菲;左春檉;張文博;;基于免疫理論的仿生優(yōu)化算法[J];長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年01期

10 吳曉平;張長(zhǎng)利;朱麗娜;;基于網(wǎng)頁(yè)內(nèi)容塊策略的主題爬行[J];計(jì)算機(jī)工程與應(yīng)用;2008年09期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條

1 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條

1 張長(zhǎng)利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年

2 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年

3 杜亞軍;搜索引擎智能行為的研究及實(shí)現(xiàn)[D];西南交通大學(xué);2005年

4 宋曉琳;基于免疫算法的汽車主動(dòng)懸架控制技術(shù)研究[D];湖南大學(xué);2007年

5 辛菁;機(jī)器人無(wú)標(biāo)定視覺伺服控制系統(tǒng)研究[D];西安理工大學(xué);2007年

6 李曉斌;陽(yáng)極焙燒系統(tǒng)的檢測(cè)、建模與控制[D];西安理工大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 岳廣飛;基于二次搜索的搜索引擎技術(shù)研究[D];山東科技大學(xué);2010年

2 李振;網(wǎng)絡(luò)輿情預(yù)測(cè)關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年

3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年

4 王思麗;藏文網(wǎng)頁(yè)自動(dòng)發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學(xué);2010年

5 史磊峰;移動(dòng)垂直搜索系統(tǒng)的研究[D];北京交通大學(xué);2010年

6 樊春雷;基于語(yǔ)義分析的糖尿病健康教育系統(tǒng)研究與實(shí)現(xiàn)[D];華東理工大學(xué);2011年

7 高峰;基于興趣分類的用戶行為分析系統(tǒng)的研究[D];山東大學(xué);2010年

8 陳志剛;網(wǎng)絡(luò)Flash資源爬行器的設(shè)計(jì)與實(shí)現(xiàn)[D];山東師范大學(xué);2011年

9 林捷;主題網(wǎng)絡(luò)爬蟲的研究和實(shí)現(xiàn)[D];武漢理工大學(xué);2011年

10 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開發(fā)[D];武漢理工大學(xué);2011年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 戴先宇,王明文,吳水秀,張石林;帶參數(shù)的搜索引擎[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年04期

2 朱靖波,姚天順;中文信息自動(dòng)抽取[J];東北大學(xué)學(xué)報(bào);1998年01期

3 高磊;徐東平;;啟發(fā)式算法在搜索引擎的應(yīng)用[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年02期

4 王知人;章胤;李新喬;;一種改進(jìn)的模擬退火算法[J];高等學(xué)校計(jì)算數(shù)學(xué)學(xué)報(bào);2006年01期

5 許一震,王永成,吳芳芳;一種基于反向有限自動(dòng)機(jī)的匹配算法[J];高技術(shù)通訊;2001年02期

6 朱素媛,馬溪俊,梁昌勇;人工智能技術(shù)在搜索引擎中的應(yīng)用[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年S1期

7 文坤梅,盧正鼎,葉衛(wèi)國(guó),金莉;搜索引擎中頁(yè)面更新策略的分析與改進(jìn)[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年12期

8 武成崗,焦文品,田啟家,史忠植;基于本體論和多主體的信息檢索服務(wù)器[J];計(jì)算機(jī)研究與發(fā)展;2001年06期

9 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

10 楊沛,鄭啟倫,彭宏;Inherit/Feedback:一種新的Web主題挖掘方法[J];計(jì)算機(jī)研究與發(fā)展;2004年05期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 陳定權(quán);自動(dòng)主題搜索的應(yīng)用研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年

2 程勇;基于本體的不確定性知識(shí)管理研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];大連理工大學(xué);2005年

2 劉平冰;基于Lucene的Web站內(nèi)信息搜索系統(tǒng)[D];電子科技大學(xué);2005年

3 謝琴;蟻群算法在Web日志挖掘中的研究與應(yīng)用[D];重慶大學(xué);2006年

4 李盛韜;基于主題的Web信息采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2002年

5 陳寧;Lucene全文檢索在網(wǎng)絡(luò)教學(xué)平臺(tái)中的應(yīng)用研究[D];大連海事大學(xué);2007年

6 薛建春;垂直搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2007年

7 姚忠存;錨文本增量主題爬行[D];吉林大學(xué);2007年

8 潘亭瀝;基于Lucene的面向商業(yè)應(yīng)用的搜索引擎研究與實(shí)現(xiàn)[D];電子科技大學(xué);2007年

9 呂昊;面向垂直搜索的聚焦爬蟲研究及應(yīng)用[D];浙江大學(xué);2008年

10 張宏松;基于Lucene的web站內(nèi)英文PDF文檔全文檢索研究[D];遼寧工程技術(shù)大學(xué);2007年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 莊芯;;風(fēng)投押寶垂直搜索 各方巨頭介入又添疑點(diǎn)[J];IT時(shí)代周刊;2008年01期

2 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時(shí);2003年Z1期

3 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報(bào);2004年09期

4 胡文勝;;垂直搜索助號(hào)碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年32期

5 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實(shí)踐[J];信息系統(tǒng)工程;2009年05期

6 一林;;垂直搜索:前進(jìn)路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期

7 牟思;;基于垂直搜索引擎的學(xué)校網(wǎng)站的研究與建設(shè)[J];中國(guó)教育技術(shù)裝備;2011年21期

8 田野;垂直搜索火熱為哪般[J];中國(guó)計(jì)算機(jī)用戶;2005年37期

9 胡文勝;;垂直搜索助號(hào)碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年31期

10 邊凱;;你會(huì)搜索嗎?[J];中國(guó)計(jì)算機(jī)用戶;2007年23期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條

1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國(guó)電子學(xué)會(huì)第十七屆信息論學(xué)術(shù)年會(huì)論文集[C];2010年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年

2 王艷;[N];中國(guó)旅游報(bào);2000年

3 賽迪網(wǎng) 方剛;[N];中國(guó)計(jì)算機(jī)報(bào);2000年

4 王靖;[N];人民日?qǐng)?bào)海外版;2000年

5 記者 王滸;[N];中國(guó)旅游報(bào);2009年

6 本報(bào)記者 王宏;[N];中國(guó)計(jì)算機(jī)報(bào);2001年

7 徐瑾 張玉;[N];人民郵電;2009年

8 本報(bào)記者 王曉雁;[N];法制日?qǐng)?bào);2009年

9 記者 吳德群;[N];深圳特區(qū)報(bào);2009年

10 本報(bào)記者 胡鈺;[N];華夏時(shí)報(bào);2009年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

1 王曄;垂直搜索引擎若干問(wèn)題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問(wèn)題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年

5 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2010年

2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年

3 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年

4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年

5 周佳慶;實(shí)時(shí)垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年

6 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開發(fā)[D];武漢理工大學(xué);2011年

7 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];天津師范大學(xué);2011年

8 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國(guó)海洋大學(xué);2010年

9 張贏;個(gè)性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年

10 李海升;垂直搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年


  本文關(guān)鍵詞:垂直搜索引擎中聚焦爬蟲技術(shù)的研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):213859

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/213859.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a972b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com