垂直搜索引擎中主題爬蟲搜索策略研究與實現(xiàn)
本文關鍵詞:簡析搜索引擎中網(wǎng)絡爬蟲的搜索策略,,由筆耕文化傳播整理發(fā)布。
《沈陽建筑大學》 2013年
垂直搜索引擎中主題爬蟲搜索策略研究與實現(xiàn)
徐曉艷
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,Web信息資源與日俱增,搜索引擎成為人們獲取網(wǎng)絡信息資源的重要工具,然而通用搜索引擎在追求檢索信息最大覆蓋率的同時,降低了查找到的信息的準確度,所以目前存在的各種綜合的搜索引擎越來越不能滿足用戶對信息檢索服務的“專、精”等方面的需求,面向主題查詢的垂直搜索引擎成為搜索引擎領域的一個新的發(fā)展方向。主題爬蟲作為垂直搜索引擎的重要的組成部分,它的目標是盡可能地抓取與指定主題相關的網(wǎng)頁,而過濾掉與主題無關的頁面,其性能的好壞是影響信息檢索的質(zhì)量和效率的重要因素,所以設計一個高性能的主題爬蟲成為垂直搜索引擎研究的重要課題之一。 論文的主要研究對象是作為垂直搜索引擎的重要組成部分的主題爬蟲技術。首先概述了垂直搜索引擎和主題爬蟲的研究現(xiàn)狀、工作原理,指出主題爬蟲相較于一般的網(wǎng)絡爬蟲在信息檢索方面的優(yōu)勢,然后分析了主題爬蟲的搜索策略,討論主題爬蟲預測主題的準確性和重要性。論文的研究工作圍繞著網(wǎng)頁中存在的文本內(nèi)容和超鏈接信息對主題爬蟲搜索策略的影響進行展開。 論文首先詳細介紹了主題信息的表示、關鍵詞的提取及其權重的計算和主題相關度算法。分析了關鍵詞權重計算方法TF-IDF算法的不足之處并提出了改進方案。對于頁面的主題相關度的計算,我們采用空間向量模型進行計算。 針對網(wǎng)頁中的超鏈接優(yōu)先級的判斷問題,我們在傳統(tǒng)的HITS算法的基礎上,加入主題特征的影響因素,提出改進的HITS算法。對每個網(wǎng)頁,我們利用三個向量(中心向量、權威向量、文本內(nèi)容向量)來計算其主題相關度,盡量避免出現(xiàn)主題漂移現(xiàn)象,并討論了網(wǎng)頁中心值和權威值的計算公式。 現(xiàn)有的基于文本內(nèi)容的搜索策略和基于鏈接分析的搜索策略都存在價值評價標準單一的缺點,本文將這兩種搜索策略結合,提出了一種綜合考慮的爬行策略,這種策略會在主題網(wǎng)絡爬蟲的不同的爬行階段選擇適合的最優(yōu)的搜索策略。文章最后實現(xiàn)了基于綜合爬行策略的主題爬蟲系統(tǒng)。
【關鍵詞】:
【學位授予單位】:沈陽建筑大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉世濤;;簡析搜索引擎中網(wǎng)絡爬蟲的搜索策略[J];阜陽師范學院學報(自然科學版);2006年03期
2 羅方芳;陳國龍;郭文忠;;基于改進的Fish-search算法的信息檢索研究[J];福州大學學報(自然科學版);2006年02期
3 鄧攀;劉功申;;一種高效的倒排索引存儲結構[J];計算機工程與應用;2008年31期
4 歐陽柳波,李學勇,李國徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計算機工程;2004年13期
5 周立柱,林玲;聚焦爬蟲技術研究綜述[J];計算機應用;2005年09期
6 劉秋梅;鄭耿忠;;基于WebSphinx的搜索引擎設計及研究[J];江西圖書館學刊;2006年01期
7 曹軍;Google的PageRank技術剖析[J];情報雜志;2002年10期
8 何曉陽,吳強,吳治蓉;HITS算法與PageRank算法比較分析[J];情報雜志;2004年02期
9 劉斌;陳樺;;向量空間模型信息檢索技術討論[J];情報雜志;2006年07期
10 杜小勇;李曼;王珊;;本體學習研究綜述[J];軟件學報;2006年09期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應用[J];安徽農(nóng)業(yè)科學;2007年22期
2 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡爬蟲的設計[J];安徽農(nóng)業(yè)科學;2009年20期
3 廉捷;劉云;;網(wǎng)絡輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期
4 黃洪;劉增良;余達太;周紹華;;一種具有免疫特征的智能數(shù)據(jù)分類分級模型[J];兵工學報;2010年12期
5 黃洪;劉增良;余達太;;一種智能化的數(shù)據(jù)分類、分級及保護模型[J];北京工業(yè)大學學報;2011年06期
6 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設計[J];北京理工大學學報;2004年10期
7 陳悅;陳運;楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設計與研究[J];成都信息工程學院學報;2011年05期
8 謝軼群;舒江波;;基于本體的構件庫智能檢索方法研究(英文)[J];湖南文理學院學報(自然科學版);2007年03期
9 鄭凱明;;垂直搜索引擎應用研究[J];赤峰學院學報(自然科學版);2011年02期
10 王鑫;王英;;基于本體增量學習的主題爬行[J];長春工程學院學報(自然科學版);2010年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 徐立恒;劉洋;來斯惟;劉康;田野;王渝麗;趙軍;;基于多特征表示的本體概念掛載[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
2 張曉瑩;張桂平;王裴巖;;領域本體構建中關系輔助判斷技術研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 畢魯雁;焦宗夏;范圣韜;趙四軍;;基于本體的機載機電系統(tǒng)故障診斷研究[A];第五屆全國流體傳動與控制學術會議暨2008年中國航空學會液壓與氣動學術會議論文集[C];2008年
4 胡金柱;舒江波;陳志偉;杜志強;竇桂琴;;基于本體構件的工作流檢索研究[A];第四屆中國軟件工程大會論文集[C];2007年
5 徐惠;高志強;陸青健;朱萬穎;;ORIGO:一種基于數(shù)字化圖書館資源的本體學習方法[A];2008'中國信息技術與應用學術論壇論文集(一)[C];2008年
6 王棟;陳勇;徐建良;;基于預測的BitTorrent種子評估方法[A];2008'中國信息技術與應用學術論壇論文集(二)[C];2008年
7 劉兵;胡學鋼;;基于多鏈接分析的主題爬蟲設計實現(xiàn)[A];全國第20屆計算機技術與應用學術會議(CACIS·2009)暨全國第1屆安全關鍵技術與應用學術會議論文集(上冊)[C];2009年
8 陸勇;侯漢清;;基于詞典注釋的漢語同義詞自動識別[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年
9 戴玉剛;;藏文網(wǎng)頁采集技術研究[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
10 程曉;鄭德權;楊宇航;邵國軍;;面向半結構化文本的領域本體關系抽取[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年
2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年
3 陳一稀;基于關系數(shù)據(jù)庫的遺留系統(tǒng)向語義Web移植的研究[D];浙江大學;2010年
4 張翔;文本挖掘技術研究及其在綜合風險信息網(wǎng)絡中的應用[D];西北大學;2011年
5 王聯(lián)國;人工魚群算法及其應用研究[D];蘭州理工大學;2009年
6 唐素勤;面向語義Web的描述邏輯本體構建[D];中南大學;2011年
7 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學;2011年
8 田俊華;基于本體知識庫的教學資源自動采集技術研究[D];南京師范大學;2011年
9 陳建輝;基于腦信息學的數(shù)據(jù)腦建模及其應用[D];北京工業(yè)大學;2011年
10 張楊;語義Web服務組合的可信性度量研究[D];重慶大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年
2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年
3 蔡宇虹;基于主題的元搜索引擎關鍵技術研究[D];哈爾濱工程大學;2010年
4 劉洋;基于本體的醫(yī)保審計知識庫構建研究[D];哈爾濱工程大學;2010年
5 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實現(xiàn)[D];哈爾濱工程大學;2010年
6 程波波;基于文本的茶學本體學習方法研究[D];安徽農(nóng)業(yè)大學;2010年
7 徐濟成;面向農(nóng)業(yè)領域的本體學習建模研究[D];安徽農(nóng)業(yè)大學;2010年
8 馮效棟;垂直搜索引擎技術在網(wǎng)絡輿情巡控中的研究與應用[D];中國海洋大學;2010年
9 于飛;基于搜索引擎的個性化推薦研究[D];哈爾濱理工大學;2010年
10 李永春;主題搜索引擎的研究與實現(xiàn)[D];哈爾濱理工大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學學報(自然科學版);2002年05期
2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實現(xiàn)[J];電腦開發(fā)與應用;2009年07期
3 張斌;周爾寧;;基于Nutch的分布式紡織垂直搜索引擎研究[J];電腦知識與技術;2009年21期
4 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結構、算法和策略[J];電子學報;2002年S1期
5 彭波,李曉明;搜索引擎倒排文件的一種分塊組織技術[J];電子學報;2005年02期
6 歐陽為民,蔡慶生;基于版本空間的并行概念學習[J];計算機研究與發(fā)展;1998年10期
7 賈崇,陸玉昌,魯明羽;一種支持高效檢索的即時更新倒排索引方法[J];計算機工程與應用;2003年29期
8 李軍;黃海寬;曹琦;;基于支持向量機的中藥工藝參數(shù)優(yōu)化研究[J];計算機工程與應用;2007年36期
9 朱華宇,孫正興,張福炎;一個基于向量空間模型的中文文本自動分類系統(tǒng)[J];計算機工程;2001年02期
10 吳恒山,劉興宇,左瓊;一種基于可擴展散列表的倒排索引更新策略[J];計算機工程;2004年08期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 陳文亮;朱靖波;姚天順;張宇新;;基于Bootstrapping的領域詞匯自動獲取[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 徐和祥;Deep Web集成中若干技術研究[D];復旦大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 壽周翔;專業(yè)搜索引擎的研究與設計[D];浙江大學;2005年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期
2 許鑫;黃仲清;;垂直搜索引擎應用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術;2009年02期
3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡信息;2009年11期
4 祝奕;;垂直搜索引擎的構建與應用[J];信息與電腦(理論版);2010年01期
5 張美芳;張迎春;;淺議垂直搜索引擎服務市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
6 焦龍;;垂直搜索引擎在旅游企業(yè)中應用的探索[J];商場現(xiàn)代化;2010年08期
7 趙宏中;李亞;;垂直搜索引擎應用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期
8 陳高維;鄧天權;曾云磊;王維國;張龍;;基于垂直搜索引擎的旅游線路評價模型的設計[J];科技創(chuàng)新導報;2010年18期
9 劉小強;;二手轉讓及房產(chǎn)租售垂直搜索引擎的設計與實現(xiàn)[J];三門峽職業(yè)技術學院學報;2010年03期
10 鄭凱明;;垂直搜索引擎應用研究[J];赤峰學院學報(自然科學版);2011年02期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學術年會論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;[N];中國經(jīng)營報;2006年
2 王艷;[N];中國旅游報;2000年
3 王靖;[N];人民日報海外版;2000年
4 楊國民;[N];經(jīng)濟日報;2007年
5 本報記者 王曉雁;[N];法制日報;2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術情報研究所 周峻松;[N];計算機世界;2010年
7 中新;[N];經(jīng)理日報;2008年
8 源訊 編譯;[N];計算機世界;2006年
9 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
10 ;[N];中國貿(mào)易報;2007年
中國博士學位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術大學;2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 海濤;垂直搜索引擎數(shù)據(jù)采集技術的研究與實現(xiàn)[D];華北電力大學(北京);2008年
2 崔詩遠;基于垂直搜索引擎的旅行社網(wǎng)絡營銷[D];青島大學;2009年
3 翟曉玲;面向學科的基礎教育資源垂直搜索引擎的研究與實現(xiàn)[D];東北師范大學;2009年
4 王嘉杰;面向博客領域的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2009年
5 劉明君;垂直搜索引擎?zhèn)鞑W特征及應用研究[D];華中科技大學;2008年
6 黎斌;可擴展分布式垂直搜索引擎設計與實現(xiàn)研究[D];國防科學技術大學;2008年
7 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年
8 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應用[D];燕山大學;2010年
9 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學;2010年
10 陳向東;寵物用品垂直搜索引擎研究與設計[D];西北農(nóng)林科技大學;2010年
本文關鍵詞:簡析搜索引擎中網(wǎng)絡爬蟲的搜索策略,由筆耕文化傳播整理發(fā)布。
本文編號:250300
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/250300.html