《華中科技大學》2004年碩士論文
本文關(guān)鍵詞:中文搜索引擎的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
《華中科技大學》 2004年
中文搜索引擎的設(shè)計與實現(xiàn)
王軍
【摘要】:搜索引擎是Web信息檢索的主要工具,Crawler是搜索引擎的核心組件,用于搜集Web頁面。實現(xiàn)一個可擴展、高性能、大規(guī)模的中文搜索引擎,核心是設(shè)計一個可擴展、高性能、大規(guī)模的Crawler。 考慮到Web的容量以及增長速度,設(shè)計了并行Crawler系統(tǒng),該系統(tǒng)由多個Crawler進程組成,每個Crawler進程運行在一臺機器上,一臺機器只運行一個Crawler進程。Crawler進程有自己的本地頁面庫和本地索引庫,它下載的頁面以及對頁面建立的索引分別保存在本地頁面庫和本地索引庫中。 為了在各個Crawler進程之間進行協(xié)調(diào),避免并行Crawler系統(tǒng)下載頁面重疊,設(shè)計了URL服務(wù)器。它運行在單一機器上,用于在各個Crawler進程之間分配URL,以及存放Crawler進程新發(fā)現(xiàn)的URL?紤]到數(shù)據(jù)庫的負載,實現(xiàn)了多數(shù)據(jù)庫并行存取技術(shù)。 每個Crawler進程就是一個小型搜索引擎,這些搜索引擎一起組成了一個大規(guī)模搜索引擎,為了在多個Crawler上進行檢索,設(shè)計了檢索服務(wù)器,它將用戶的檢索請求提交給各個Crawler,由Crawler查詢自己的索引庫,并將檢索結(jié)果返回給檢索服務(wù)器,檢索服務(wù)器對結(jié)果排序輸出。 為了減少頁面集批量更新的巨大開銷,研究了增量式Crawler。它用于對頁面集中某些頁面進行更新以便達到刷新整個頁面集的目的。但是增量式Crawler需要知道頁面集中哪些頁面發(fā)生了變化,為此使用人工神經(jīng)網(wǎng)絡(luò)建立了頁面變化模型,該模型可以預測頁面下一次變化的時間,從而確定對Web上實際頁面進行重訪來完成頁面集的刷新任務(wù)。
【關(guān)鍵詞】:
【學位授予單位】:華中科技大學
【學位級別】:碩士
【學位授予年份】:2004
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學;2009年
2 岳舜;搜索引擎檢索技術(shù)研究[D];西安電子科技大學;2008年
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 曹元大,賀海軍,涂哲明;中文Web文檔全文檢索系統(tǒng)的設(shè)計及實現(xiàn)[J];北京理工大學學報;2002年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 謝濤,蔣澤中;邊坡系統(tǒng)穩(wěn)定性多模型綜合評價[J];四川建筑科學研究;2004年02期
2 孫全玲;基于粗集和神經(jīng)網(wǎng)絡(luò)的建模方法研究[J];安徽建筑工業(yè)學院學報(自然科學版);2005年02期
3 孫虹;方敏;;基于Rough集和RBF網(wǎng)絡(luò)的車牌字符識別方法[J];安徽建筑工業(yè)學院學報(自然科學版);2006年04期
4 孫虹;龔雪;;一種基于Rough集和RBF網(wǎng)絡(luò)的模擬電路故障診斷方法[J];安徽建筑工業(yè)學院學報(自然科學版);2012年03期
5 胡鳳蓮;劉宏;;安康市煙草病害預測系統(tǒng)研究[J];安徽農(nóng)學通報(上半月刊);2012年03期
6 方惠敏;張守濤;丁文珂;;基于BP神經(jīng)網(wǎng)絡(luò)的玉米區(qū)試產(chǎn)量預測研究[J];安徽農(nóng)業(yè)科學;2007年34期
7 高艷萍;于紅;尹祥貴;綦孝姬;王春永;趙志強;;基于雙數(shù)組Trie樹的漁業(yè)領(lǐng)域分詞研究[J];安徽農(nóng)業(yè)科學;2008年11期
8 陳繪畫;朱壽燕;周澤華;;基于遺傳神經(jīng)網(wǎng)絡(luò)混合模型預測馬尾松毛蟲發(fā)生量的研究[J];安徽農(nóng)業(yè)科學;2009年12期
9 項云飛;陳繪畫;張建薇;;馬尾松毛蟲危害程度分級預報的研究[J];安徽農(nóng)業(yè)科學;2009年17期
10 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學;2009年20期
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王浩鋒;基于BP神經(jīng)網(wǎng)絡(luò)的航段安全評估研究[D];中國工程物理研究院;2010年
2 代宏偉;布里淵散射水下探測目標的自動識別[D];南昌航空大學;2010年
3 滕景忠;智能瓦斯傳感器的研制[D];山東科技大學;2010年
4 陳少華;基于Hopfield神經(jīng)網(wǎng)絡(luò)控制系統(tǒng)的研究[D];山東科技大學;2010年
5 徐小任;基于BP神經(jīng)網(wǎng)絡(luò)的城鎮(zhèn)網(wǎng)絡(luò)地價評估模型研究[D];廣西師范學院;2010年
6 范不井;某地區(qū)電網(wǎng)短期負荷預測研究[D];鄭州大學;2010年
7 閻明;蒸汽發(fā)生器故障預報方法研究[D];哈爾濱工程大學;2010年
8 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年
9 劉洋;基于本體的醫(yī)保審計知識庫構(gòu)建研究[D];哈爾濱工程大學;2010年
10 高利坤;感知器算法和BP算法的性能對比分析[D];大連理工大學;2010年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 劉智濃;張永利;;搜索引擎技術(shù)簡析[J];電腦知識與技術(shù);2006年02期
2 劉晨曦;吳揚揚;;一種基于塊分析的網(wǎng)頁去噪音方法[J];廣西師范大學學報(自然科學版);2007年02期
中國碩士學位論文全文數(shù)據(jù)庫 前5條
1 吳東華;Web信息獲取技術(shù)研究[D];南京理工大學;2004年
2 陳鑫;中文智能搜索引擎[D];四川大學;2004年
3 吳寶貴;搜索引擎中索引技術(shù)研究與實現(xiàn)[D];西安電子科技大學;2008年
4 王啟戶;面向遠程教育的搜索引擎系統(tǒng)設(shè)計與實現(xiàn)[D];西安電子科技大學;2008年
5 岳舜;搜索引擎檢索技術(shù)研究[D];西安電子科技大學;2008年
【二級引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前4條
1 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學;2009年
2 徐小樂;搜索引擎?zhèn)性化檢索及用戶推薦功能的設(shè)計與實現(xiàn)[D];重慶交通大學;2011年
3 張哲雨;山東圣翰財貿(mào)職業(yè)學院圖書館WEB系統(tǒng)的設(shè)計與實現(xiàn)[D];山東大學;2011年
4 張春昭;中國的“人肉搜索”引擎現(xiàn)狀研究[D];山東大學;2009年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫桂榮;從網(wǎng)絡(luò)信息檢索工具的現(xiàn)狀看其發(fā)展特點[J];現(xiàn)代情報;2004年12期
2 謝紅俠;惠正運;;一種面向文檔的XML的索引查詢方法[J];微機發(fā)展;2005年12期
3 趙紅梅;互聯(lián)網(wǎng)實時信息搜索引擎[J];大眾標準化;2004年12期
4 張磊;;搜索引擎綜述[J];泰州科技;2008年08期
5 劉正春,蔣福坤;搜索引擎定量評價模型研究[J];大學數(shù)學;2004年04期
6 劉飛;高紅艷;;基于數(shù)據(jù)挖掘的Web信息檢索的研究[J];江西科學;2008年02期
7 戴建中;GnetFtp搜索引擎的算法設(shè)計與實現(xiàn)[J];汕頭大學學報(自然科學版);2005年03期
8 孟曉明;;淺談搜索引擎及其發(fā)展趨勢[J];福建電腦;2006年03期
9 張婕;袁力田;;搜索引擎在網(wǎng)絡(luò)信息挖掘中的應用[J];電腦與電信;2006年07期
10 程彩鳳;杜友福;;搜索引擎技術(shù)分析[J];科技信息;2007年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術(shù)年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術(shù)交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學術(shù)研討會論文集[C];2010年
5 張健沛;徐潑;楊靜;;一種輕量級個性化搜索引擎系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
6 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
7 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學術(shù)會議論文集[C];2005年
8 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學會年會暨學術(shù)研討會論文集[C];2005年
9 李賀華;付鶴崗;;多Agent Web信息檢索應用研究[A];2008年計算機應用技術(shù)交流會論文集[C];2008年
10 張怡;查貴庭;;SEO在信息服務(wù)中的應用研究[A];2010年中國索引學會年會暨學術(shù)研討會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 李一鑫;[N];財經(jīng)時報;2007年
2 周文林;[N];經(jīng)濟參考報;2007年
3 惠正一;[N];第一財經(jīng)日報;2005年
4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;[N];中國計算機報;2005年
5 陳珊;[N];人民郵電;2005年
6 趙法忠;[N];中國經(jīng)營報;2005年
7 金朝力;[N];北京商報;2006年
8 本報記者 趙曉輝 孟昭麗;[N];中國證券報;2006年
9 孫琎;[N];第一財經(jīng)日報;2006年
10 姜蕊;[N];中國高新技術(shù)產(chǎn)業(yè)導報;2006年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學;2011年
4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
7 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2011年
9 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年
10 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王軍;中文搜索引擎的設(shè)計與實現(xiàn)[D];華中科技大學;2004年
2 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學;2003年
3 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學;2010年
4 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學;2011年
5 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年
7 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學;2010年
8 尉建興;基于Lucene搜索引擎的研究與應用[D];太原理工大學;2011年
9 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學院;2003年
10 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學;2004年
本文關(guān)鍵詞:中文搜索引擎的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:71205
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/71205.html