基于分布式精準采集的垂直搜索引擎的研究與實現(xiàn)
本文關(guān)鍵詞:綜合搜索引擎與垂直搜索引擎的比較研究,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2011年
基于分布式精準采集的垂直搜索引擎的研究與實現(xiàn)
周兵
【摘要】:隨著網(wǎng)頁信息的爆炸性增長,搜索引擎的使用價值也越來越高,成為網(wǎng)絡(luò)用戶必不可少的工具,為用戶提供信息導(dǎo)航和查詢服務(wù)。它整合了互聯(lián)網(wǎng)上眾多的網(wǎng)頁資源,根據(jù)用戶查詢的關(guān)鍵詞提供相關(guān)性網(wǎng)頁,并按照相關(guān)性排序,是整個互聯(lián)網(wǎng)的入口。目前,綜合搜索引擎是為用戶提供查詢服務(wù)的主力軍,但它的綜合性,決定了其不能滿足專業(yè)人群對專門領(lǐng)域的精準化信息需求服務(wù)。對信息的需求是多元化的,因此搜索引擎的服務(wù)模式也必將出現(xiàn)細分,針對不同領(lǐng)域提供更加精確的行業(yè)信息,這就促進了垂直搜索的蓬勃發(fā)展。 本課題研究如何建立一個完整的提供精準信息供用戶查詢的垂直搜索引擎,選取以論壇為主,包含博客和熱點新聞網(wǎng)站在內(nèi)的URL集合作為數(shù)據(jù)目標,搭建了一個供用戶瀏覽熱點話題,搜索熱點討論信息的平臺,配合綜合搜索引擎,在垂直方向上滿足用戶查詢需求的搜索引擎。在研究的過程中,主要工作和創(chuàng)新點如下:1.提出一種高精確度信息采集方法;2.提出一種分布式網(wǎng)絡(luò)爬蟲架構(gòu)及交互協(xié)議;3.提出一種基于爬取周期的分布式分發(fā)策略;4.設(shè)計基于Lucene的索引端和檢索端并實現(xiàn)按域檢索和索引的批量更新。 該垂直搜索引擎由網(wǎng)絡(luò)爬蟲、索引與檢索三個模塊組成,其中。分布式垂直爬蟲模塊的設(shè)計和實現(xiàn)是本課題研究的重點,也是實現(xiàn)精準信息采集區(qū)別于傳統(tǒng)搜索引擎的關(guān)鍵所在。垂直爬蟲依托于垂直搜索引擎的概念而提出,是指能深入地爬取與分析網(wǎng)絡(luò)信息,相對于通用爬蟲在廣度上追求全面地信息獲取,垂直爬蟲致力于以最少的爬蟲服務(wù)資源爬取某個領(lǐng)域內(nèi)最有價值的web資源,并最大化得過濾無用信息,直接獲得十分精準的信息。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 周平;;Lucene全文檢索引擎技術(shù)及應(yīng)用[J];重慶工學(xué)院學(xué)報(自然科學(xué)版);2007年04期
2 陳洪猛;;基于垂直搜索技術(shù)的搜索引擎解決方案[J];電腦應(yīng)用技術(shù);2008年01期
3 柳佳剛;劉高嵩;賀令亞;陳山;;基于Web的信息抽取技術(shù)現(xiàn)狀與發(fā)展[J];福建電腦;2007年07期
4 方啟明;楊廣文;武永衛(wèi);朱安平;鄭緯民;;面向P2P搜索的可定制聚焦網(wǎng)絡(luò)爬蟲[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2007年S2期
5 白鶴;湯迪斌;王勁林;;分布式多主題網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[J];計算機工程;2009年19期
6 杜亞軍,嚴兵,宋亮;爬行蟲算法設(shè)計與程序?qū)崿F(xiàn)[J];計算機應(yīng)用;2004年01期
7 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報科學(xué);2007年01期
8 許笑;張偉哲;張宏莉;方濱興;;廣域網(wǎng)分布式Web爬蟲[J];軟件學(xué)報;2010年05期
9 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計算機系統(tǒng)應(yīng)用;2009年07期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 李毅;半結(jié)構(gòu)化文檔中語義信息抽取方法的研究[D];清華大學(xué);2004年
2 蘇旋;分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2006年
3 李廣麗;垂直搜索引擎的研究與設(shè)計[D];華東交通大學(xué);2008年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張帆;林建;;智能搜索引擎信息過濾機制研究[J];圖書與情報;2007年04期
2 祝偉華;李嘉毅;劉斌斌;;二手汽車交易信息垂直搜索網(wǎng)的設(shè)計[J];重慶工學(xué)院學(xué)報(自然科學(xué)版);2008年08期
3 趙洋;滕桂法;張玉新;何冬梅;;基于Internet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2009年06期
4 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報;2008年03期
5 馬海波;陳時勇;;基于網(wǎng)頁等級的PageRank算法改進[J];大連交通大學(xué)學(xué)報;2010年02期
6 陳洪猛;;基于垂直搜索技術(shù)的搜索引擎解決方案[J];電腦應(yīng)用技術(shù);2008年01期
7 余承健;;基于表格語義的Web信息抽取方法的研究[J];電腦知識與技術(shù);2008年12期
8 劉金亮;吳芳;孟海江;;智能化垂直搜索系統(tǒng)的構(gòu)建[J];電腦知識與技術(shù);2010年02期
9 趙穎斯;劉云;;BBS輿情系統(tǒng)的數(shù)據(jù)采集方法[J];電信快報;2008年12期
10 李斌;;淺談web信息抽取[J];大眾科技;2010年04期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 吳珊;楊樺;;基于日志挖掘的Web預(yù)取模型[A];2006年電氣工程教育專業(yè)委員會年會論文集[C];2006年
2 徐云風(fēng);蔣文蓉;;Web頁面信息抽取的分析與研究[A];IT服務(wù)促進企業(yè)信息化——第十一屆中國Java技術(shù)及應(yīng)用交流大會文集[C];2008年
3 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
4 韓子揚;李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學(xué)學(xué)術(shù)年會論文集[C];2012年
5 韓子揚;李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學(xué)學(xué)術(shù)年會論文集(信息科學(xué)與工程技術(shù)分冊)[C];2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學(xué);2010年
2 曹仲偉;FTP搜索引擎的關(guān)鍵技術(shù)研究[D];湖北工業(yè)大學(xué);2011年
3 文星;基于位置感知的Web文本搜索技術(shù)研究[D];大連海事大學(xué);2011年
4 王旭;互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
5 李蕊;基于網(wǎng)絡(luò)爬蟲技術(shù)的多源下載系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
6 高晴;基于Web信息抽取的輿論傳播分析[D];北京郵電大學(xué);2011年
7 劉歡;職位匹配系統(tǒng)的設(shè)計與實現(xiàn)[D];華東師范大學(xué);2011年
8 劉志偉;數(shù)學(xué)搜索引擎研究[D];蘭州大學(xué);2011年
9 田宇;基于XML的WEB信息抽取系統(tǒng)研究與實現(xiàn)[D];內(nèi)蒙古大學(xué);2011年
10 何忠育;分布式社會網(wǎng)絡(luò)分析支撐系統(tǒng)研究與應(yīng)用[D];廣東工業(yè)大學(xué);2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報;2002年S1期
2 唐培和,楊新倫,劉浩;Google搜索引擎及其實現(xiàn)技術(shù)[J];廣西工學(xué)院學(xué)報;2004年02期
3 黃建蓮;中國搜索引擎服務(wù)市場的現(xiàn)狀及發(fā)展[J];華北科技學(xué)院學(xué)報;2005年03期
4 張紅斌;;網(wǎng)上求職機器人的軟件設(shè)計[J];華東交通大學(xué)學(xué)報;2006年01期
5 文坤梅,盧正鼎,葉衛(wèi)國,金莉;搜索引擎中頁面更新策略的分析與改進[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2002年12期
6 李善平,尹奇韡,胡玉杰,郭鳴,付相君;本體論研究綜述[J];計算機研究與發(fā)展;2004年07期
7 許學(xué)標,顧寧,施伯樂;半結(jié)構(gòu)化數(shù)據(jù)模型及查詢語言[J];計算機研究與發(fā)展;1998年10期
8 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應(yīng)用;2003年10期
9 王繼民;國內(nèi)綜合性搜索引擎時新性的計算[J];計算機工程與應(yīng)用;2003年21期
10 劉遷;賈惠波;;中文信息處理中自動分詞技術(shù)的研究與展望[J];計算機工程與應(yīng)用;2006年03期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 吳東華;Web信息獲取技術(shù)研究[D];南京理工大學(xué);2004年
2 呂韓飛;主題(topical)crawler及其應(yīng)用——主題搜索引擎[D];浙江大學(xué);2005年
3 壽周翔;專業(yè)搜索引擎的研究與設(shè)計[D];浙江大學(xué);2005年
4 劉平冰;基于Lucene的Web站內(nèi)信息搜索系統(tǒng)[D];電子科技大學(xué);2005年
5 陳勇;中醫(yī)藥主題搜索網(wǎng)絡(luò)機器人的研究與實現(xiàn)[D];西南交通大學(xué);2005年
6 曾義聰;基于概念樹的主題爬取技術(shù)研究[D];湖南大學(xué);2005年
7 姚勇;分布式Web挖掘與搜索的研究與實現(xiàn)[D];西安電子科技大學(xué);2006年
8 吳海明;基于Lucene的搜索引擎技術(shù)的研究與改進[D];暨南大學(xué);2006年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期
2 莊芯;;風(fēng)投押寶垂直搜索 各方巨頭介入又添疑點[J];IT時代周刊;2008年01期
3 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時;2003年Z1期
4 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期
5 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年32期
6 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期
7 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期
8 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期
9 陳利國;劉忠民;;搜索引擎的工作原理和發(fā)展趨勢[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年23期
10 張敏;;基于本體的垂直搜索引擎的研究[J];軟件導(dǎo)刊;2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年
4 韓希先;李建中;;分布式有序表中一種有效的在線計劃批量插入方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
5 楊柳;鐘誠;陸向艷;;基于P2P網(wǎng)絡(luò)的分布式聚類算法研究分析[A];2009年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(上冊)[C];2009年
6 郭柯;代璐;周林;;分布式并網(wǎng)發(fā)電系統(tǒng)孤島檢測方法綜述[A];重慶市電機工程學(xué)會2010年學(xué)術(shù)會議論文集[C];2010年
7 吳成海;張克芳;;跨平臺分布式自動測試系統(tǒng)設(shè)計[A];全國第二屆總線技術(shù)與測控系統(tǒng)工程學(xué)術(shù)報告會論文集[C];2001年
8 張德明;;構(gòu)建分布式聲納信號處理系統(tǒng)[A];中國聲學(xué)學(xué)會2002年全國聲學(xué)學(xué)術(shù)會議論文集[C];2002年
9 李其瑩;張洪霞;;配電網(wǎng)中實現(xiàn)小電流接地選線一種方案[A];華東六省一市電機工程(電力)學(xué)會輸配電技術(shù)研討會2002年年會山東電機工程學(xué)會交流論文集[C];2002年
10 周詳;王龍明;;建立分布式防護的安全體系[A];中國煙草行業(yè)信息化研討會論文集[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;[N];計算機世界;2010年
2 王艷;[N];中國旅游報;2000年
3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
4 王靖;[N];人民日報海外版;2000年
5 記者 王滸;[N];中國旅游報;2009年
6 記者 張磊;[N];中國電力報;2004年
7 蓋俊飛 林楠;[N];電腦報;2003年
8 國家高性能計算機工程技術(shù)研究中心 黃華 楊德志 張建剛;[N];中國計算機報;2005年
9 國防科學(xué)技術(shù)大學(xué)計算機學(xué)院軟件所 董勇 周恩強;[N];中國計算機報;2005年
10 李蕓 星際網(wǎng)絡(luò)公司;[N];計算機世界;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 王宇翔;分布式網(wǎng)絡(luò)地理信息系統(tǒng)研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2002年
5 董紅軍;基于多Agent的分布式CAPP及工藝信息管理研究[D];西北工業(yè)大學(xué);2000年
6 婁淵勝;基于構(gòu)件的分布式防汛信息系統(tǒng)框架研究[D];河海大學(xué);2002年
7 劉峰;儀用主從耦合分布式并行處理容錯系統(tǒng)體系結(jié)構(gòu)研究[D];浙江大學(xué);2003年
8 唐秋華;分布式虛擬環(huán)境建模研究[D];武漢理工大學(xué);2005年
9 王加虎;分布式水文模型理論與方法研究[D];河海大學(xué);2006年
10 傅濤;基于數(shù)據(jù)挖掘的分布式網(wǎng)絡(luò)入侵協(xié)同檢測系統(tǒng)研究及實現(xiàn)[D];南京理工大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周兵;基于分布式精準采集的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2011年
2 王鵬;垂直搜索引擎的研究[D];武漢理工大學(xué);2010年
3 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
4 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];天津師范大學(xué);2011年
5 劉大伸;垂直搜索引擎技術(shù)的研究及實現(xiàn)[D];東北大學(xué);2008年
6 關(guān)小敏;垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2012年
7 張倩;教育信息垂直搜索引擎的研究[D];吉林大學(xué);2012年
8 東興;垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江理工大學(xué);2012年
9 楊碩;垂直搜索引擎的研究與實現(xiàn)[D];首都師范大學(xué);2012年
10 胡圣潔;學(xué)術(shù)論文垂直搜索引擎的架構(gòu)與實現(xiàn)[D];山東大學(xué);2012年
本文關(guān)鍵詞:綜合搜索引擎與垂直搜索引擎的比較研究,,由筆耕文化傳播整理發(fā)布。
本文編號:70446
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/70446.html