《北京林業(yè)大學(xué)》2012年碩士論文
本文關(guān)鍵詞:木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
《北京林業(yè)大學(xué)》 2012年
木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
張行
【摘要】:互聯(lián)網(wǎng)上豐富的信息資源給人們的工作和生活帶來巨大效益和便利的同時(shí),也帶來了巨大的信息冗余。我們?cè)谑褂脗鹘y(tǒng)的通用搜索引擎時(shí),經(jīng)常會(huì)遇到這樣的問題,為了搜索到一些專業(yè)的基礎(chǔ)知識(shí),不得不在眾多的網(wǎng)站中,花費(fèi)大量的時(shí)間去尋找,而垂直搜索引擎的出現(xiàn)為解決這類問題提供了很好的方法。本文對(duì)垂直搜索的主題爬蟲設(shè)計(jì)和主題詞庫建立進(jìn)行了研究,并基于這些技術(shù)設(shè)計(jì)實(shí)現(xiàn)了一個(gè)木材垂直搜索引擎。 本論文首先介紹了搜索引擎的歷史、現(xiàn)狀、面臨的問題,以及垂直搜索引擎的優(yōu)勢和現(xiàn)狀;在了解搜索引擎結(jié)構(gòu)、整體工作流程的基礎(chǔ)上,分析了垂直搜索實(shí)現(xiàn)的關(guān)鍵技術(shù),重點(diǎn)探討了基于Shark算法的主題爬蟲技術(shù)和主題詞庫建立。其次,基于木材行業(yè),采用從專業(yè)書籍提取和領(lǐng)域?qū)<医ㄗh的方式構(gòu)建了一個(gè)木材主題詞庫,為后續(xù)的分詞,主題相關(guān)性判斷、建立索引提供了支持。接著,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)木材垂直搜索引擎,給出了系統(tǒng)的總體結(jié)構(gòu)圖。整個(gè)系統(tǒng)的實(shí)現(xiàn)采用了定制和擴(kuò)展網(wǎng)絡(luò)爬蟲Heritrix來抓取木材主題相關(guān)的網(wǎng)頁信息,利用Lucene這個(gè)開源的搜索引擎框架為系統(tǒng)提供快速、全面的全文索引和檢索服務(wù)等一系列技術(shù) 最后,對(duì)系統(tǒng)進(jìn)行測試,將搜索結(jié)果與Google、百度的搜索結(jié)果進(jìn)行了比較。總結(jié)了木材垂直搜索引擎的研究和開發(fā)經(jīng)驗(yàn),并展望了垂直搜索的應(yīng)用前景。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉菁菁;林鴻飛;趙晶;;基于PageRank和錨文本的網(wǎng)頁排序研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年10期
2 楊仁廣;宋宇;孟祥增;;一種改進(jìn)Shark-Search的多媒體主題搜索算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年14期
3 曹紅,袁津生;林業(yè)主題搜索引擎研究[J];計(jì)算機(jī)應(yīng)用;2004年S2期
4 鄭國良;葉飛躍;林國俊;耿冬;;基于領(lǐng)域本體的主題信息采集方法[J];計(jì)算機(jī)應(yīng)用;2008年12期
5 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期
6 楊貞;杜習(xí)英;;基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2008年02期
7 蘇祺;項(xiàng)錕;孫斌;;基于鏈接聚類的Shark-Search算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
8 陳軍;陳竹敏;;基于網(wǎng)頁分塊的Shark-Search算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2007年09期
9 劉漢興;劉財(cái)興;;主題爬蟲的搜索策略研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期
10 林泓;劉朋;李晶晶;龍振海;;基于概率的PageRank改進(jìn)算法[J];武漢理工大學(xué)學(xué)報(bào);2009年03期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 郭艷芬;林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2011年
2 曹紅;林業(yè)主題搜索引擎研究[D];北京林業(yè)大學(xué);2005年
3 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年
4 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計(jì)[D];華東師范大學(xué);2007年
5 肖亮;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2008年
6 李副銘;垂直搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2009年
7 曹鐵峰;基于內(nèi)容的個(gè)性化Web信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2010年
8 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
9 林碧霞;基于領(lǐng)域本體的主題爬蟲研究及實(shí)現(xiàn)[D];西南交通大學(xué);2010年
10 蔡岳;一種應(yīng)用于搜索引擎的文本聚類算法[D];北京林業(yè)大學(xué);2010年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 蘭富軍;李春霆;高海忠;;農(nóng)業(yè)主題垂直搜索引擎過濾技術(shù)研究[J];安徽農(nóng)業(yè)科學(xué);2010年09期
2 時(shí)貴英;呂洪濤;;可擴(kuò)展數(shù)據(jù)庫搜索引擎的研究和實(shí)現(xiàn)[J];長江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷;2010年01期
3 張福泉;;人工智能在主題搜索策略中的應(yīng)用[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年04期
4 趙洋;滕桂法;張玉新;何冬梅;;基于Internet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計(jì)[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2009年06期
5 楊仁廣;孟祥增;;網(wǎng)絡(luò)多媒體教學(xué)資源主題搜索研究[J];電化教育研究;2009年05期
6 張東振;張明;;基于XML的站內(nèi)檢索系統(tǒng)[J];電腦知識(shí)與技術(shù);2010年02期
7 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識(shí)與技術(shù);2010年15期
8 宋永生;;基于Android的商品比價(jià)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年18期
9 卿秀華;;基于Lucene和Heritrix的全文檢索引擎的研究與應(yīng)用[J];電腦知識(shí)與技術(shù);2012年13期
10 張黎爍;李鑫;徐猛;;基于PageRank的網(wǎng)頁主題相關(guān)性算法研究[J];光盤技術(shù);2008年12期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
2 田俊華;基于本體知識(shí)庫的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年
3 王珂;礦井無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)部署關(guān)鍵技術(shù)的研究[D];中國礦業(yè)大學(xué);2011年
4 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
5 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
6 李庭波;森林資源經(jīng)營決策本體知識(shí)庫技術(shù)研究及應(yīng)用[D];福建農(nóng)林大學(xué);2009年
7 米楊;基于頂級(jí)本體整合的醫(yī)學(xué)領(lǐng)域語義標(biāo)注研究[D];吉林大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 岳廣飛;基于二次搜索的搜索引擎技術(shù)研究[D];山東科技大學(xué);2010年
2 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
3 劉文輝;基于鏈接結(jié)構(gòu)的網(wǎng)頁排序算法研究[D];哈爾濱工程大學(xué);2010年
4 李永春;主題搜索引擎的研究與實(shí)現(xiàn)[D];哈爾濱理工大學(xué);2010年
5 樊春雷;基于語義分析的糖尿病健康教育系統(tǒng)研究與實(shí)現(xiàn)[D];華東理工大學(xué);2011年
6 張卓;基于分層需求的領(lǐng)域本體構(gòu)建及語義標(biāo)注方法研究[D];東北財(cái)經(jīng)大學(xué);2010年
7 王振華;檔案領(lǐng)域垂直搜索技術(shù)的研究與實(shí)現(xiàn)[D];東華大學(xué);2011年
8 陳志剛;網(wǎng)絡(luò)Flash資源爬行器的設(shè)計(jì)與實(shí)現(xiàn)[D];山東師范大學(xué);2011年
9 孫華昱;Lucene在醫(yī)學(xué)影像資源檢索平臺(tái)中的應(yīng)用[D];沈陽工業(yè)大學(xué);2011年
10 戴雪梅;面向購物的聚類搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年05期
2 曹元大,賀海軍,涂哲明;中文Web文檔全文檢索系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)[J];北京理工大學(xué)學(xué)報(bào);2002年01期
3 黃堃;林旭云;;基于個(gè)性化信息服務(wù)技術(shù)的研究[J];大眾科技;2006年02期
4 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
5 張黎爍;李鑫;徐猛;;基于PageRank的網(wǎng)頁主題相關(guān)性算法研究[J];光盤技術(shù);2008年12期
6 黃建蓮;中國搜索引擎服務(wù)市場的現(xiàn)狀及發(fā)展[J];華北科技學(xué)院學(xué)報(bào);2005年03期
7 劉挺,吳巖,王開鑄;最大概率分詞問題及其解法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);1998年06期
8 燕輝,葉震,董澤浩,高柯俊;報(bào)文摘要算法MD5分析[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年01期
9 張晨彧;穆斌;;語義Web中的語義度量與本體映射[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期
10 韓利凱;;一種快速Web中文分詞算法的研究[J];航空計(jì)算技術(shù);2007年06期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 常曉燕;基于Java的新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2004年
2 聶頌;具有自動(dòng)分類功能的主題搜索引擎的研究[D];天津大學(xué);2004年
3 曹紅;林業(yè)主題搜索引擎研究[D];北京林業(yè)大學(xué);2005年
4 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年
5 陳建;領(lǐng)域本體的創(chuàng)建和應(yīng)用研究[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2006年
6 蔣科;基于領(lǐng)域概念定制的主題爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2007年
7 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年
8 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計(jì)[D];華東師范大學(xué);2007年
9 杜超華;基于本體的省情網(wǎng)垂直搜索引擎研究[D];華中師范大學(xué);2007年
10 張囡囡;面向語義網(wǎng)的領(lǐng)域本體半自動(dòng)構(gòu)建方法的研究[D];大連海事大學(xué);2008年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時(shí);2003年Z1期
2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報(bào);2004年09期
3 胡文勝;;垂直搜索助號(hào)碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年32期
4 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實(shí)踐[J];信息系統(tǒng)工程;2009年05期
5 一林;;垂直搜索:前進(jìn)路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期
6 牟思;;基于垂直搜索引擎的學(xué)校網(wǎng)站的研究與建設(shè)[J];中國教育技術(shù)裝備;2011年21期
7 田野;垂直搜索火熱為哪般[J];中國計(jì)算機(jī)用戶;2005年37期
8 胡文勝;;垂直搜索助號(hào)碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年31期
9 邊凱;;你會(huì)搜索嗎?[J];中國計(jì)算機(jī)用戶;2007年23期
10 宿建光;;指點(diǎn)通:移動(dòng)垂直搜索的創(chuàng)新者[J];通信世界;2007年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會(huì)第十七屆信息論學(xué)術(shù)年會(huì)論文集[C];2010年
4 曹紅;袁津生;;多領(lǐng)域主題搜索引擎研究[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 何莉;林鴻飛;;分布式檢索中基于主題的語言模型集合選擇策略[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2009年
7 吐爾根·依布拉音;艾爾肯·伊米爾;;英—維Internet在線翻譯系統(tǒng)開發(fā)的初探[A];機(jī)器翻譯研究進(jìn)展——2002年全國機(jī)器翻譯研討會(huì)論文集[C];2002年
8 吳筱媛;鄧紅素;顧寧;邱君瑞;耿亦兵;;一種支持信息發(fā)現(xiàn)的元數(shù)據(jù)描述方法[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
9 黃天航;;面向數(shù)字城市規(guī)劃的數(shù)據(jù)倉庫構(gòu)建中主題信息的組織與提取研究——以大北京區(qū)域規(guī)劃為例[A];規(guī)劃創(chuàng)新:2010中國城市規(guī)劃年會(huì)論文集[C];2010年
10 詹海生;王啟戶;;一種自適應(yīng)字長的中文詞庫的構(gòu)建方法[A];2010年第16屆全國信息存儲(chǔ)技術(shù)大會(huì)(IST2010)論文集[C];2010年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年
2 王艷;[N];中國旅游報(bào);2000年
3 賽迪網(wǎng) 方剛;[N];中國計(jì)算機(jī)報(bào);2000年
4 王靖;[N];人民日?qǐng)?bào)海外版;2000年
5 記者 王滸;[N];中國旅游報(bào);2009年
6 本報(bào)記者 王宏;[N];中國計(jì)算機(jī)報(bào);2001年
7 徐瑾 張玉;[N];人民郵電;2009年
8 本報(bào)記者 王曉雁;[N];法制日?qǐng)?bào);2009年
9 記者 吳德群;[N];深圳特區(qū)報(bào);2009年
10 本報(bào)記者 胡鈺;[N];華夏時(shí)報(bào);2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
5 唐穎軍;基于語義主題模型的圖像場景分類研究[D];北京交通大學(xué);2010年
6 徐盛;基于主題模型的高空間分辨率遙感影像分類研究[D];上海交通大學(xué);2012年
7 吳麗英;詞項(xiàng)裝配與合并的最簡研究[D];上海外國語大學(xué);2008年
8 蒲強(qiáng);基于獨(dú)立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究[D];電子科技大學(xué);2010年
9 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
10 黎新;面向問答系統(tǒng)的段落檢索技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
2 陳高維;基于垂直搜索引擎的旅游線路評(píng)價(jià)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2010年
3 黃勝根;智能垂直搜索引擎的研究與設(shè)計(jì)[D];重慶大學(xué);2010年
4 李海升;垂直搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
5 劉邵斌;專家信息垂直搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];中南大學(xué);2010年
6 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
7 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年
8 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
9 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年
10 周佳慶;實(shí)時(shí)垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年
本文關(guān)鍵詞:木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):62633
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/62633.html