基于Lucene的垂直搜索引擎設(shè)計
本文關(guān)鍵詞:面向用戶體驗需求的垂直搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
《吉林大學(xué)》 2008年
基于Lucene的垂直搜索引擎設(shè)計
于海
【摘要】: Internet是一個巨大的信息資源庫,有大量的頁面是由站點后臺數(shù)據(jù)庫動態(tài)產(chǎn)生的,不能直接通過靜態(tài)鏈接獲取,只能通過填寫表單提交查詢來獲取,而傳統(tǒng)的網(wǎng)絡(luò)爬蟲程序不具備填寫表單的能力,抓取不到這些頁面。因此,現(xiàn)有的搜索引擎搜索不出這部分頁面信息,從而導(dǎo)致這部分信息對用戶是隱藏、不可見的,被稱之為Deep Web。Deep Web和淺層頁面信息相比信息量更大,主題更專一,信息質(zhì)量更高,信息結(jié)構(gòu)化更好。然而要想比較全面而準確的把它們從Web中搜索出來是一件非常困難的事情。因為查詢接口在網(wǎng)頁上都是以HTML語言的FORM標簽所形成的表單的形式展現(xiàn),爬蟲需要能夠準確地填寫Web數(shù)據(jù)庫的查詢接口。 Deep Web受到越來越多的研究人員的關(guān)注,并且越來越多的相關(guān)研究成果被發(fā)表。對Deep Web研究的根本目的是為了能夠自動地獲取利用自由分布在整個互聯(lián)網(wǎng)上的Deep Web中豐富的信息。 本文將Deep Web發(fā)掘與“主題爬行”技術(shù)有機地結(jié)合起來,對Deep Web垂直搜索引擎系統(tǒng)的關(guān)鍵技術(shù)進行了深入研究,使用已有的主題爬行技術(shù)來指導(dǎo)Deep Web發(fā)掘,將Deep Web發(fā)掘技術(shù)融入主題爬行,研究了基于Deep Web垂直搜索引擎設(shè)計,實現(xiàn)了一個面向Deep Web的垂直搜索引擎原型系統(tǒng)HYSE。 隨著Web數(shù)據(jù)庫在Web中不斷大量的涌現(xiàn),人們在Deep Web領(lǐng)域已經(jīng)作了大量的研究,然而大部分工作仍然處于探索性的階段,有些方面的工作到目前可以說是剛剛開始甚至仍然是空白。因此要真正有效的利用Deep Web資源仍然有許多的問題有待更深入的研究。本文對Deep Web垂直搜索引擎的關(guān)鍵技術(shù)進行了研究,但文中提出的方法、算法還有待進一步改進;HYSE仍然是一個功能不強的原型系統(tǒng),與大規(guī)模、多主題領(lǐng)域的信息檢索系統(tǒng)相比仍然有一定的差距。
【關(guān)鍵詞】:
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 徐東麗;基于Crawler的Web服務(wù)搜索研究[D];大連海事大學(xué);2011年
2 崔金國;基于蟻群算法的主題爬蟲技術(shù)研究與實現(xiàn)[D];成都理工大學(xué);2010年
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 林亞平,李彥,童調(diào)生,尹鋒;漢語自動分詞中的神經(jīng)網(wǎng)絡(luò)技術(shù)研究[J];湖南大學(xué)學(xué)報(自然科學(xué)版);1997年06期
2 殷建平;漢語自動分詞方法[J];計算機工程與科學(xué);1998年03期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙曉凡;胡順義;;基于正向最大匹配的漢語分詞[J];安陽師范學(xué)院學(xué)報;2010年05期
2 文庭孝;漢語自動分詞研究進展[J];圖書與情報;2005年05期
3 韓翠峰;藺振玲;許峰;;基于Agent的高校數(shù)字圖書館個性化服務(wù)系統(tǒng)功能模塊設(shè)計與分析[J];圖書與情報;2010年06期
4 孫英娟;蒲東兵;孫英慧;李春宜;周春光;;郵件過濾Agent的設(shè)計[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2008年06期
5 葛宇;梁靜;陳曉敏;;搜索引擎系統(tǒng)中熱點問題的探討[J];成都電子機械高等?茖W(xué)校學(xué)報;2009年04期
6 何嘉;陳琳;;基于神經(jīng)網(wǎng)絡(luò)漢語分詞模型的優(yōu)化[J];成都信息工程學(xué)院學(xué)報;2006年06期
7 李明杰;;特征抽取方法在網(wǎng)頁分類中的應(yīng)用[J];常熟理工學(xué)院學(xué)報;2005年04期
8 喻海飛;汪定偉;;食物鏈算法及其參數(shù)分析[J];東北大學(xué)學(xué)報(自然科學(xué)版);2007年07期
9 吳雅娟,柳培林 ,丁子睿;基于統(tǒng)計分詞的中文文本分類系統(tǒng)[J];電腦知識與技術(shù);2005年11期
10 梁曉弘;楊文安;;分詞技術(shù)在信息處理中的研究綜述[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年22期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 許歡慶;王永成;孫強;;基于遺傳算法的定題信息搜索策略[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
2 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 杜曼玲;供應(yīng)鏈過程管理的分析方法與技術(shù)實現(xiàn)[D];北京交通大學(xué);2010年
2 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
3 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
4 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
5 李常洪;多Agent合作機制與合作結(jié)構(gòu)研究[D];天津大學(xué);2003年
6 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
7 茍先太;下一代網(wǎng)絡(luò)中支持多媒體通信任務(wù)的多代理技術(shù)研究[D];西南交通大學(xué);2005年
8 吳應(yīng)良;網(wǎng)絡(luò)計算中的智能信息處理方法研究[D];華南理工大學(xué);2000年
9 王俊偉;粒子群優(yōu)化算法的改進及應(yīng)用[D];東北大學(xué);2006年
10 喻海飛;食物鏈算法及其在供應(yīng)鏈管理中的應(yīng)用[D];東北大學(xué);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉偉麗;基于粒子群算法和支持向量機的中文文本分類研究[D];河南工業(yè)大學(xué);2010年
2 惠國寶;基于統(tǒng)計和語義分析的分詞及在產(chǎn)品設(shè)計中的應(yīng)用[D];西安電子科技大學(xué);2011年
3 王芳芳;基于Agent的網(wǎng)絡(luò)信息檢索[D];沈陽工業(yè)大學(xué);2011年
4 杜佳倫;面向用戶體驗需求的垂直搜索引擎的研究[D];吉林大學(xué);2011年
5 韓保川;基于用戶興趣本體的初始URLs選擇方法的研究[D];西華大學(xué);2011年
6 任曉霞;BBS輿情智能分析系統(tǒng)研究與實現(xiàn)[D];沈陽理工大學(xué);2011年
7 韓月陽;基于S-EK圖最短路徑中文分詞的研究[D];云南大學(xué);2011年
8 韓開旭;基于查詢擴展的油田網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)[D];東北石油大學(xué);2011年
9 王園園;以動詞為邏輯驅(qū)動的中文信息處理系統(tǒng)的建設(shè)[D];成都理工大學(xué);2011年
10 樊峻;基于CORESEEK的中文信息搜索系統(tǒng)的研究與應(yīng)用[D];安徽理工大學(xué);2011年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 魏應(yīng)彬,王娟;用JDOM處理XML文檔[J];福建電腦;2004年10期
2 韓家煒,孟小峰,王靜,李盛恩;Web挖掘研究[J];計算機研究與發(fā)展;2001年04期
3 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕;中文搜索引擎概念檢索初探[J];計算機工程與應(yīng)用;2000年06期
4 彭敦陸;周傲英;;基于方法聚類的Web服務(wù)檢索技術(shù)[J];計算機應(yīng)用;2007年10期
5 關(guān)佶紅;許紅儒;周水庚;;Web服務(wù)搜索技術(shù)綜述[J];計算機科學(xué)與探索;2010年05期
6 丁文文;;基于WordNet的Web服務(wù)發(fā)現(xiàn)模型[J];微計算機信息;2007年24期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];大連理工大學(xué);2005年
2 劉平冰;基于Lucene的Web站內(nèi)信息搜索系統(tǒng)[D];電子科技大學(xué);2005年
3 劉強;WEB服務(wù)及XML安全[D];四川大學(xué);2005年
4 謝琴;蟻群算法在Web日志挖掘中的研究與應(yīng)用[D];重慶大學(xué);2006年
5 耿瑞峰;Web服務(wù)在搜索引擎中的應(yīng)用研究[D];江南大學(xué);2006年
6 沈屹挺;Web Services技術(shù)在企業(yè)應(yīng)用集成中的應(yīng)用研究[D];大連海事大學(xué);2007年
7 陳寧;Lucene全文檢索在網(wǎng)絡(luò)教學(xué)平臺中的應(yīng)用研究[D];大連海事大學(xué);2007年
8 薛建春;垂直搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2007年
9 朱金濤;基于超鏈接搜索策略網(wǎng)絡(luò)爬行器的設(shè)計與實現(xiàn)[D];吉林大學(xué);2007年
10 潘亭瀝;基于Lucene的面向商業(yè)應(yīng)用的搜索引擎研究與實現(xiàn)[D];電子科技大學(xué);2007年
【二級引證文獻】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 陳永彬;基于聚焦爬蟲技術(shù)的教學(xué)資源搜集與自動整理方法研究[D];東北師范大學(xué);2011年
2 董晨曦;基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實現(xiàn)[D];北京交通大學(xué);2012年
3 劉麗杰;垂直搜索引擎中聚焦爬蟲技術(shù)的研究[D];哈爾濱工程大學(xué);2012年
4 張曉雷;面向Web挖掘的主題網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D];西安電子科技大學(xué);2012年
5 王建彬;基于相似性博客推薦技術(shù)的研究與應(yīng)用[D];內(nèi)蒙古科技大學(xué);2012年
6 李五一;房地產(chǎn)交易信息搜索和匹配技術(shù)的研究與實現(xiàn)[D];杭州電子科技大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 李國臣,劉開瑛,張永奎;漢語自動分詞及歧義組合結(jié)構(gòu)的處理[J];中文信息學(xué)報;1988年03期
2 何克抗,徐輝,孫波;書面漢語自動分詞專家系統(tǒng)設(shè)計原理[J];中文信息學(xué)報;1991年02期
3 韓世欣,王開鑄;基于短語結(jié)構(gòu)文法的分詞研究[J];中文信息學(xué)報;1992年03期
4 徐秉錚,詹劍,賀前華;基于神經(jīng)網(wǎng)絡(luò)的分詞方法[J];中文信息學(xué)報;1993年02期
5 尹鋒,林亞平;漢語自動分詞技術(shù)的現(xiàn)狀及發(fā)展趨勢[J];軟件世界;1996年12期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 周作濤;;垂直搜索在電子商務(wù)中的應(yīng)用分析[J];陜西理工學(xué)院學(xué)報(自然科學(xué)版);2008年03期
2 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期
3 劉苗苗;張永生;;文本分類技術(shù)在搜索引擎中的應(yīng)用[J];中國新技術(shù)新產(chǎn)品;2010年04期
4 秦茜;;期待搜狗抹平新賬舊債馬云張朝陽合謀垂直搜索[J];IT時代周刊;2010年17期
5 ;有了百度、Google,還要別的搜索嗎?[J];電腦愛好者;2007年23期
6 劉金亮;蘇琳;石云;;基于Nutch的垂直搜索技術(shù)研究[J];電腦知識與技術(shù);2011年24期
7 燕苗;;搜索引擎技術(shù)研究與發(fā)展[J];科技傳播;2011年10期
8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計算機系統(tǒng)應(yīng)用;2009年07期
9 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年02期
10 劉運強;;垂直搜索引擎的研究與設(shè)計[J];計算機應(yīng)用與軟件;2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳克利;宗成慶;王霞;;基于大規(guī)模真實文本的平衡語料分析與文本分類方法[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
2 杜長海;吉根林;;模糊聚類的最大樹法在文本分類中的應(yīng)用研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年
3 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計算機學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
4 劉秉權(quán);李博;孫林;王寶勛;劉遠超;;標簽特征和正文特征融合的SVM博客文本分類算法研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
5 海麗且木·艾沙;維尼拉·木沙江;;Web文本分類及其維、哈、柯多文種信息檢索中的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
6 商炳章;白清源;;基于特征項權(quán)重改進的關(guān)聯(lián)文本分類[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
7 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
8 朱慕華;陳文亮;朱靖波;;詞聚類在文本分類中的應(yīng)用[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
9 王小華;陸蓓;張國煊;;文本自動分類的模糊方法[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
10 龐劍鋒;程學(xué)旗;;反饋方法在文本分類系統(tǒng)中的應(yīng)用[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 魏蓓;[N];市場報;2006年
2 元元;[N];證券日報;2006年
3 商報記者 吳辰光;[N];北京現(xiàn)代商報;2006年
4 賽迪顧問互聯(lián)網(wǎng)產(chǎn)業(yè)研究中心咨詢師 危貴川;[N];市場報;2008年
5 洪黎明;[N];人民郵電;2007年
6 記者 張勇;[N];民營經(jīng)濟報;2006年
7 本報記者 杜華斌;[N];科技日報;2005年
8 本報記者 秦海波;[N];經(jīng)濟日報;2006年
9 賽迪顧問互聯(lián)網(wǎng)產(chǎn)業(yè)研究中心;[N];中國計算機報;2007年
10 李志;[N];中國計算機報;2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 管虎;普適環(huán)境下輕量級垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年
2 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
3 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
4 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年
5 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
6 孟佳娜;遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D];大連理工大學(xué);2011年
7 劉伍穎;面向垃圾信息過濾的主動多域?qū)W習(xí)文本分類方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年
8 李智星;用于文本分類的簡明語義分析技術(shù)研究[D];重慶大學(xué);2011年
9 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
10 陳德品;基于遷移學(xué)習(xí)的跨領(lǐng)域排序?qū)W習(xí)算法研究[D];中國科學(xué)技術(shù)大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 于海;基于Lucene的垂直搜索引擎設(shè)計[D];吉林大學(xué);2008年
2 曾礪鋒;基于數(shù)字有機體數(shù)據(jù)庫的搜索引擎的理論研究與實現(xiàn)[D];電子科技大學(xué);2008年
3 譚龍遠;基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2009年
4 王偉;搜索引擎下Web分類技術(shù)研究[D];內(nèi)蒙古科技大學(xué);2011年
5 丁志剛;基于類別意圖的信息檢索模型[D];北京郵電大學(xué);2009年
6 劉志強;基于文本經(jīng)驗?zāi)P偷闹黝}爬行系統(tǒng)[D];吉林大學(xué);2006年
7 李凱;Web挖掘在教學(xué)資源搜索引擎中的應(yīng)用研究[D];東北師范大學(xué);2007年
8 尹江;基于文檔分類及超鏈接優(yōu)選策略主題蜘蛛的研究與實現(xiàn)[D];西南交通大學(xué);2008年
9 呂靖;互聯(lián)網(wǎng)搜索詞分類關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
10 郭明;基于文本分類技術(shù)的文本情感傾向性研究[D];鄭州大學(xué);2010年
本文關(guān)鍵詞:面向用戶體驗需求的垂直搜索引擎的研究,,由筆耕文化傳播整理發(fā)布。
本文編號:163355
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/163355.html