基于Nutch技術(shù)的主題搜索引擎實現(xiàn)
本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實現(xiàn),由筆耕文化傳播整理發(fā)布。
《吉林大學(xué)》 2008年
基于Nutch技術(shù)的主題搜索引擎實現(xiàn)
李東海
【摘要】: 面向主題的搜索引擎技術(shù)目前已經(jīng)成為網(wǎng)絡(luò)信息檢索領(lǐng)域新的研究熱點之一。不同于不加區(qū)分的從網(wǎng)絡(luò)上收集網(wǎng)頁的傳統(tǒng)搜索引擎,面向主題的搜索引擎僅僅采集用戶指定的、與某一特定主題相關(guān)的頁面。 Nutch是一個剛剛誕生開放源代碼(open-source)的web搜索引擎。Nutch將盡自己最大的努力為用戶提供最好的搜索結(jié)果,它使用Lucene作為索引和檢索的模塊。它的抓取器是獨立為自身編寫的,具有高度標(biāo)準(zhǔn)模塊的架構(gòu)。 本文中的系統(tǒng)是中文主題搜索引擎,中文處理的問題以及主題相關(guān)性的問題是系統(tǒng)需要解決的首要問題。考慮到主題搜索引擎在主題判定方面的復(fù)雜性,為了保證系統(tǒng)的成功構(gòu)建,降低工作量以及工作難度,系統(tǒng)基于Nutch開發(fā),嵌入和特定領(lǐng)域相關(guān)的專用詞典(如army.txt),專業(yè)詞典和本文描述的主題相關(guān)性的判別方法相結(jié)合來識別爬行器爬到的網(wǎng)頁是否與特定主題相關(guān)。本文依據(jù)Menczer對三種基于主題采集策略研究的結(jié)論,進(jìn)行了實驗和比較,決定本系統(tǒng)采用Best first Crawler方法來解決主題相似度得到采集優(yōu)先級的問題。 最后,我們對整個算法進(jìn)行了系統(tǒng)實現(xiàn),并在不同的網(wǎng)絡(luò)環(huán)境下進(jìn)行了比較實驗。本系統(tǒng)在后臺部分能對客戶提供的網(wǎng)站信息進(jìn)行頁面抓取和信息預(yù)處理,前臺部分能利用后臺抓取的數(shù)據(jù)進(jìn)行信息檢索,查詢到要查詢的信息。
【關(guān)鍵詞】:
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 熊桂喜;李政;;基于規(guī)則和語料庫的中文姓名識別研究[J];計算機(jī)與信息技術(shù);2007年12期
2 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報;2008年03期
3 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年10期
4 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計算機(jī)研究與發(fā)展;2010年05期
5 孫殿哲;魏海平;陳巖;;Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J];計算機(jī)與現(xiàn)代化;2010年06期
6 楊文濤;司應(yīng)碩;張森;;GA-BP神經(jīng)網(wǎng)絡(luò)算法在中文分詞分析中的應(yīng)用研究[J];河南機(jī)電高等?茖W(xué)校學(xué)報;2010年04期
7 孫樂;方自金;;基于互聯(lián)網(wǎng)的信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J];河北大學(xué)成人教育學(xué)院學(xué)報;2010年04期
8 陳紅英,李衛(wèi)華;智能信息Agent的研究和實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2002年12期
9 林珊,寧國寧,趙之霖;中文分詞在郵件過濾系統(tǒng)中的應(yīng)用[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期
10 王堅,趙恒永;專業(yè)搜索引擎中文分詞算法的實現(xiàn)與研究[J];福建電腦;2005年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
6 彭輝;翟翔;;AutoCAD 2008自動翻譯軟件研發(fā)[A];全國冶金自動化信息網(wǎng)2010年年會論文集[C];2010年
7 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設(shè)計[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2008年
9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 清華大學(xué)IT可用性實驗室;[N];計算機(jī)世界;2005年
2 本報記者 張彤;[N];網(wǎng)絡(luò)世界;2004年
3 記者 吳苡婷;[N];上?萍紙;2009年
4 中國科學(xué)院計算技術(shù)研究所 王 斌;[N];計算機(jī)世界;2004年
5 賀俊;[N];證券日報;2006年
6 記者 楊朝暉;[N];科技日報;2007年
7 張韜;[N];上海證券報;2007年
8 王翌;[N];計算機(jī)世界;2005年
9 李永勝;[N];中國計算機(jī)報;2007年
10 記者 李霆鈞;[N];中國電影報;2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
2 孫越恒;基于統(tǒng)計的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
6 任飛亮;高適應(yīng)性基于實例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年
7 張京楣;基于統(tǒng)計方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年
8 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年
9 湯步洲;序列標(biāo)注問題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年
10 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李東海;基于Nutch技術(shù)的主題搜索引擎實現(xiàn)[D];吉林大學(xué);2008年
2 傅士光;基于主題的搜索引擎的研究與實現(xiàn)[D];北京交通大學(xué);2007年
3 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年
4 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計分詞系統(tǒng)[D];中南大學(xué);2005年
5 戚晶;基于RSS的搜索引擎的研究與實現(xiàn)[D];吉林大學(xué);2006年
6 馬莉;基于SVM的垃圾郵件過濾的研究[D];山東大學(xué);2005年
7 王新梅;基于內(nèi)容挖掘的垃圾郵件過濾技術(shù)[D];武漢理工大學(xué);2006年
8 李培國;基于人工神經(jīng)網(wǎng)的中文垃圾郵件過濾器的設(shè)計與實現(xiàn)[D];暨南大學(xué);2007年
9 劉琨;搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2004年
10 王圓;文本內(nèi)容過濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年
本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:58634
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58634.html