基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)
本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
《吉林大學(xué)》 2008年
基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)
李東海
【摘要】: 面向主題的搜索引擎技術(shù)目前已經(jīng)成為網(wǎng)絡(luò)信息檢索領(lǐng)域新的研究熱點(diǎn)之一。不同于不加區(qū)分的從網(wǎng)絡(luò)上收集網(wǎng)頁(yè)的傳統(tǒng)搜索引擎,面向主題的搜索引擎僅僅采集用戶指定的、與某一特定主題相關(guān)的頁(yè)面。 Nutch是一個(gè)剛剛誕生開(kāi)放源代碼(open-source)的web搜索引擎。Nutch將盡自己最大的努力為用戶提供最好的搜索結(jié)果,它使用Lucene作為索引和檢索的模塊。它的抓取器是獨(dú)立為自身編寫(xiě)的,具有高度標(biāo)準(zhǔn)模塊的架構(gòu)。 本文中的系統(tǒng)是中文主題搜索引擎,中文處理的問(wèn)題以及主題相關(guān)性的問(wèn)題是系統(tǒng)需要解決的首要問(wèn)題?紤]到主題搜索引擎在主題判定方面的復(fù)雜性,為了保證系統(tǒng)的成功構(gòu)建,降低工作量以及工作難度,系統(tǒng)基于Nutch開(kāi)發(fā),嵌入和特定領(lǐng)域相關(guān)的專(zhuān)用詞典(如army.txt),專(zhuān)業(yè)詞典和本文描述的主題相關(guān)性的判別方法相結(jié)合來(lái)識(shí)別爬行器爬到的網(wǎng)頁(yè)是否與特定主題相關(guān)。本文依據(jù)Menczer對(duì)三種基于主題采集策略研究的結(jié)論,進(jìn)行了實(shí)驗(yàn)和比較,決定本系統(tǒng)采用Best first Crawler方法來(lái)解決主題相似度得到采集優(yōu)先級(jí)的問(wèn)題。 最后,我們對(duì)整個(gè)算法進(jìn)行了系統(tǒng)實(shí)現(xiàn),并在不同的網(wǎng)絡(luò)環(huán)境下進(jìn)行了比較實(shí)驗(yàn)。本系統(tǒng)在后臺(tái)部分能對(duì)客戶提供的網(wǎng)站信息進(jìn)行頁(yè)面抓取和信息預(yù)處理,前臺(tái)部分能利用后臺(tái)抓取的數(shù)據(jù)進(jìn)行信息檢索,查詢(xún)到要查詢(xún)的信息。
【關(guān)鍵詞】:
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類(lèi)號(hào)】:TP391.3
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢(xún))
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 熊桂喜;李政;;基于規(guī)則和語(yǔ)料庫(kù)的中文姓名識(shí)別研究[J];計(jì)算機(jī)與信息技術(shù);2007年12期
2 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報(bào);2008年03期
3 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期
4 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計(jì)算機(jī)研究與發(fā)展;2010年05期
5 孫殿哲;魏海平;陳巖;;Nutch中庖丁解牛中文分詞的實(shí)現(xiàn)與評(píng)測(cè)[J];計(jì)算機(jī)與現(xiàn)代化;2010年06期
6 楊文濤;司應(yīng)碩;張森;;GA-BP神經(jīng)網(wǎng)絡(luò)算法在中文分詞分析中的應(yīng)用研究[J];河南機(jī)電高等專(zhuān)科學(xué)校學(xué)報(bào);2010年04期
7 孫樂(lè);方自金;;基于互聯(lián)網(wǎng)的信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];河北大學(xué)成人教育學(xué)院學(xué)報(bào);2010年04期
8 陳紅英,李衛(wèi)華;智能信息Agent的研究和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2002年12期
9 林珊,寧國(guó)寧,趙之霖;中文分詞在郵件過(guò)濾系統(tǒng)中的應(yīng)用[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
10 王堅(jiān),趙恒永;專(zhuān)業(yè)搜索引擎中文分詞算法的實(shí)現(xiàn)與研究[J];福建電腦;2005年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國(guó)第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國(guó)第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
2 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 張梅山;鄧知龍;車(chē)萬(wàn)翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
6 彭輝;翟翔;;AutoCAD 2008自動(dòng)翻譯軟件研發(fā)[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2010年年會(huì)論文集[C];2010年
7 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年
9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 清華大學(xué)IT可用性實(shí)驗(yàn)室;[N];計(jì)算機(jī)世界;2005年
2 本報(bào)記者 張彤;[N];網(wǎng)絡(luò)世界;2004年
3 記者 吳苡婷;[N];上?萍紙(bào);2009年
4 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 王 斌;[N];計(jì)算機(jī)世界;2004年
5 賀俊;[N];證券日?qǐng)?bào);2006年
6 記者 楊朝暉;[N];科技日?qǐng)?bào);2007年
7 張韜;[N];上海證券報(bào);2007年
8 王翌;[N];計(jì)算機(jī)世界;2005年
9 李永勝;[N];中國(guó)計(jì)算機(jī)報(bào);2007年
10 記者 李霆鈞;[N];中國(guó)電影報(bào);2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
5 陳博;WEB文本情感分類(lèi)中關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2008年
6 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年
7 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年
8 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
9 湯步洲;序列標(biāo)注問(wèn)題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年
10 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問(wèn)題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年
2 傅士光;基于主題的搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2007年
3 馬忠寶;基于支持向量機(jī)的中文文本分類(lèi)系統(tǒng)研究[D];武漢理工大學(xué);2006年
4 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)[D];中南大學(xué);2005年
5 戚晶;基于RSS的搜索引擎的研究與實(shí)現(xiàn)[D];吉林大學(xué);2006年
6 馬莉;基于SVM的垃圾郵件過(guò)濾的研究[D];山東大學(xué);2005年
7 王新梅;基于內(nèi)容挖掘的垃圾郵件過(guò)濾技術(shù)[D];武漢理工大學(xué);2006年
8 李培國(guó);基于人工神經(jīng)網(wǎng)的中文垃圾郵件過(guò)濾器的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2007年
9 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年
10 王圓;文本內(nèi)容過(guò)濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年
本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):58634
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58634.html