天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Nutch技術(shù)的主題搜索引擎實現(xiàn)

發(fā)布時間:2016-06-18 08:08

  本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實現(xiàn),由筆耕文化傳播整理發(fā)布。


《吉林大學(xué)》 2008年

基于Nutch技術(shù)的主題搜索引擎實現(xiàn)

李東海  

【摘要】: 面向主題的搜索引擎技術(shù)目前已經(jīng)成為網(wǎng)絡(luò)信息檢索領(lǐng)域新的研究熱點之一。不同于不加區(qū)分的從網(wǎng)絡(luò)上收集網(wǎng)頁的傳統(tǒng)搜索引擎,面向主題的搜索引擎僅僅采集用戶指定的、與某一特定主題相關(guān)的頁面。 Nutch是一個剛剛誕生開放源代碼(open-source)的web搜索引擎。Nutch將盡自己最大的努力為用戶提供最好的搜索結(jié)果,它使用Lucene作為索引和檢索的模塊。它的抓取器是獨立為自身編寫的,具有高度標(biāo)準(zhǔn)模塊的架構(gòu)。 本文中的系統(tǒng)是中文主題搜索引擎,中文處理的問題以及主題相關(guān)性的問題是系統(tǒng)需要解決的首要問題。考慮到主題搜索引擎在主題判定方面的復(fù)雜性,為了保證系統(tǒng)的成功構(gòu)建,降低工作量以及工作難度,系統(tǒng)基于Nutch開發(fā),嵌入和特定領(lǐng)域相關(guān)的專用詞典(如army.txt),專業(yè)詞典和本文描述的主題相關(guān)性的判別方法相結(jié)合來識別爬行器爬到的網(wǎng)頁是否與特定主題相關(guān)。本文依據(jù)Menczer對三種基于主題采集策略研究的結(jié)論,進(jìn)行了實驗和比較,決定本系統(tǒng)采用Best first Crawler方法來解決主題相似度得到采集優(yōu)先級的問題。 最后,我們對整個算法進(jìn)行了系統(tǒng)實現(xiàn),并在不同的網(wǎng)絡(luò)環(huán)境下進(jìn)行了比較實驗。本系統(tǒng)在后臺部分能對客戶提供的網(wǎng)站信息進(jìn)行頁面抓取和信息預(yù)處理,前臺部分能利用后臺抓取的數(shù)據(jù)進(jìn)行信息檢索,查詢到要查詢的信息。

【關(guān)鍵詞】:
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP391.3
【目錄】:

  • 提要4-7
  • 第一章 緒論7-11
  • 1.1 通用搜索引擎和主題搜索引擎的比較7-8
  • 1.2 主題搜索引擎的產(chǎn)生和發(fā)展前景8-9
  • 1.3 選題的意義9
  • 1.4 本文的主要研究內(nèi)容和結(jié)構(gòu)安排9-11
  • 第二章 搜索引擎相關(guān)技術(shù)11-23
  • 2.1 搜索引擎的工作原理11-18
  • 2.1.1 頁面采集模塊的工作原理12-14
  • 2.1.2 頁面分析和建立索引14-16
  • 2.1.3 數(shù)據(jù)檢索模塊的工作原理16-18
  • 2.2 主題搜索引擎工作原理18-19
  • 2.2.1 主題搜索引擎的特點18-19
  • 2.2.2 主題搜索引擎的信息采集技術(shù)19
  • 2.3 開源搜索引擎—Nutch19-22
  • 2.3.1 Nutch 的特點21-22
  • 2.4 小結(jié)22-23
  • 第三章 基于Nutch 主題搜索引擎設(shè)計23-35
  • 3.1 系統(tǒng)體系結(jié)構(gòu)23-26
  • 3.1.1 信息抓取部分24
  • 3.1.2 信息預(yù)處理部分24-26
  • 3.1.3 查詢服務(wù)部分26
  • 3.2 系統(tǒng)用例模型26-28
  • 3.2.1 角色的確定26-27
  • 3.2.2 創(chuàng)建用例27-28
  • 3.3 系統(tǒng)動態(tài)模型28-30
  • 3.4 系統(tǒng)整體工作說明30-31
  • 3.4.1 系統(tǒng)整體工作圖解30-31
  • 3.4.2 系統(tǒng)總體工作流程描述31
  • 3.5 系統(tǒng)數(shù)據(jù)說明31-32
  • 3.6 主題過濾說明32-35
  • 第四章 系統(tǒng)實現(xiàn)技術(shù)難題和比較實驗35-61
  • 4.1 系統(tǒng)實現(xiàn)問題35-36
  • 4.2 中文問題36-37
  • 4.2.1 segmentCN 模塊解決中文問題36-37
  • 4.3 主題相關(guān)性判別問題37-54
  • 4.3.1 根據(jù)元數(shù)據(jù)的判定(元數(shù)據(jù)演算)37-41
  • 4.3.2 根據(jù)擴(kuò)展元數(shù)據(jù)的判定41-45
  • 4.3.3 根據(jù)頁面間鏈接分析的判斷45-51
  • 4.3.4 根據(jù)頁面語義信息的判定51-54
  • 4.4 本系統(tǒng)主題表示問題的解決辦法54-55
  • 4.5 出錯處理和遺留問題55-56
  • 4.5.1 出錯處理55
  • 4.5.2 遺留問題55-56
  • 4.6 單機(jī)實驗測試與并行測試資源消耗對照與結(jié)論56-60
  • 4.7 分析摘要60
  • 4.8 附錄60-61
  • 第五章 結(jié)論和工作展望61-62
  • 參考文獻(xiàn)62-64
  • 摘要64-67
  • Abstract67-70
  • 致謝70-71
  • 導(dǎo)師和作者簡介71
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 熊桂喜;李政;;基于規(guī)則和語料庫的中文姓名識別研究[J];計算機(jī)與信息技術(shù);2007年12期

    2 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報;2008年03期

    3 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年10期

    4 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計算機(jī)研究與發(fā)展;2010年05期

    5 孫殿哲;魏海平;陳巖;;Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J];計算機(jī)與現(xiàn)代化;2010年06期

    6 楊文濤;司應(yīng)碩;張森;;GA-BP神經(jīng)網(wǎng)絡(luò)算法在中文分詞分析中的應(yīng)用研究[J];河南機(jī)電高等?茖W(xué)校學(xué)報;2010年04期

    7 孫樂;方自金;;基于互聯(lián)網(wǎng)的信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J];河北大學(xué)成人教育學(xué)院學(xué)報;2010年04期

    8 陳紅英,李衛(wèi)華;智能信息Agent的研究和實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2002年12期

    9 林珊,寧國寧,趙之霖;中文分詞在郵件過濾系統(tǒng)中的應(yīng)用[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期

    10 王堅,趙恒永;專業(yè)搜索引擎中文分詞算法的實現(xiàn)與研究[J];福建電腦;2005年07期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年

    2 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    5 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

    6 彭輝;翟翔;;AutoCAD 2008自動翻譯軟件研發(fā)[A];全國冶金自動化信息網(wǎng)2010年年會論文集[C];2010年

    7 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設(shè)計[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

    8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2008年

    9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

    10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 清華大學(xué)IT可用性實驗室;[N];計算機(jī)世界;2005年

    2 本報記者 張彤;[N];網(wǎng)絡(luò)世界;2004年

    3 記者 吳苡婷;[N];上?萍紙;2009年

    4 中國科學(xué)院計算技術(shù)研究所 王 斌;[N];計算機(jī)世界;2004年

    5 賀俊;[N];證券日報;2006年

    6 記者 楊朝暉;[N];科技日報;2007年

    7 張韜;[N];上海證券報;2007年

    8 王翌;[N];計算機(jī)世界;2005年

    9 李永勝;[N];中國計算機(jī)報;2007年

    10 記者 李霆鈞;[N];中國電影報;2010年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

    2 孫越恒;基于統(tǒng)計的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

    3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

    4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

    5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

    6 任飛亮;高適應(yīng)性基于實例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

    7 張京楣;基于統(tǒng)計方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年

    8 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

    9 湯步洲;序列標(biāo)注問題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年

    10 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 李東海;基于Nutch技術(shù)的主題搜索引擎實現(xiàn)[D];吉林大學(xué);2008年

    2 傅士光;基于主題的搜索引擎的研究與實現(xiàn)[D];北京交通大學(xué);2007年

    3 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年

    4 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計分詞系統(tǒng)[D];中南大學(xué);2005年

    5 戚晶;基于RSS的搜索引擎的研究與實現(xiàn)[D];吉林大學(xué);2006年

    6 馬莉;基于SVM的垃圾郵件過濾的研究[D];山東大學(xué);2005年

    7 王新梅;基于內(nèi)容挖掘的垃圾郵件過濾技術(shù)[D];武漢理工大學(xué);2006年

    8 李培國;基于人工神經(jīng)網(wǎng)的中文垃圾郵件過濾器的設(shè)計與實現(xiàn)[D];暨南大學(xué);2007年

    9 劉琨;搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2004年

    10 王圓;文本內(nèi)容過濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年


      本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實現(xiàn),由筆耕文化傳播整理發(fā)布。

    ,

    本文編號:58634

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58634.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶f66d3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com