天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)

發(fā)布時(shí)間:2016-06-18 08:08

  本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


《吉林大學(xué)》 2008年

基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)

李東海  

【摘要】: 面向主題的搜索引擎技術(shù)目前已經(jīng)成為網(wǎng)絡(luò)信息檢索領(lǐng)域新的研究熱點(diǎn)之一。不同于不加區(qū)分的從網(wǎng)絡(luò)上收集網(wǎng)頁(yè)的傳統(tǒng)搜索引擎,面向主題的搜索引擎僅僅采集用戶指定的、與某一特定主題相關(guān)的頁(yè)面。 Nutch是一個(gè)剛剛誕生開(kāi)放源代碼(open-source)的web搜索引擎。Nutch將盡自己最大的努力為用戶提供最好的搜索結(jié)果,它使用Lucene作為索引和檢索的模塊。它的抓取器是獨(dú)立為自身編寫(xiě)的,具有高度標(biāo)準(zhǔn)模塊的架構(gòu)。 本文中的系統(tǒng)是中文主題搜索引擎,中文處理的問(wèn)題以及主題相關(guān)性的問(wèn)題是系統(tǒng)需要解決的首要問(wèn)題?紤]到主題搜索引擎在主題判定方面的復(fù)雜性,為了保證系統(tǒng)的成功構(gòu)建,降低工作量以及工作難度,系統(tǒng)基于Nutch開(kāi)發(fā),嵌入和特定領(lǐng)域相關(guān)的專(zhuān)用詞典(如army.txt),專(zhuān)業(yè)詞典和本文描述的主題相關(guān)性的判別方法相結(jié)合來(lái)識(shí)別爬行器爬到的網(wǎng)頁(yè)是否與特定主題相關(guān)。本文依據(jù)Menczer對(duì)三種基于主題采集策略研究的結(jié)論,進(jìn)行了實(shí)驗(yàn)和比較,決定本系統(tǒng)采用Best first Crawler方法來(lái)解決主題相似度得到采集優(yōu)先級(jí)的問(wèn)題。 最后,我們對(duì)整個(gè)算法進(jìn)行了系統(tǒng)實(shí)現(xiàn),并在不同的網(wǎng)絡(luò)環(huán)境下進(jìn)行了比較實(shí)驗(yàn)。本系統(tǒng)在后臺(tái)部分能對(duì)客戶提供的網(wǎng)站信息進(jìn)行頁(yè)面抓取和信息預(yù)處理,前臺(tái)部分能利用后臺(tái)抓取的數(shù)據(jù)進(jìn)行信息檢索,查詢(xún)到要查詢(xún)的信息。

【關(guān)鍵詞】:
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類(lèi)號(hào)】:TP391.3
【目錄】:

  • 提要4-7
  • 第一章 緒論7-11
  • 1.1 通用搜索引擎和主題搜索引擎的比較7-8
  • 1.2 主題搜索引擎的產(chǎn)生和發(fā)展前景8-9
  • 1.3 選題的意義9
  • 1.4 本文的主要研究?jī)?nèi)容和結(jié)構(gòu)安排9-11
  • 第二章 搜索引擎相關(guān)技術(shù)11-23
  • 2.1 搜索引擎的工作原理11-18
  • 2.1.1 頁(yè)面采集模塊的工作原理12-14
  • 2.1.2 頁(yè)面分析和建立索引14-16
  • 2.1.3 數(shù)據(jù)檢索模塊的工作原理16-18
  • 2.2 主題搜索引擎工作原理18-19
  • 2.2.1 主題搜索引擎的特點(diǎn)18-19
  • 2.2.2 主題搜索引擎的信息采集技術(shù)19
  • 2.3 開(kāi)源搜索引擎—Nutch19-22
  • 2.3.1 Nutch 的特點(diǎn)21-22
  • 2.4 小結(jié)22-23
  • 第三章 基于Nutch 主題搜索引擎設(shè)計(jì)23-35
  • 3.1 系統(tǒng)體系結(jié)構(gòu)23-26
  • 3.1.1 信息抓取部分24
  • 3.1.2 信息預(yù)處理部分24-26
  • 3.1.3 查詢(xún)服務(wù)部分26
  • 3.2 系統(tǒng)用例模型26-28
  • 3.2.1 角色的確定26-27
  • 3.2.2 創(chuàng)建用例27-28
  • 3.3 系統(tǒng)動(dòng)態(tài)模型28-30
  • 3.4 系統(tǒng)整體工作說(shuō)明30-31
  • 3.4.1 系統(tǒng)整體工作圖解30-31
  • 3.4.2 系統(tǒng)總體工作流程描述31
  • 3.5 系統(tǒng)數(shù)據(jù)說(shuō)明31-32
  • 3.6 主題過(guò)濾說(shuō)明32-35
  • 第四章 系統(tǒng)實(shí)現(xiàn)技術(shù)難題和比較實(shí)驗(yàn)35-61
  • 4.1 系統(tǒng)實(shí)現(xiàn)問(wèn)題35-36
  • 4.2 中文問(wèn)題36-37
  • 4.2.1 segmentCN 模塊解決中文問(wèn)題36-37
  • 4.3 主題相關(guān)性判別問(wèn)題37-54
  • 4.3.1 根據(jù)元數(shù)據(jù)的判定(元數(shù)據(jù)演算)37-41
  • 4.3.2 根據(jù)擴(kuò)展元數(shù)據(jù)的判定41-45
  • 4.3.3 根據(jù)頁(yè)面間鏈接分析的判斷45-51
  • 4.3.4 根據(jù)頁(yè)面語(yǔ)義信息的判定51-54
  • 4.4 本系統(tǒng)主題表示問(wèn)題的解決辦法54-55
  • 4.5 出錯(cuò)處理和遺留問(wèn)題55-56
  • 4.5.1 出錯(cuò)處理55
  • 4.5.2 遺留問(wèn)題55-56
  • 4.6 單機(jī)實(shí)驗(yàn)測(cè)試與并行測(cè)試資源消耗對(duì)照與結(jié)論56-60
  • 4.7 分析摘要60
  • 4.8 附錄60-61
  • 第五章 結(jié)論和工作展望61-62
  • 參考文獻(xiàn)62-64
  • 摘要64-67
  • Abstract67-70
  • 致謝70-71
  • 導(dǎo)師和作者簡(jiǎn)介71
  • 下載全文 更多同類(lèi)文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢(xún))

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 熊桂喜;李政;;基于規(guī)則和語(yǔ)料庫(kù)的中文姓名識(shí)別研究[J];計(jì)算機(jī)與信息技術(shù);2007年12期

    2 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報(bào);2008年03期

    3 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期

    4 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計(jì)算機(jī)研究與發(fā)展;2010年05期

    5 孫殿哲;魏海平;陳巖;;Nutch中庖丁解牛中文分詞的實(shí)現(xiàn)與評(píng)測(cè)[J];計(jì)算機(jī)與現(xiàn)代化;2010年06期

    6 楊文濤;司應(yīng)碩;張森;;GA-BP神經(jīng)網(wǎng)絡(luò)算法在中文分詞分析中的應(yīng)用研究[J];河南機(jī)電高等專(zhuān)科學(xué)校學(xué)報(bào);2010年04期

    7 孫樂(lè);方自金;;基于互聯(lián)網(wǎng)的信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];河北大學(xué)成人教育學(xué)院學(xué)報(bào);2010年04期

    8 陳紅英,李衛(wèi)華;智能信息Agent的研究和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2002年12期

    9 林珊,寧國(guó)寧,趙之霖;中文分詞在郵件過(guò)濾系統(tǒng)中的應(yīng)用[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

    10 王堅(jiān),趙恒永;專(zhuān)業(yè)搜索引擎中文分詞算法的實(shí)現(xiàn)與研究[J];福建電腦;2005年07期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國(guó)第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國(guó)第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

    2 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    3 張梅山;鄧知龍;車(chē)萬(wàn)翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

    5 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

    6 彭輝;翟翔;;AutoCAD 2008自動(dòng)翻譯軟件研發(fā)[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2010年年會(huì)論文集[C];2010年

    7 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

    8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年

    9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

    10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 清華大學(xué)IT可用性實(shí)驗(yàn)室;[N];計(jì)算機(jī)世界;2005年

    2 本報(bào)記者 張彤;[N];網(wǎng)絡(luò)世界;2004年

    3 記者 吳苡婷;[N];上?萍紙(bào);2009年

    4 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 王 斌;[N];計(jì)算機(jī)世界;2004年

    5 賀俊;[N];證券日?qǐng)?bào);2006年

    6 記者 楊朝暉;[N];科技日?qǐng)?bào);2007年

    7 張韜;[N];上海證券報(bào);2007年

    8 王翌;[N];計(jì)算機(jī)世界;2005年

    9 李永勝;[N];中國(guó)計(jì)算機(jī)報(bào);2007年

    10 記者 李霆鈞;[N];中國(guó)電影報(bào);2010年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

    2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

    3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

    4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

    5 陳博;WEB文本情感分類(lèi)中關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2008年

    6 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

    7 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年

    8 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

    9 湯步洲;序列標(biāo)注問(wèn)題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年

    10 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問(wèn)題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年

    2 傅士光;基于主題的搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2007年

    3 馬忠寶;基于支持向量機(jī)的中文文本分類(lèi)系統(tǒng)研究[D];武漢理工大學(xué);2006年

    4 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)[D];中南大學(xué);2005年

    5 戚晶;基于RSS的搜索引擎的研究與實(shí)現(xiàn)[D];吉林大學(xué);2006年

    6 馬莉;基于SVM的垃圾郵件過(guò)濾的研究[D];山東大學(xué);2005年

    7 王新梅;基于內(nèi)容挖掘的垃圾郵件過(guò)濾技術(shù)[D];武漢理工大學(xué);2006年

    8 李培國(guó);基于人工神經(jīng)網(wǎng)的中文垃圾郵件過(guò)濾器的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2007年

    9 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年

    10 王圓;文本內(nèi)容過(guò)濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年


      本文關(guān)鍵詞:基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。

    ,

    本文編號(hào):58634

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58634.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶f66d3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com