基于mapreduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn)分析【畢業(yè)論文】.pdf
本文關(guān)鍵詞:基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
網(wǎng)友wz_198620近日為您收集整理了關(guān)于基于mapreduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn)分析【畢業(yè)論文】的文檔,希望對您的工作和學(xué)習(xí)有所幫助。以下是文檔介紹:電子科技大學(xué)UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA碩士學(xué)位論文MASTERTHESIS論文題目基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn)學(xué)科專業(yè)計(jì)算機(jī)軟件與理論學(xué)號201121060321作者姓名玉兆輝指導(dǎo)教師陳波副教授分類號密級UDC注1學(xué)位論文基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn)(題名和副題名)玉兆輝(作者姓名)指導(dǎo)教師陳波副教授電子科技大學(xué)成都(姓名、職稱、單位名稱)申請學(xué)位級別碩士學(xué)科專業(yè)計(jì)算機(jī)軟件與理論提交論文日期2014.3論文答辯日期2014.5.12學(xué)位授予單位和日期電子科技大學(xué)2014年06月29日答辯委員會主席評閱人注1:注明《國際十進(jìn)分類法UDC》的類號。puterSoftwareandTheoryAuthor:YuZhaohuiAdvisor:ChenBoSchool:puterScience&Engineering獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。作者簽名:日期:年月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)作者簽名:導(dǎo)師簽名:日期:年月日摘要I摘要近幾年來,互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,社交格局發(fā)生新變化,人們更多的依賴網(wǎng)絡(luò)來表達(dá)自己的觀點(diǎn)看法。這使得網(wǎng)絡(luò)中的信息數(shù)量海量的增長,人們也越來越多的依賴網(wǎng)絡(luò)來獲取資料,而當(dāng)前的集中式搜索引擎集在處理海量數(shù)據(jù)時(shí)效率低下,并且由于網(wǎng)絡(luò)數(shù)據(jù)量的不斷增大,搜索結(jié)果數(shù)量眾多又呈線狀羅列,有很多與用戶無關(guān)的信息充斥在其中,加上現(xiàn)有搜索引擎有在獲取不動態(tài)網(wǎng)頁信息時(shí)的不足,使得用戶不能在很短時(shí)間內(nèi)定位到所要查詢的信息。因此,能夠使用戶快速、準(zhǔn)確、全面地獲取到所要檢索的信息對用戶來說已是十分迫切的需求。為了解決用戶在一般搜索引擎上無法迅速定位所需的信息,以及集中式的搜索引擎在處理大數(shù)據(jù)集時(shí)效率低的問題。本文綜合研究了搜索引擎,數(shù)據(jù)挖掘以及Hadoop分布式集群的相關(guān)內(nèi)容,主要完成以下工作:1.設(shè)計(jì)并實(shí)現(xiàn)了一種基于分布式集群基礎(chǔ)上的聚類搜索引擎,包括信息采集、信息預(yù)處理,對信息聚類處理和相應(yīng)用戶的檢索需求展示檢索結(jié)果。2.針對無法爬取全面信息的問題,本文基于元搜索引擎Nutch和腳本解釋引擎Rhino,提出并設(shè)計(jì)了一種動靜結(jié)合的網(wǎng)絡(luò)爬取策略,可以在信息采集階段全面的獲取網(wǎng)絡(luò)動態(tài)和靜態(tài)網(wǎng)頁信息。3.本文在聚類模塊中對于Canopy-Kmeans聚類算法以及Canopy-Kmeans基于最大最小原則的改進(jìn)算法由串行運(yùn)行實(shí)現(xiàn)了MapReduce的并行運(yùn)行的模式,進(jìn)而對檢索結(jié)果進(jìn)行聚類,同時(shí)也實(shí)現(xiàn)了Dirichlet和LDA等經(jīng)典的聚類算法,對不同類型的信息庫可選用不同的算法聚類,以達(dá)到相對較好的效果。4.在聚類標(biāo)簽生成的過程中,本文設(shè)計(jì)并實(shí)現(xiàn)的是自動產(chǎn)生和自定義結(jié)合的方式,使得聚類標(biāo)簽具有很好的可讀性和合理性。5.在用戶檢索顯示模塊,本文用層次化的目錄結(jié)構(gòu)來顯示搜索結(jié)果與聚類之間的關(guān)系,使得用戶能夠更高效更準(zhǔn)確的對檢索結(jié)果進(jìn)行瀏覽。關(guān)鍵詞:搜索引擎,聚類,分布式,Hadoop,集群ABSTRACTIIABSTRACTInrecentyears,technology,socialstructurechanged,workismoredependedontoexpresstheirviewsandideas.workinformationincreasedmassively.Meantime,workismoredependedontoobtaininformation.However,thecurrentsetofcentralizedsearchenginesisinefficientwhendealingwithhugeamountsofdata.What’sworse,workdataisincreasing,largenumberofsearchresultsarelistandlinearly,withvastamountofirrelevantinformationtotheuserinwhichflooding,workinformation.Inaveryshortperiodoftime,theusercannotnavigatetotheinformationyouwanttoquery.Thus,enablinguserstoquickly,esstotheinformationtoberetrievedforuserswillbeveryurgentneeds.Inordertosolvetheusercannotquicklylocatethedesiredinformationonthegeneralsearchengines,aswellastheinefficientcentralizedsearchengineswhendealingwithhugeamountsofdata.Inthisthesis,acomprehensivestudyoftherelevantcontentsearchengine,datamininganddistributedHadoopclusters,pletethefollowingtasks:1.Adistributedcluster-basedclusteringbasedonsearchenginedesignedandimplemented,includinginformationgathering,informationpreprocessing,andthedemandforinformationretrievalclusteringprocessanddisplaytheuser'ssearchresults.2.prehensiveinformationcannotbecrawlingproblem,thismeta-searchenginebasedonNutchandscriptinterpreterengineRhino,binationofstaticanddynamicwebcrawlingstrategy,workofdynamicandstaticpagesofinformationcanbeobtainedintheinformationgatheringstage.3.Inthist
12>
播放器加載中,請稍候...
系統(tǒng)無法檢測到您的Adobe Flash Player版本
建議您在線安裝最新版本的Flash Player 在線安裝
本文關(guān)鍵詞:基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:79473
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/79473.html