天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Hadoop的分布式Web文本檢索系統(tǒng)的研究與開發(fā)

發(fā)布時(shí)間:2018-03-14 01:49

  本文選題:云計(jì)算 切入點(diǎn):維吾爾語文本檢索 出處:《新疆大學(xué)》2013年碩士論文 論文類型:學(xué)位論文


【摘要】:本文主要是Hadoop云平臺(tái)上的Nutch分布式文本檢索系統(tǒng)的研究和開發(fā),,檢索系統(tǒng)運(yùn)行在由多臺(tái)PC機(jī)組成的集群上,系統(tǒng)的數(shù)據(jù)處理采用MapReduce分布式編程模型,數(shù)據(jù)存儲(chǔ)采用分布式文件系統(tǒng)HDFS,系統(tǒng)各模塊之間通過HDFS來進(jìn)行數(shù)據(jù)交互,數(shù)據(jù)爬蟲模塊將抓取后的原始數(shù)據(jù)存入HDFS的抓取數(shù)據(jù)庫中,索引模塊從HDFS上讀取抓取的原始數(shù)據(jù),并使用倒排索引的方法將建好的索引存儲(chǔ)在HDFS上的索引數(shù)據(jù)庫中,檢索模塊則從HDFS中查找索引,向用戶返回結(jié)果,整個(gè)系統(tǒng)通過數(shù)據(jù)抓取、索引和檢索等模塊的協(xié)同工作來滿足用戶的檢索請(qǐng)求。在確保Nutch在Hadoop上的正常運(yùn)行后進(jìn)行二次開發(fā),即解決維吾爾文的在線輸入及切換、網(wǎng)頁布局、書寫方向、字庫嵌入等問題。建立了一個(gè)支持維吾爾文字的基于Hadoop的Web分布式文本檢索系統(tǒng)。為了保障系統(tǒng)的可靠性,系統(tǒng)在設(shè)計(jì)上避免了單點(diǎn)故障,即在單個(gè)服務(wù)器癱瘓的情況下整個(gè)系統(tǒng)仍然可以正常工作,同時(shí)系統(tǒng)還采用了不同等級(jí)的備份措施,對(duì)所有數(shù)據(jù)都進(jìn)行了不同程度的備份,提高了數(shù)據(jù)的安全性。 以下是在設(shè)計(jì)和研究的過程中所做的具體工作: 1.分析了Hadoop開源云計(jì)算平臺(tái)和Nutch搜索引擎的相關(guān)技術(shù)、特點(diǎn)以及工作原理; 2.搭建具有三個(gè)節(jié)點(diǎn)的Hadoop平臺(tái); 3.在Hadoop平臺(tái)上安裝和配置Nutch開源搜索引擎; 4.根據(jù)維吾爾文的文字特征以及其處理的相關(guān)關(guān)鍵技術(shù)的基礎(chǔ)上對(duì)Nutch進(jìn)行了二次開發(fā)。
[Abstract]:This paper is mainly about the research and development of the Nutch distributed text retrieval system on the Hadoop cloud platform. The retrieval system runs on a cluster composed of multiple PCs. The data processing of the system adopts the MapReduce distributed programming model. The distributed file system (HDFS) is used for data storage, and the modules of the system interact with each other through HDFS. The data crawler module stores the captured raw data into the grabbing database of HDFS, and the index module reads the fetched raw data from HDFS. And the inverted index method is used to store the built index in the index database on HDFS. The retrieval module looks up the index from the HDFS and returns the result to the user. The whole system grabs the index through the data. After ensuring the normal operation of Nutch on Hadoop, the secondary development is carried out, which is to solve the online input and switch of Uygur language, the layout of web page, the direction of writing, and so on. This paper presents a Web distributed text retrieval system based on Hadoop, which supports Uygur characters. In order to ensure the reliability of the system, the system is designed to avoid a single point of failure. In the case of single server paralysis, the whole system can still work normally. At the same time, the system also uses different levels of backup measures, all the data are backed up to varying degrees, improving the security of the data. The following are specific work done in the design and research process:. 1. The related technologies, characteristics and working principles of Hadoop open source cloud computing platform and Nutch search engine are analyzed. 2. Build a three-node Hadoop platform; 3.install and configure Nutch open source search engine on Hadoop platform; 4. Based on the characters of Uygur language and the key technologies of Uygur language processing, the second development of Nutch is carried out.
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋如順,姜乃松;基于Web的遠(yuǎn)程考試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;1999年06期

2 王紅霞,姚家亮;利用ASP構(gòu)建新型信息系統(tǒng)的方法與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;1999年09期

3 鄧勁生,張銀福;面向?qū)ο蟮亩嗝襟w信息WEB發(fā)布[J];計(jì)算機(jī)應(yīng)用研究;1999年09期

4 刁興春,李赤紅;Intranet環(huán)境下事務(wù)處理的理論研究和實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);1999年06期

5 高昆;基于ASP的WEB站點(diǎn)開發(fā)技術(shù)分析[J];北華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);1999年05期

6 王清心,胡建華;經(jīng)貿(mào)數(shù)據(jù)庫的WEB集成發(fā)布[J];昆明理工大學(xué)學(xué)報(bào);1999年02期

7 李晶,朱秋萍;Web頁制作中的動(dòng)態(tài)表現(xiàn)技術(shù)[J];計(jì)算機(jī)工程;2000年06期

8 劉波,代亞非,杜躍進(jìn);遠(yuǎn)程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2000年06期

9 武莊,劉友丹;基于Web的企業(yè)內(nèi)部質(zhì)量審核系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2000年05期

10 梁開健,劉新民;基于ASP的圖書館Web數(shù)據(jù)庫開發(fā)[J];高校圖書館工作;2000年04期

相關(guān)會(huì)議論文 前10條

1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個(gè)性化服務(wù)技術(shù)[A];第十九屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

2 李利波;劉明利;;一種改進(jìn)的無回溯反向Web服務(wù)動(dòng)態(tài)組合方法[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年

3 游爭(zhēng)光;劉建勛;唐明董;;分布式Web服務(wù)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個(gè)性化導(dǎo)航知識(shí)[A];第十七屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

5 ;基于廣義對(duì)話的Web用戶的聚類(英文)[A];第十七屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

6 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

8 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問控制技術(shù)研究[A];第二十屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

9 黃建波;丁揚(yáng);方芳;;基于代理服務(wù)器的Web加速的實(shí)現(xiàn)[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2010年

10 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

相關(guān)重要報(bào)紙文章 前10條

1 趙曉濤;Web安全 服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年

2 本報(bào)記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡(luò)世界;2008年

3 彭敏;企業(yè)級(jí)Web2.0迎來應(yīng)用高潮[N];電腦商報(bào);2009年

4 本報(bào)記者 毛江華;安啟華聯(lián)手賽門鐵克 掘金Web安全[N];計(jì)算機(jī)世界;2009年

5 閆冰;“推”出Web交付新天地[N];網(wǎng)絡(luò)世界;2009年

6 趙曉濤;中國(guó)成全球Web安全新看點(diǎn)[N];網(wǎng)絡(luò)世界;2009年

7 邊歆;動(dòng)態(tài)阻斷Web2.0威脅[N];網(wǎng)絡(luò)世界;2009年

8 泰樂公司首席技術(shù)官兼執(zhí)行副總裁Vikram Saksena;學(xué)習(xí)Web 3.0 做聰明的“管道工”[N];通信產(chǎn)業(yè)報(bào);2009年

9 ;Web2.0工具使用須謹(jǐn)慎[N];網(wǎng)絡(luò)世界;2009年

10 Anchiva中國(guó)區(qū)總經(jīng)理 李松;Web安全選型三個(gè)標(biāo)準(zhǔn)[N];網(wǎng)絡(luò)世界;2008年

相關(guān)博士學(xué)位論文 前10條

1 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

2 魏登萍;語義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

3 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年

4 黃雪娟;語義Web服務(wù)及其合成方法的研究[D];武漢大學(xué);2009年

5 朱俊武;基于本體的Web服務(wù)語義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年

6 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

7 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年

8 王秀峰;Web導(dǎo)航中用戶認(rèn)知特征及行為研究[D];南京大學(xué);2013年

9 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年

10 陳世展;服務(wù)網(wǎng)絡(luò):基于語義和社會(huì)化關(guān)系的Web服務(wù)計(jì)算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 麥迪乃·熱合木江;基于Hadoop的分布式Web文本檢索系統(tǒng)的研究與開發(fā)[D];新疆大學(xué);2013年

2 唐黎;Deep Web頁面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年

3 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年

4 徐衛(wèi);Web新聞熱點(diǎn)發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年

5 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽工業(yè)大學(xué);2012年

6 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國(guó)海洋大學(xué);2011年

7 焦燕廷;一種基于領(lǐng)域本體的語義Web服務(wù)匹配和組合方法[D];山東科技大學(xué);2011年

8 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲技術(shù)研究[D];杭州電子科技大學(xué);2012年

9 趙春娟;Web服務(wù)組合方法的研究與實(shí)現(xiàn)[D];天津理工大學(xué);2011年

10 任強(qiáng);基于謂詞抽象與精化技術(shù)的Web服務(wù)驗(yàn)證研究[D];蘇州大學(xué);2011年



本文編號(hào):1609080

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1609080.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7c748***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com