天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

分布式全文檢索系統(tǒng)中索引平臺(tái)和信息過濾的研究與應(yīng)用

發(fā)布時(shí)間:2016-07-04 09:03

  本文關(guān)鍵詞:中文信息檢索索引模型及相關(guān)技術(shù)研究,由筆耕文化傳播整理發(fā)布。


《中國(guó)科學(xué)技術(shù)大學(xué)》 2015年

分布式全文檢索系統(tǒng)中索引平臺(tái)和信息過濾的研究與應(yīng)用

王一霈  

【摘要】:隨著網(wǎng)絡(luò)時(shí)代的飛速發(fā)展,數(shù)據(jù)和信息充斥著社會(huì)生活的各個(gè)領(lǐng)域。人們的日常行為逐漸和網(wǎng)絡(luò)密不可分,人們利用網(wǎng)絡(luò)獲取新聞、進(jìn)行社交活動(dòng)和即時(shí)通訊,發(fā)送和記錄工作文檔等,這些行為產(chǎn)生的數(shù)據(jù)都被存儲(chǔ)在網(wǎng)絡(luò)中。由于網(wǎng)絡(luò)和大數(shù)據(jù)帶來的變革,人們?nèi)粘+@取的信息量在急速增加,人們獲取信息的方式也更為復(fù)雜和多樣。分布式計(jì)算技術(shù)和全文檢索技術(shù)是應(yīng)對(duì)大數(shù)據(jù)洪流的有效工具,前者能夠負(fù)載海量數(shù)據(jù),后者能夠在大規(guī)模數(shù)據(jù)中快速檢索到有用信息。 本文的研究背景是分布式全文檢索系統(tǒng),該系統(tǒng)針對(duì)海量多格式文件進(jìn)行存儲(chǔ)并支持快速文本檢索。系統(tǒng)采用分布式架構(gòu)設(shè)計(jì),能夠并發(fā)完成文件預(yù)處理、建立索引及存儲(chǔ)功能,并將文件存儲(chǔ)在分布式文件系統(tǒng)中。分布式全文檢索系統(tǒng)包含如下結(jié)構(gòu):文件預(yù)處理前端、分布式索引平臺(tái)、分布式文件存儲(chǔ)系統(tǒng)、索引管理平臺(tái)和web檢索平臺(tái)。其中,文件預(yù)處理前端和分布式索引平臺(tái)協(xié)同完成對(duì)大規(guī)模多格式文件中文本內(nèi)容的索引任務(wù);索引管理平臺(tái)和web檢索平臺(tái)協(xié)同完成對(duì)索引文件的管理和檢索任務(wù);分布式文件存儲(chǔ)系統(tǒng)負(fù)責(zé)為系統(tǒng)中的各個(gè)模塊提供文件存儲(chǔ)和管理支持。 本文主要設(shè)計(jì)并實(shí)現(xiàn)了分布式全文檢索系統(tǒng)中的分布式索引平臺(tái),索引平臺(tái)基于Hadoop分布式計(jì)算庫(kù)構(gòu)建,實(shí)現(xiàn)了對(duì)海量文本文檔并發(fā)建立索引。本文提出了索引平臺(tái)的基本架構(gòu),闡述了索引平臺(tái)的分布式計(jì)算過程、索引平臺(tái)中的共享與并發(fā)機(jī)制和索引評(píng)分機(jī)制等。本文還設(shè)計(jì)實(shí)現(xiàn)了文件預(yù)處理前端中的信息過濾模塊,信息過濾模塊可實(shí)現(xiàn)基于關(guān)鍵詞的文檔過濾功能,識(shí)別系統(tǒng)不需要處理的文檔。信息過濾模塊主要包括以下內(nèi)容:?jiǎn)文J狡ヅ淠K、多模式匹配模塊以及與或匹配模塊。本文研究了每個(gè)模塊相關(guān)的基本算法,針對(duì)算法在中文環(huán)境下實(shí)際應(yīng)用中的不足進(jìn)行了改進(jìn),測(cè)試結(jié)果表明改進(jìn)后的算法性能得到了進(jìn)一步提升。

【關(guān)鍵詞】:
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:

下載全文 更多同類文獻(xiàn)

CAJ全文下載

(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條

1 代紅;陳壯;;中文信息技術(shù)的基礎(chǔ)標(biāo)準(zhǔn)與中文編碼字符集的國(guó)際標(biāo)準(zhǔn)化[J];信息技術(shù)與標(biāo)準(zhǔn)化;2008年07期

2 費(fèi)洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計(jì)的中文分詞的研究[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期

3 袁世忠;曹旻;王燕燕;;基于WM算法的多模式匹配改進(jìn)算法WMN[J];計(jì)算機(jī)工程與應(yīng)用;2007年15期

4 秦璟,高文,儲(chǔ)方杰;中間件技術(shù)研究[J];計(jì)算機(jī)應(yīng)用研究;2003年08期

5 白俊;郭賀彬;;基于ElasticSearch的大日志實(shí)時(shí)搜索的軟件集成方案研究[J];吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期

6 劉衛(wèi)國(guó);胡勇剛;;DHSWM:一種改進(jìn)的WM多模式匹配算法[J];中南大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年12期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 白曉梅;張福利;;校園網(wǎng)中文搜索引擎系統(tǒng)的設(shè)計(jì)[J];鞍山師范學(xué)院學(xué)報(bào);2006年06期

2 耿新青;陶鳳梅;黃宏光;;一種基于近鄰匹配的中文分詞算法Jlppeccz[J];鞍山師范學(xué)院學(xué)報(bào);2010年04期

3 徐光俠;封雷;涂演;李成;;基于Android和Google Maps的生活輔助系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年02期

4 蒼圣;高巍巍;馬憲敏;;中間件技術(shù)在電子商務(wù)中的應(yīng)用[J];長(zhǎng)春理工大學(xué)學(xué)報(bào)(高教版);2009年12期

5 龔躍;丁健生;韓永林;李宇宏;王玉琢;葛山;許展博;;基于Mobilink技術(shù)的數(shù)據(jù)傳輸系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];長(zhǎng)春理工大學(xué)學(xué)報(bào);2006年04期

6 趙春紅;高希龍;王檸;趙威;劉國(guó)華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學(xué)學(xué)報(bào);2009年05期

7 湯國(guó)鋒;徐振偉;張華熊;;基于Lucene的中文分詞技術(shù)研究[J];電腦編程技巧與維護(hù);2012年10期

8 劉強(qiáng),宋曄,王濤;基于消息中間件的網(wǎng)絡(luò)報(bào)稅系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2004年09期

9 康松林;施榮華;;基于信息元的教學(xué)資源組織系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦與信息技術(shù);2006年04期

10 葉敏;范金鋒;;基于二叉排序樹及中文分詞的關(guān)鍵字過濾技術(shù)[J];電力信息化;2011年07期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 李珺;查先進(jìn);;基于信息資源整合技術(shù)的網(wǎng)絡(luò)信息資源配置研究——以“信息孤島”現(xiàn)象為例[A];信息資源配置理論與模型研究——2009信息化與信息資源管理學(xué)術(shù)研討會(huì)專集[C];2009年

2 王芳;萬(wàn)常選;;基于互信息的中文完整詞自動(dòng)識(shí)別模型[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年

3 祁昊穎;;大數(shù)據(jù)時(shí)代電信運(yùn)營(yíng)商文件系統(tǒng)新思考[A];2013年中國(guó)信息通信研究新進(jìn)展論文集[C];2014年

4 喬媛媛;劉芳;凌艷;尹勁松;;云計(jì)算環(huán)境下MapReduce的資源建模與性能預(yù)測(cè)[A];2013年全國(guó)通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年

5 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國(guó)控制與決策會(huì)議論文集[C];2014年

6 陳佐旗;余柏蒗;吳健平;;基于GPU通用計(jì)算的遙感數(shù)據(jù)處理——以計(jì)算地表太陽(yáng)輻射值為例[A];第十八屆中國(guó)環(huán)境遙感應(yīng)用技術(shù)論壇論文集[C];2014年

7 李天磊;馬兆豐;;應(yīng)用層協(xié)議識(shí)別中AC算法的改進(jìn)[A];第十九屆全國(guó)青年通信學(xué)術(shù)年會(huì)論文集[C];2014年

8 白永超;付偉;辛陽(yáng);;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國(guó)青年通信學(xué)術(shù)年會(huì)論文集[C];2014年

9 李超越;徐國(guó)勝;;Hadoop公平調(diào)度算法的改進(jìn)[A];第十九屆全國(guó)青年通信學(xué)術(shù)年會(huì)論文集[C];2014年

10 汪中琳;喬自知;郭景贊;;移動(dòng)運(yùn)維支撐系統(tǒng)的互聯(lián)網(wǎng)思維重構(gòu)[A];2014全國(guó)無線及移動(dòng)通信學(xué)術(shù)大會(huì)論文集[C];2014年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 王曉輝;基于中間件技術(shù)的黃河水環(huán)境綜合信息服務(wù)平臺(tái)研究[D];西安理工大學(xué);2006年

2 夏天;研究性學(xué)習(xí)支持系統(tǒng)[D];華東師范大學(xué);2007年

3 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

4 謝夏;網(wǎng)格信息服務(wù)的性能及其模擬評(píng)估[D];華中科技大學(xué);2006年

5 王少波;面向用水戶的水資源合理配置研究[D];西安理工大學(xué);2007年

6 張楠;Web Services管理及其在網(wǎng)絡(luò)管理中的應(yīng)用[D];北京郵電大學(xué);2008年

7 聶曉文;DHT覆蓋網(wǎng)若干基礎(chǔ)性問題研究[D];電子科技大學(xué);2009年

8 桂勁松;網(wǎng)格虛擬組織的聲譽(yù)評(píng)價(jià)與可信授權(quán)研究[D];中南大學(xué);2008年

9 陶永才;網(wǎng)格環(huán)境下作業(yè)可靠調(diào)度機(jī)制的研究[D];華中科技大學(xué);2009年

10 張浩;基于結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)的高性能計(jì)算平臺(tái)關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2009年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 馮海瑛;《萬(wàn)歷野獲編》分詞理論與實(shí)踐[D];廣西師范學(xué)院;2010年

2 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年

3 劉國(guó)峰;數(shù)據(jù)模板匹配研究及在社保審計(jì)中的應(yīng)用[D];哈爾濱工程大學(xué);2010年

4 孔勝;文本資源的知識(shí)抽取研究[D];大連理工大學(xué);2010年

5 申安來;網(wǎng)格環(huán)境下資源發(fā)現(xiàn)決策支持算法研究[D];遼寧師范大學(xué);2010年

6 武曉鵬;消息服務(wù)組件隊(duì)列機(jī)制的研究與設(shè)計(jì)[D];華南理工大學(xué);2010年

7 李丹;基于規(guī)則與統(tǒng)計(jì)的漢語(yǔ)自動(dòng)分詞研究[D];長(zhǎng)春工業(yè)大學(xué);2010年

8 林淥;基于新聞主題模型的熱點(diǎn)工作挖掘系統(tǒng)[D];浙江大學(xué);2011年

9 薛秀珍;結(jié)構(gòu)化P2P網(wǎng)絡(luò)的復(fù)雜查詢機(jī)制研究[D];昆明理工大學(xué);2010年

10 曹亞輝;非結(jié)構(gòu)文本最佳近似匹配系統(tǒng)的研究與實(shí)現(xiàn)[D];東華大學(xué);2011年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王俊生;施運(yùn)梅;張仰森;;基于Hadoop的分布式搜索引擎關(guān)鍵技術(shù)[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

2 王永成,沈州,許一震;改進(jìn)的多模式匹配算法[J];計(jì)算機(jī)研究與發(fā)展;2002年01期

3 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達(dá)陽(yáng);利用漢字二元語(yǔ)法關(guān)系解決漢語(yǔ)自動(dòng)分詞中的交集型歧義[J];計(jì)算機(jī)研究與發(fā)展;1997年05期

4 李雪;薛一波;王春露;;一種適用于大規(guī)模特征集的快速匹配算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年34期

5 丁承,邵志清;基于字表的中文搜索引擎分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2001年02期

6 張?chǎng)?譚建龍,程學(xué)旗;一種改進(jìn)的Wu-Manber多關(guān)鍵詞匹配算法[J];計(jì)算機(jī)應(yīng)用;2003年07期

7 楊寒冰;趙龍;賈金原;;HBase數(shù)據(jù)庫(kù)遷移工具的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)科學(xué)與探索;2013年03期

8 周麗琴,楊季文,呂強(qiáng);基于Web的字詞頻統(tǒng)計(jì)程序的設(shè)計(jì)與應(yīng)用[J];蘇州大學(xué)學(xué)報(bào)(自然科學(xué));2002年01期

9 呂增輝;陶振凱;唐靜;;基于Lucene.net的對(duì)象持久化的實(shí)現(xiàn)[J];吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期

10 李偉勛;;Mersenne數(shù)M_p都是孤立數(shù)[J];數(shù)學(xué)研究與評(píng)論;2007年04期

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 余海燕,張仲義;基于單漢字索引的全文檢索系統(tǒng)的優(yōu)化研究[J];中文信息學(xué)報(bào);2001年04期

2 孫詠波;郭紅鋒;;天文文獻(xiàn)全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];天文研究與技術(shù);2007年03期

3 莫夫;;基于通用全文檢索系統(tǒng)的需求分析[J];電腦知識(shí)與技術(shù);2009年21期

4 劉成;張溯柳;范晶;;統(tǒng)一新聞全文檢索系統(tǒng)的探索與實(shí)踐[J];中國(guó)傳媒科技;2010年05期

5 李云帆;韓敏;;一個(gè)多文檔全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];中小企業(yè)管理與科技(下旬刊);2010年05期

6 梁苑苑;何婉文;王佳;;全文檢索系統(tǒng)在網(wǎng)站中的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2012年04期

7 劉寧;漢字全文檢索系統(tǒng)的分析、設(shè)計(jì) 從湖北省地方志全文檢索系統(tǒng)的研制談系統(tǒng)功能及設(shè)計(jì)方法[J];現(xiàn)代圖書情報(bào)技術(shù);1988年02期

8 加貝;“湖北省地方志全文檢索系統(tǒng)”通過鑒定[J];圖書情報(bào)知識(shí);1990年04期

9 陳睿,陳光祚,謝新洲;湖北省地方志全文檢索系統(tǒng)(上)[J];情報(bào)理論與實(shí)踐;1991年02期

10 趙捧來;;全文檢索系統(tǒng)的實(shí)現(xiàn)方法研究[J];西安電子科技大學(xué)學(xué)報(bào);1992年01期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條

1 趙慧;李春明;鮑可進(jìn);;一種基于DotLucene搜索引擎的知識(shí)庫(kù)中文全文檢索系統(tǒng)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

2 周小庭;;用Info Digger全文檢索系統(tǒng)構(gòu)建首都師大基教中心網(wǎng)上平臺(tái)[A];OA’99辦公自動(dòng)化全國(guó)學(xué)術(shù)研討暨展示會(huì)論文集[C];1999年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條

1 肖詩(shī)斌;[N];中國(guó)計(jì)算機(jī)報(bào);2003年

2 羅懿;[N];中國(guó)企業(yè)報(bào);2000年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 吳煒;密文全文檢索系統(tǒng)中的索引機(jī)制研究[D];華中科技大學(xué);2009年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 何勝利;礦山法律法規(guī)全文檢索系統(tǒng)的研究與應(yīng)用[D];西安建筑科技大學(xué);2005年

2 楊鎰菲;基于云存儲(chǔ)的分布式全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2012年

3 蔡晶晶;多文檔全文檢索系統(tǒng)的設(shè)計(jì)與開發(fā)[D];電子科技大學(xué);2013年

4 王紅勝;多文檔全文檢索系統(tǒng)的設(shè)計(jì)與開發(fā)[D];電子科技大學(xué);2010年

5 劉超;專利全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年

6 李秦;基于用戶行為的全文檢索系統(tǒng)個(gè)性化推薦研究[D];西南大學(xué);2009年

7 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

8 王磊;基于本體的語(yǔ)義全文檢索系統(tǒng)的研究[D];哈爾濱工程大學(xué);2013年

9 周宇;數(shù)字化法定公務(wù)文書全文檢索系統(tǒng)研究[D];鄭州大學(xué);2007年

10 方艷芬;多源文檔全文檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2009年


  本文關(guān)鍵詞:中文信息檢索索引模型及相關(guān)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):65708

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/65708.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ac994***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com