分布式蒙古文搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:分布式蒙古文搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)
更多相關(guān)文章: 蒙古文 搜索引擎 分布式 Nutch Lucene
【摘要】:作為蒙古族地區(qū)的官方文字之一,蒙古文在人們的生活中起著重要的作用。蒙古文國際標(biāo)準(zhǔn)編碼發(fā)布之后,蒙古文信息化步伐加快、互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,數(shù)據(jù)資源快速積累。如何能夠從大量的蒙古文數(shù)據(jù)中獲取有價(jià)值的信息,對(duì)蒙古族人民具有重要意義。作為信息檢索的重要應(yīng)用,搜索引擎技術(shù)可以滿足蒙古族人民這一迫切需求。然而,目前對(duì)蒙古文搜索引擎技術(shù)的研究才剛剛起步,尚無分布式處理方面的相關(guān)研究。本文在目前較為成熟的Hadoop分布式平臺(tái)下,首先根據(jù)蒙古文的構(gòu)詞特點(diǎn)和Lucene分析器的工作原理,開發(fā)蒙古文分析器,實(shí)現(xiàn)蒙古文的詞干提。黄浯,通過對(duì)Nutch增加蒙古文切詞插件以及用戶界面等相關(guān)模塊的二次開發(fā),實(shí)現(xiàn)Nutch對(duì)蒙古文的良好支持;最后,開發(fā)出運(yùn)行于Hadoop分布式平臺(tái)的蒙古文搜索引擎系統(tǒng)。本文主要關(guān)注蒙古文全文檢索和搜索引擎技術(shù)的基本原理、蒙古文的構(gòu)詞特點(diǎn)和詞干詞綴提取、Lucene分析器的工作原理、Nutch的框架結(jié)構(gòu)和插件機(jī)制,以及Hadoop集群搭建的相關(guān)過程。分布式蒙古文搜索引擎系統(tǒng)的實(shí)現(xiàn),可以幫助人們?cè)诖罅棵晒盼奈谋举Y源(如網(wǎng)頁等)中快速、準(zhǔn)確的找到所需信息。這對(duì)提高蒙古文文獻(xiàn)的利用率及蒙古文信息化建設(shè)具有重要意義。
【關(guān)鍵詞】:蒙古文 搜索引擎 分布式 Nutch Lucene
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-16
- 1.1 研究背景及意義11
- 1.2 國內(nèi)外研究現(xiàn)狀11-15
- 1.2.1 大數(shù)據(jù)及分布式處理技術(shù)12
- 1.2.2 搜索引擎發(fā)展及現(xiàn)狀12-13
- 1.2.3 蒙古文搜索引擎發(fā)展及現(xiàn)狀13-15
- 1.3 本文研究內(nèi)容及組織結(jié)構(gòu)15-16
- 1.3.1 本文研究內(nèi)容15
- 1.3.2 組織結(jié)構(gòu)15-16
- 第二章 相關(guān)理論介紹16-24
- 2.1 網(wǎng)絡(luò)爬蟲16-18
- 2.1.1 網(wǎng)絡(luò)爬蟲架構(gòu)16-17
- 2.1.2 爬取策略17-18
- 2.2 倒排索引18
- 2.3 檢索模型18-20
- 2.3.1 布爾模型19
- 2.3.2 向量空間模型19-20
- 2.4 鏈接分析20-22
- 2.4.1 PageRank算法21
- 2.4.2 HITS算法21-22
- 2.5 分布式技術(shù)22-23
- 2.6 本章小結(jié)23-24
- 第三章 Lucene蒙古文分析器24-36
- 3.1 蒙古文簡介24-26
- 3.1.1 蒙古文字母表24-25
- 3.1.2 蒙古文構(gòu)詞25-26
- 3.2 Lucene及其分析器26-28
- 3.2.1 Lucene簡介26-27
- 3.2.2 Lucene分析器27-28
- 3.3 蒙古文分析器設(shè)計(jì)28-32
- 3.3.1 蒙古文切詞28-29
- 3.3.2 分析器設(shè)計(jì)原理29-32
- 3.4 蒙古文分析器實(shí)現(xiàn)32-34
- 3.4.1 代碼編寫32-34
- 3.4.2 對(duì)比測試34
- 3.4.3 代碼打包34
- 3.5 本章小結(jié)34-36
- 第四章 Nutch蒙古文切詞插件36-44
- 4.1 Nutch及其插件系統(tǒng)簡介36-40
- 4.1.1 Nutch概述36-37
- 4.1.2 Nutch插件系統(tǒng)37-40
- 4.2 Nutch蒙古文切詞插件設(shè)計(jì)40-41
- 4.3 Nutch蒙古文切詞插件實(shí)現(xiàn)41-43
- 4.3.1 建立文件41
- 4.3.2 插件內(nèi)容編寫41-42
- 4.3.3 插件編譯42-43
- 4.4 本章小結(jié)43-44
- 第五章 系統(tǒng)設(shè)計(jì)與部署44-55
- 5.1 系統(tǒng)環(huán)境簡介44-45
- 5.1.1 軟件環(huán)境44
- 5.1.2 硬件及網(wǎng)絡(luò)環(huán)境44-45
- 5.2 系統(tǒng)功能描述45-46
- 5.3 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)46-47
- 5.3.1 集群部署架構(gòu)設(shè)計(jì)46
- 5.3.2 系統(tǒng)模塊結(jié)構(gòu)設(shè)計(jì)46-47
- 5.4 系統(tǒng)集群部署47-53
- 5.5 系統(tǒng)性能評(píng)價(jià)53-54
- 5.5.1 P@1053
- 5.5.2 響應(yīng)速度53-54
- 5.6 本章小結(jié)54-55
- 第六章 全文總結(jié)55-57
- 6.1 全文主要工作55-56
- 6.2 工作不足與展望56-57
- 參考文獻(xiàn)57-60
- 攻讀碩士學(xué)位期間取得成果60-61
- 致謝61
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 紅梅,敖其爾,白云莉;托忒蒙古文讀音輸入法的設(shè)計(jì)與實(shí)現(xiàn)[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2004年02期
2 烏日娜;;清代蒙古文歷史文獻(xiàn)及其整理研究概況[J];蘭臺(tái)世界;2011年19期
3 嘎日迪,趙小兵,馬紅旭,賽音,白小玲;蒙古文自動(dòng)處理系統(tǒng)研究[J];中文信息學(xué)報(bào);1999年04期
4 菊花;金良;;使用程序自動(dòng)分析蒙古文詞的研究[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2014年02期
5 烏林西拉;內(nèi)蒙古自治區(qū)圖書館學(xué)(蒙古文)的研究與發(fā)展[J];國家圖書館學(xué)刊;2000年01期
6 S·蘇雅拉圖;蒙古文整詞計(jì)算機(jī)生成理論研究[J];中文信息學(xué)報(bào);2001年04期
7 朝克圖;關(guān)于蒙古文報(bào)刊史研究中的幾個(gè)問題[J];蒙古學(xué)信息;2001年04期
8 紅梅;基于Windows 2000/XP平臺(tái)蒙古文輸入法的設(shè)計(jì)技術(shù)[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2005年01期
9 鞏政;郝莉;楊旭華;;非標(biāo)準(zhǔn)蒙古文字符編碼轉(zhuǎn)換為國際編碼的一種方法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
10 鞏政;關(guān)高娃;;蒙古文停用詞和英文停用詞比較研究[J];中文信息學(xué)報(bào);2011年04期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 包艷花;圖格木勒;;多字體印刷蒙古文識(shí)別后處理研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
2 吉仁尼格;;蒙古文同形詞的統(tǒng)計(jì)法[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
3 呼斯勒;六月;斯日古楞;;淺談蒙古文通用編輯器幾點(diǎn)基本規(guī)范[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
4 道布;;回鶻式蒙古文[A];中國民族古文字[C];1982年
5 道布;;回鶻式蒙古文研究概況[A];中國民族古文字研究[C];1980年
6 白雙成;胡其圖;木仁;;蒙古文音節(jié)切分算法實(shí)現(xiàn)及其應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
7 孟和吉雅;白音門德;敖其爾;田會(huì)利;;蒙古文語音合成技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
8 孟和吉雅;敖其爾;鞏政;;蒙古文網(wǎng)頁制作技術(shù)分析[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
9 確精扎布;;蒙古文編碼國際標(biāo)準(zhǔn)通過以后研制的幾種蒙古文錄入系統(tǒng)比較[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
10 寶金良;;蒙古文文本標(biāo)點(diǎn)符號(hào)及其屬性字段設(shè)置[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 記者 吉儒木圖;手機(jī)可以使用蒙古文了[N];內(nèi)蒙古日?qǐng)?bào)(漢);2007年
2 記者 解太榮;《蒙古秘史》回鶻體蒙古文復(fù)原項(xiàng)目完成[N];錫林郭勒日?qǐng)?bào);2009年
3 孟克;如何打破蒙古文圖書產(chǎn)銷兩難的困境[N];中國民族報(bào);2010年
4 記者 阿斯鋼;蒙古國總統(tǒng)簽命令推廣回鶻式蒙古文[N];新華每日電訊;2010年
5 記者 蘇布達(dá);全盟首屆蒙古文圖書節(jié)落幕[N];錫林郭勒日?qǐng)?bào)(漢);2012年
6 陳崗龍 (蒙古族);蒙古文文學(xué)翻譯的兩個(gè)問題[N];文藝報(bào);2013年
7 金壇;蒙古文:描繪大自然的千姿百態(tài)[N];中國民族報(bào);2014年
8 阿勒得爾圖;沙日布卻瑪:用回鶻體蒙古文還原《蒙古秘史》[N];中國民族報(bào);2006年
9 記者 張文強(qiáng);蒙古文圖書農(nóng)牧民閱讀大接力活動(dòng)啟動(dòng)[N];內(nèi)蒙古日?qǐng)?bào)(漢);2008年
10 徐恒泰;要全力抓好蒙古文教學(xué)資源建設(shè)[N];鄂爾多斯日?qǐng)?bào);2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 蘇向東;基于深度學(xué)習(xí)和知識(shí)策略的蒙古文古籍識(shí)別研究[D];內(nèi)蒙古大學(xué);2016年
2 淑琴;蒙古文同形詞知識(shí)庫的構(gòu)建[D];內(nèi)蒙古大學(xué);2010年
3 達(dá)古拉;《清內(nèi)秘書院蒙古文檔案匯編》語言研究[D];內(nèi)蒙古大學(xué);2012年
4 魏宏喜;蒙古文古籍圖像檢索技術(shù)研究[D];內(nèi)蒙古大學(xué);2012年
5 通拉嘎;基于蒙古文語料庫的人名自動(dòng)識(shí)別[D];中央民族大學(xué);2013年
6 莎日娜;烏蘭巴托版蒙古文譯本《今古奇觀》研究[D];中國社會(huì)科學(xué)院研究生院;2010年
7 王桂榮;蒙古文字結(jié)構(gòu)研究[D];內(nèi)蒙古大學(xué);2011年
8 普日布蘇榮;蒙古語語料庫建設(shè)的有關(guān)問題[D];內(nèi)蒙古大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 關(guān)高娃;蒙古文停用詞和英文停用詞比較研究[D];內(nèi)蒙古大學(xué);2011年
2 常紅梅;袞布扎布語言論著中的蒙古文阿里嘎禮研究[D];內(nèi)蒙古大學(xué);2013年
3 劉璐;面向蒙古文增量g┱溝男畔⒓燜骷際躚芯縖D];內(nèi)蒙古大學(xué);2015年
4 李坤;蒙古文網(wǎng)絡(luò)熱點(diǎn)詞提取算法研究[D];內(nèi)蒙古大學(xué);2015年
5 王洪偉;基于規(guī)則和統(tǒng)計(jì)的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究[D];內(nèi)蒙古大學(xué);2015年
6 張畔;蒙古文搜索引擎基本方法的實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年
7 宋莉;蒙古文字造形元數(shù)據(jù)的分類編號(hào)探討[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2015年
8 青玉;指導(dǎo)小學(xué)生蒙古文正字法教學(xué)探析[D];內(nèi)蒙古師范大學(xué);2015年
9 達(dá)拉夫;文獻(xiàn)學(xué)視角下的蒙古文古籍研究[D];內(nèi)蒙古大學(xué);2015年
10 王亞君;基于Linux IBUS的傳統(tǒng)蒙古文輸入法的研究與實(shí)現(xiàn)[D];內(nèi)蒙古師范大學(xué);2015年
,本文編號(hào):570481
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/570481.html