天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

分布式蒙古文搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-07-20 23:18

  本文關(guān)鍵詞:分布式蒙古文搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)


  更多相關(guān)文章: 蒙古文 搜索引擎 分布式 Nutch Lucene


【摘要】:作為蒙古族地區(qū)的官方文字之一,蒙古文在人們的生活中起著重要的作用。蒙古文國際標(biāo)準(zhǔn)編碼發(fā)布之后,蒙古文信息化步伐加快、互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,數(shù)據(jù)資源快速積累。如何能夠從大量的蒙古文數(shù)據(jù)中獲取有價(jià)值的信息,對(duì)蒙古族人民具有重要意義。作為信息檢索的重要應(yīng)用,搜索引擎技術(shù)可以滿足蒙古族人民這一迫切需求。然而,目前對(duì)蒙古文搜索引擎技術(shù)的研究才剛剛起步,尚無分布式處理方面的相關(guān)研究。本文在目前較為成熟的Hadoop分布式平臺(tái)下,首先根據(jù)蒙古文的構(gòu)詞特點(diǎn)和Lucene分析器的工作原理,開發(fā)蒙古文分析器,實(shí)現(xiàn)蒙古文的詞干提。黄浯,通過對(duì)Nutch增加蒙古文切詞插件以及用戶界面等相關(guān)模塊的二次開發(fā),實(shí)現(xiàn)Nutch對(duì)蒙古文的良好支持;最后,開發(fā)出運(yùn)行于Hadoop分布式平臺(tái)的蒙古文搜索引擎系統(tǒng)。本文主要關(guān)注蒙古文全文檢索和搜索引擎技術(shù)的基本原理、蒙古文的構(gòu)詞特點(diǎn)和詞干詞綴提取、Lucene分析器的工作原理、Nutch的框架結(jié)構(gòu)和插件機(jī)制,以及Hadoop集群搭建的相關(guān)過程。分布式蒙古文搜索引擎系統(tǒng)的實(shí)現(xiàn),可以幫助人們?cè)诖罅棵晒盼奈谋举Y源(如網(wǎng)頁等)中快速、準(zhǔn)確的找到所需信息。這對(duì)提高蒙古文文獻(xiàn)的利用率及蒙古文信息化建設(shè)具有重要意義。
【關(guān)鍵詞】:蒙古文 搜索引擎 分布式 Nutch Lucene
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-16
  • 1.1 研究背景及意義11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-15
  • 1.2.1 大數(shù)據(jù)及分布式處理技術(shù)12
  • 1.2.2 搜索引擎發(fā)展及現(xiàn)狀12-13
  • 1.2.3 蒙古文搜索引擎發(fā)展及現(xiàn)狀13-15
  • 1.3 本文研究內(nèi)容及組織結(jié)構(gòu)15-16
  • 1.3.1 本文研究內(nèi)容15
  • 1.3.2 組織結(jié)構(gòu)15-16
  • 第二章 相關(guān)理論介紹16-24
  • 2.1 網(wǎng)絡(luò)爬蟲16-18
  • 2.1.1 網(wǎng)絡(luò)爬蟲架構(gòu)16-17
  • 2.1.2 爬取策略17-18
  • 2.2 倒排索引18
  • 2.3 檢索模型18-20
  • 2.3.1 布爾模型19
  • 2.3.2 向量空間模型19-20
  • 2.4 鏈接分析20-22
  • 2.4.1 PageRank算法21
  • 2.4.2 HITS算法21-22
  • 2.5 分布式技術(shù)22-23
  • 2.6 本章小結(jié)23-24
  • 第三章 Lucene蒙古文分析器24-36
  • 3.1 蒙古文簡介24-26
  • 3.1.1 蒙古文字母表24-25
  • 3.1.2 蒙古文構(gòu)詞25-26
  • 3.2 Lucene及其分析器26-28
  • 3.2.1 Lucene簡介26-27
  • 3.2.2 Lucene分析器27-28
  • 3.3 蒙古文分析器設(shè)計(jì)28-32
  • 3.3.1 蒙古文切詞28-29
  • 3.3.2 分析器設(shè)計(jì)原理29-32
  • 3.4 蒙古文分析器實(shí)現(xiàn)32-34
  • 3.4.1 代碼編寫32-34
  • 3.4.2 對(duì)比測試34
  • 3.4.3 代碼打包34
  • 3.5 本章小結(jié)34-36
  • 第四章 Nutch蒙古文切詞插件36-44
  • 4.1 Nutch及其插件系統(tǒng)簡介36-40
  • 4.1.1 Nutch概述36-37
  • 4.1.2 Nutch插件系統(tǒng)37-40
  • 4.2 Nutch蒙古文切詞插件設(shè)計(jì)40-41
  • 4.3 Nutch蒙古文切詞插件實(shí)現(xiàn)41-43
  • 4.3.1 建立文件41
  • 4.3.2 插件內(nèi)容編寫41-42
  • 4.3.3 插件編譯42-43
  • 4.4 本章小結(jié)43-44
  • 第五章 系統(tǒng)設(shè)計(jì)與部署44-55
  • 5.1 系統(tǒng)環(huán)境簡介44-45
  • 5.1.1 軟件環(huán)境44
  • 5.1.2 硬件及網(wǎng)絡(luò)環(huán)境44-45
  • 5.2 系統(tǒng)功能描述45-46
  • 5.3 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)46-47
  • 5.3.1 集群部署架構(gòu)設(shè)計(jì)46
  • 5.3.2 系統(tǒng)模塊結(jié)構(gòu)設(shè)計(jì)46-47
  • 5.4 系統(tǒng)集群部署47-53
  • 5.5 系統(tǒng)性能評(píng)價(jià)53-54
  • 5.5.1 P@1053
  • 5.5.2 響應(yīng)速度53-54
  • 5.6 本章小結(jié)54-55
  • 第六章 全文總結(jié)55-57
  • 6.1 全文主要工作55-56
  • 6.2 工作不足與展望56-57
  • 參考文獻(xiàn)57-60
  • 攻讀碩士學(xué)位期間取得成果60-61
  • 致謝61

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 紅梅,敖其爾,白云莉;托忒蒙古文讀音輸入法的設(shè)計(jì)與實(shí)現(xiàn)[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2004年02期

2 烏日娜;;清代蒙古文歷史文獻(xiàn)及其整理研究概況[J];蘭臺(tái)世界;2011年19期

3 嘎日迪,趙小兵,馬紅旭,賽音,白小玲;蒙古文自動(dòng)處理系統(tǒng)研究[J];中文信息學(xué)報(bào);1999年04期

4 菊花;金良;;使用程序自動(dòng)分析蒙古文詞的研究[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2014年02期

5 烏林西拉;內(nèi)蒙古自治區(qū)圖書館學(xué)(蒙古文)的研究與發(fā)展[J];國家圖書館學(xué)刊;2000年01期

6 S·蘇雅拉圖;蒙古文整詞計(jì)算機(jī)生成理論研究[J];中文信息學(xué)報(bào);2001年04期

7 朝克圖;關(guān)于蒙古文報(bào)刊史研究中的幾個(gè)問題[J];蒙古學(xué)信息;2001年04期

8 紅梅;基于Windows 2000/XP平臺(tái)蒙古文輸入法的設(shè)計(jì)技術(shù)[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2005年01期

9 鞏政;郝莉;楊旭華;;非標(biāo)準(zhǔn)蒙古文字符編碼轉(zhuǎn)換為國際編碼的一種方法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

10 鞏政;關(guān)高娃;;蒙古文停用詞和英文停用詞比較研究[J];中文信息學(xué)報(bào);2011年04期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 包艷花;圖格木勒;;多字體印刷蒙古文識(shí)別后處理研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

2 吉仁尼格;;蒙古文同形詞的統(tǒng)計(jì)法[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

3 呼斯勒;六月;斯日古楞;;淺談蒙古文通用編輯器幾點(diǎn)基本規(guī)范[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

4 道布;;回鶻式蒙古文[A];中國民族古文字[C];1982年

5 道布;;回鶻式蒙古文研究概況[A];中國民族古文字研究[C];1980年

6 白雙成;胡其圖;木仁;;蒙古文音節(jié)切分算法實(shí)現(xiàn)及其應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

7 孟和吉雅;白音門德;敖其爾;田會(huì)利;;蒙古文語音合成技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

8 孟和吉雅;敖其爾;鞏政;;蒙古文網(wǎng)頁制作技術(shù)分析[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年

9 確精扎布;;蒙古文編碼國際標(biāo)準(zhǔn)通過以后研制的幾種蒙古文錄入系統(tǒng)比較[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年

10 寶金良;;蒙古文文本標(biāo)點(diǎn)符號(hào)及其屬性字段設(shè)置[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年

中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 記者 吉儒木圖;手機(jī)可以使用蒙古文了[N];內(nèi)蒙古日?qǐng)?bào)(漢);2007年

2 記者 解太榮;《蒙古秘史》回鶻體蒙古文復(fù)原項(xiàng)目完成[N];錫林郭勒日?qǐng)?bào);2009年

3 孟克;如何打破蒙古文圖書產(chǎn)銷兩難的困境[N];中國民族報(bào);2010年

4 記者 阿斯鋼;蒙古國總統(tǒng)簽命令推廣回鶻式蒙古文[N];新華每日電訊;2010年

5 記者 蘇布達(dá);全盟首屆蒙古文圖書節(jié)落幕[N];錫林郭勒日?qǐng)?bào)(漢);2012年

6 陳崗龍 (蒙古族);蒙古文文學(xué)翻譯的兩個(gè)問題[N];文藝報(bào);2013年

7 金壇;蒙古文:描繪大自然的千姿百態(tài)[N];中國民族報(bào);2014年

8 阿勒得爾圖;沙日布卻瑪:用回鶻體蒙古文還原《蒙古秘史》[N];中國民族報(bào);2006年

9 記者 張文強(qiáng);蒙古文圖書農(nóng)牧民閱讀大接力活動(dòng)啟動(dòng)[N];內(nèi)蒙古日?qǐng)?bào)(漢);2008年

10 徐恒泰;要全力抓好蒙古文教學(xué)資源建設(shè)[N];鄂爾多斯日?qǐng)?bào);2008年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條

1 蘇向東;基于深度學(xué)習(xí)和知識(shí)策略的蒙古文古籍識(shí)別研究[D];內(nèi)蒙古大學(xué);2016年

2 淑琴;蒙古文同形詞知識(shí)庫的構(gòu)建[D];內(nèi)蒙古大學(xué);2010年

3 達(dá)古拉;《清內(nèi)秘書院蒙古文檔案匯編》語言研究[D];內(nèi)蒙古大學(xué);2012年

4 魏宏喜;蒙古文古籍圖像檢索技術(shù)研究[D];內(nèi)蒙古大學(xué);2012年

5 通拉嘎;基于蒙古文語料庫的人名自動(dòng)識(shí)別[D];中央民族大學(xué);2013年

6 莎日娜;烏蘭巴托版蒙古文譯本《今古奇觀》研究[D];中國社會(huì)科學(xué)院研究生院;2010年

7 王桂榮;蒙古文字結(jié)構(gòu)研究[D];內(nèi)蒙古大學(xué);2011年

8 普日布蘇榮;蒙古語語料庫建設(shè)的有關(guān)問題[D];內(nèi)蒙古大學(xué);2015年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 關(guān)高娃;蒙古文停用詞和英文停用詞比較研究[D];內(nèi)蒙古大學(xué);2011年

2 常紅梅;袞布扎布語言論著中的蒙古文阿里嘎禮研究[D];內(nèi)蒙古大學(xué);2013年

3 劉璐;面向蒙古文增量g┱溝男畔⒓燜骷際躚芯縖D];內(nèi)蒙古大學(xué);2015年

4 李坤;蒙古文網(wǎng)絡(luò)熱點(diǎn)詞提取算法研究[D];內(nèi)蒙古大學(xué);2015年

5 王洪偉;基于規(guī)則和統(tǒng)計(jì)的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究[D];內(nèi)蒙古大學(xué);2015年

6 張畔;蒙古文搜索引擎基本方法的實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年

7 宋莉;蒙古文字造形元數(shù)據(jù)的分類編號(hào)探討[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2015年

8 青玉;指導(dǎo)小學(xué)生蒙古文正字法教學(xué)探析[D];內(nèi)蒙古師范大學(xué);2015年

9 達(dá)拉夫;文獻(xiàn)學(xué)視角下的蒙古文古籍研究[D];內(nèi)蒙古大學(xué);2015年

10 王亞君;基于Linux IBUS的傳統(tǒng)蒙古文輸入法的研究與實(shí)現(xiàn)[D];內(nèi)蒙古師范大學(xué);2015年



本文編號(hào):570481

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/570481.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e07bc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日韩欧美黄色一级视频| 国产在线一区二区三区不卡 | 十八禁日本一区二区三区| 午夜成年人黄片免费观看| 日韩人妻一区二区欧美| 爽到高潮嗷嗷叫之在现观看| 都市激情小说在线一区二区三区| 国产欧美日韩精品成人专区| 一本色道久久综合狠狠躁| 亚洲视频一区自拍偷拍另类| 日本91在线观看视频| 少妇被粗大进猛进出处故事| 欧美成人精品一区二区久久| 激情三级在线观看视频| 亚洲深夜精品福利一区| 精品欧美日韩一区二区三区 | 欧美午夜色视频国产精品| 国产又长又粗又爽免费视频| 亚洲精品一区二区三区日韩| av在线免费观看一区二区三区| 91插插插外国一区二区婷婷| 人妻巨大乳一二三区麻豆| 免费播放一区二区三区四区| 日韩精品中文字幕亚洲| 亚洲伦理中文字幕在线观看| 国产又色又爽又黄又大| 人妻内射在线二区一区| 男人的天堂的视频东京热| 精品人妻一区二区三区免费| 在线中文字幕亚洲欧美一区| 亚洲欧美国产精品一区二区| 91日韩欧美中文字幕| 91人妻人澡人人爽人人精品| 欧美大胆美女a级视频| 久久久精品日韩欧美丰满| 欧美成人精品国产成人综合| 日韩精品成区中文字幕| 午夜久久精品福利视频| 日韩不卡一区二区在线| 亚洲高清一区二区高清| 老司机精品视频免费入口|