基于LUCENE的藏文全文檢索系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-09-30 02:16
近年來,通過國(guó)家一些專項(xiàng)項(xiàng)目的實(shí)施,使藏文信息處理研究和開發(fā)領(lǐng)域取得了長(zhǎng)足的發(fā)展,從標(biāo)準(zhǔn)統(tǒng)一到關(guān)鍵性藏文基礎(chǔ)軟件開發(fā)等各方面都取得了突破性成果,具備了進(jìn)一步研究和開發(fā)的先決條件。然而,藏文信息處理技術(shù)發(fā)展處于起步階段,藏文全文檢索系統(tǒng)等應(yīng)用系統(tǒng)缺口突出,作為信息社會(huì)里人們獲取信息不可或缺的工具,研究實(shí)現(xiàn)藏文全文檢索系統(tǒng),即是本文努力所在。藏文全文檢索系統(tǒng)研究?jī)?nèi)容包括傳統(tǒng)領(lǐng)域的字、詞、句子、段落、文章的語(yǔ)法知識(shí),以及信息處理領(lǐng)域的信息檢索原理、分詞技術(shù)、查詢方法、文檔相關(guān)性排序算法等知識(shí)。同時(shí),還需要解決互聯(lián)網(wǎng)信息冗余大、質(zhì)量良莠不齊、格式繁多、位置分散、關(guān)聯(lián)復(fù)雜、用戶需求表達(dá)難等問題。LUCENE作為開放源代碼的全文檢索工具包,通過其框架規(guī)范,擴(kuò)展相關(guān)功能,以實(shí)現(xiàn)目標(biāo)系統(tǒng)全文檢索功能,成為解決以上問題的一種捷徑。本文通過對(duì)全文檢索理論及基于LUCENE全文檢索系統(tǒng)的研究的基礎(chǔ)上,得到如下成果:第一,設(shè)計(jì)實(shí)現(xiàn)基于LUCENE的藏文分詞器,該分詞器同時(shí)支持藏、漢、英三種語(yǔ)言的二元切分;第二,結(jié)合藏文句子的特性——句子主要成分間都通過格助詞相連接來表達(dá)語(yǔ)義關(guān)系,提出了本文實(shí)現(xiàn)的藏文分詞器的優(yōu)...
【文章來源】:西藏大學(xué)西藏自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全文檢索系統(tǒng)的功能和結(jié)構(gòu)
… 2 1 2 2 1 1… 0.176 0.477 0.176 0.176 0.477 0.477用詞項(xiàng)權(quán)重計(jì)算 Wi,j=tfi,j idfi,利用該公式計(jì)算以上詞項(xiàng)的 2-4 所示:表 2-4 詞項(xiàng)在各文檔和查詢中的權(quán)重計(jì)算表… … 0.176 0.477 0.176 0 0.477 0.477… 0.352 0 0.176 0.176 0 0… 0 0 0 0.352 0 0… 0.176 0.477 0 0.176 0 0們把所有搜索出的文檔向量及查詢向量放到一個(gè) N 維空間中,每個(gè)是我們就得到向量空間模型如圖 2-3 所示:
.1 建立索引檢索的最基本問題是給定一個(gè)查詢串,如何高效地在文檔集合里面搜索出包詢串的文檔。Google 號(hào)稱 80 億網(wǎng)頁(yè),Baidu 也有 10 億網(wǎng)頁(yè),數(shù)量可謂巨大,當(dāng)我們輸入一個(gè)查詢時(shí),返回時(shí)間往往不到 1 秒,為什么這么快?為了適應(yīng)多文檔檢索需求,就產(chǎn)生了對(duì)文本重新組織,并建立索引的方法,對(duì)所建立的索引進(jìn)行查詢后就能得出檢索結(jié)果,大大提高了檢索效率。根據(jù)方式不同,索引分為前向索引和倒排索引[17]。1.前向索引(Forward index)前向索引將每篇文檔表示成 DocID 及其文本內(nèi)容組成的類向量模式,例如: 1 為“ ”,文檔 2 為“ ”,文檔切分處理后變?yōu)椤?/ / / / / / / / / ”、“ / / / / / / ”,則前向索引方文檔表示為如下圖 2-4 所示(注:屬于同一分類的格助詞都?xì)w認(rèn)為同一個(gè)詞, ’和‘ ’,‘ ’和‘ ’等):
【參考文獻(xiàn)】:
期刊論文
[1]藏文分詞系統(tǒng)中緊縮格識(shí)別和藏字復(fù)原的算法研究[J]. 巴桑杰布,羊毛卓瑪,歐珠. 西藏科技. 2012(02)
[2]Lucene排序算法的個(gè)性化改進(jìn)[J]. 陳忱. 科技與企業(yè). 2012(02)
[3]經(jīng)典信息檢索模型的分類比較[J]. 于莉. 軟件. 2011(03)
[4]基于Lucene的藏文信息采集及檢索系統(tǒng)研究[J]. 蔣明原,孔令德. 電腦開發(fā)與應(yīng)用. 2011(02)
[5]基于藏語(yǔ)信息處理的詞類體系研究[J]. 扎西加,索南尖措. 西藏大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(01)
[6]用JSP調(diào)用Lucene包來實(shí)現(xiàn)全文檢索——利用基于Tomcat的Web服務(wù)器[J]. 陸云. 電腦學(xué)習(xí). 2007(03)
[7]Web文本挖掘中的特征表示與特征提取技術(shù)[J]. 陳淑珍. 三明高等專科學(xué)校學(xué)報(bào). 2004(02)
[8]基于大型藏文語(yǔ)料庫(kù)的藏文字符、部件、音節(jié)、詞匯頻度與通用度統(tǒng)計(jì)及其應(yīng)用研究[J]. 盧亞軍,馬少平,張敏,羅廣. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2003(02)
[9]基于p范式模型的檢索[J]. 遲呈英,戰(zhàn)學(xué)剛,姚天順. 中文信息學(xué)報(bào). 2000(04)
碩士論文
[1]基于Lucene的全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D]. 高欣.天津師范大學(xué) 2010
[2]信息檢索中的查詢擴(kuò)展技術(shù)研究[D]. 李新友.廣西師范大學(xué) 2010
[3]中文信息檢索系統(tǒng)研究[D]. 李立.華中師范大學(xué) 2008
[4]Web主題網(wǎng)頁(yè)內(nèi)容安全監(jiān)管研究[D]. 張瓊.西安電子科技大學(xué) 2008
[5]中文自動(dòng)分詞若干技術(shù)的研究[D]. 柴寶杰.燕山大學(xué) 2007
本文編號(hào):3414923
【文章來源】:西藏大學(xué)西藏自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全文檢索系統(tǒng)的功能和結(jié)構(gòu)
… 2 1 2 2 1 1… 0.176 0.477 0.176 0.176 0.477 0.477用詞項(xiàng)權(quán)重計(jì)算 Wi,j=tfi,j idfi,利用該公式計(jì)算以上詞項(xiàng)的 2-4 所示:表 2-4 詞項(xiàng)在各文檔和查詢中的權(quán)重計(jì)算表… … 0.176 0.477 0.176 0 0.477 0.477… 0.352 0 0.176 0.176 0 0… 0 0 0 0.352 0 0… 0.176 0.477 0 0.176 0 0們把所有搜索出的文檔向量及查詢向量放到一個(gè) N 維空間中,每個(gè)是我們就得到向量空間模型如圖 2-3 所示:
.1 建立索引檢索的最基本問題是給定一個(gè)查詢串,如何高效地在文檔集合里面搜索出包詢串的文檔。Google 號(hào)稱 80 億網(wǎng)頁(yè),Baidu 也有 10 億網(wǎng)頁(yè),數(shù)量可謂巨大,當(dāng)我們輸入一個(gè)查詢時(shí),返回時(shí)間往往不到 1 秒,為什么這么快?為了適應(yīng)多文檔檢索需求,就產(chǎn)生了對(duì)文本重新組織,并建立索引的方法,對(duì)所建立的索引進(jìn)行查詢后就能得出檢索結(jié)果,大大提高了檢索效率。根據(jù)方式不同,索引分為前向索引和倒排索引[17]。1.前向索引(Forward index)前向索引將每篇文檔表示成 DocID 及其文本內(nèi)容組成的類向量模式,例如: 1 為“ ”,文檔 2 為“ ”,文檔切分處理后變?yōu)椤?/ / / / / / / / / ”、“ / / / / / / ”,則前向索引方文檔表示為如下圖 2-4 所示(注:屬于同一分類的格助詞都?xì)w認(rèn)為同一個(gè)詞, ’和‘ ’,‘ ’和‘ ’等):
【參考文獻(xiàn)】:
期刊論文
[1]藏文分詞系統(tǒng)中緊縮格識(shí)別和藏字復(fù)原的算法研究[J]. 巴桑杰布,羊毛卓瑪,歐珠. 西藏科技. 2012(02)
[2]Lucene排序算法的個(gè)性化改進(jìn)[J]. 陳忱. 科技與企業(yè). 2012(02)
[3]經(jīng)典信息檢索模型的分類比較[J]. 于莉. 軟件. 2011(03)
[4]基于Lucene的藏文信息采集及檢索系統(tǒng)研究[J]. 蔣明原,孔令德. 電腦開發(fā)與應(yīng)用. 2011(02)
[5]基于藏語(yǔ)信息處理的詞類體系研究[J]. 扎西加,索南尖措. 西藏大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(01)
[6]用JSP調(diào)用Lucene包來實(shí)現(xiàn)全文檢索——利用基于Tomcat的Web服務(wù)器[J]. 陸云. 電腦學(xué)習(xí). 2007(03)
[7]Web文本挖掘中的特征表示與特征提取技術(shù)[J]. 陳淑珍. 三明高等專科學(xué)校學(xué)報(bào). 2004(02)
[8]基于大型藏文語(yǔ)料庫(kù)的藏文字符、部件、音節(jié)、詞匯頻度與通用度統(tǒng)計(jì)及其應(yīng)用研究[J]. 盧亞軍,馬少平,張敏,羅廣. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2003(02)
[9]基于p范式模型的檢索[J]. 遲呈英,戰(zhàn)學(xué)剛,姚天順. 中文信息學(xué)報(bào). 2000(04)
碩士論文
[1]基于Lucene的全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D]. 高欣.天津師范大學(xué) 2010
[2]信息檢索中的查詢擴(kuò)展技術(shù)研究[D]. 李新友.廣西師范大學(xué) 2010
[3]中文信息檢索系統(tǒng)研究[D]. 李立.華中師范大學(xué) 2008
[4]Web主題網(wǎng)頁(yè)內(nèi)容安全監(jiān)管研究[D]. 張瓊.西安電子科技大學(xué) 2008
[5]中文自動(dòng)分詞若干技術(shù)的研究[D]. 柴寶杰.燕山大學(xué) 2007
本文編號(hào):3414923
本文鏈接:http://sikaile.net/tushudanganlunwen/3414923.html
最近更新
教材專著