多源文檔全文檢索系統(tǒng)設(shè)計與實(shí)現(xiàn)
發(fā)布時間:2021-08-28 13:51
全文檢索是快速有效的信息檢索技術(shù),它極大地提高了人們從大量紛繁復(fù)雜的數(shù)據(jù)中查找特定信息的效率。雖然目前對文本處理技術(shù)已經(jīng)有了很大的發(fā)展和應(yīng)用,但是仍然存在一些問題有待研究:如何抽取有效的文本;如何抽取標(biāo)記文檔中的元數(shù)據(jù)信息;如何提高文本搜索的準(zhǔn)確率和召回率。本文的研究是多源文檔全文檢索系統(tǒng)設(shè)計與實(shí)現(xiàn),主要是對整個文件數(shù)據(jù)庫的表示、組織、索引和查詢,即根據(jù)用戶的查詢要求,從文件數(shù)據(jù)庫中檢索出相關(guān)的信息。其中心環(huán)節(jié)是文本內(nèi)容解析、索引庫的建立、查詢信息的獲得、檢索結(jié)果的處理以及相關(guān)信息的匹配,主要研究工作體現(xiàn)在:(1)分析和總結(jié)多源文檔全文檢索系統(tǒng)構(gòu)建的技術(shù)和理論。對中文分詞技術(shù)、全文索引技術(shù)、面向用戶需求的檢索以及基于內(nèi)容的元數(shù)據(jù)描述技術(shù)進(jìn)行了詳細(xì)的研究與闡述。(2)設(shè)計與分析多源文檔全文檢索系統(tǒng)結(jié)構(gòu)。針對中文全文內(nèi)容分析問題、多源文檔轉(zhuǎn)換問題、中文分詞問題,提出了有效的解決模型。研究內(nèi)容包括全文檢索系統(tǒng)結(jié)構(gòu)、功能模塊設(shè)計和索引結(jié)構(gòu)和數(shù)據(jù)庫設(shè)計。研究重點(diǎn)在于分詞、索引和檢索模塊的分析與設(shè)計。(3)多源文檔全文檢索系統(tǒng)構(gòu)建的關(guān)鍵技術(shù)研究。提出一種基于詞頻統(tǒng)計和檢索效率更高的特征詞聚合與具備...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
LOM數(shù)據(jù)模型的層次結(jié)構(gòu)
度等因素進(jìn)行相關(guān)性排序。3.1系統(tǒng)體系結(jié)構(gòu)多源文檔全文檢索系統(tǒng)結(jié)構(gòu)如圖3一1所示。系統(tǒng)結(jié)構(gòu)中包括文檔獲取模塊、文本解析、信息抽取、索引與檢索等信息處理模塊;多源文檔資源庫、文本庫、索引庫構(gòu)成數(shù)據(jù)存儲模塊;以及檢索服務(wù)接口模塊等。多源文檔全文檢索系統(tǒng)的工作機(jī)理如下:(1)通過網(wǎng)絡(luò)爬蟲工具從網(wǎng)站或文件系統(tǒng)中獲取文件,包括PDF、HTML、woRD、PPT文檔等多種文件格式,獲取的文件信息存儲在文檔信息庫;(2)對獲取的多源文檔進(jìn)行文件格式轉(zhuǎn)換,形成文本文件,并通過文件內(nèi)容過濾,去除標(biāo)簽信息或版權(quán)信息等與內(nèi)容無關(guān)信息,形成文檔內(nèi)容快照,存儲在文本庫中;(3)對過濾后的文本信息依據(jù)專業(yè)詞庫進(jìn)行分詞,并提取出文件的主要內(nèi)容和信息,如主題、作者和關(guān)鍵詞等信息;(4)對文檔的多維信息進(jìn)行索引,添加到索引庫中,用于用戶檢索和查詢使用;(5)用戶通過查詢接口
》索引段(Segrnent):可以是一個或者多個,在本文索引結(jié)構(gòu)中只有一個索引段!匪饕臋n(Documeni):是索引器可以直接添加的對象。具體形式如圖3一8所示:
【參考文獻(xiàn)】:
期刊論文
[1]決策樹簡化算法的一種深化研究[J]. 張翼宇. 福建電腦. 2008(05)
[2]基于學(xué)習(xí)對象元數(shù)據(jù)的教育資源管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 鄭維勇,王一萍. 中國教育信息化. 2007(21)
[3]自然語言處理在信息檢索中的應(yīng)用綜述[J]. 王燦輝,張敏,馬少平. 中文信息學(xué)報. 2007(02)
[4]信息檢索中語言模型的研究[J]. 樓爐群,牛軍鈺. 計算機(jī)工程. 2007(04)
[5]基于大規(guī)模日志分析的搜索引擎用戶行為分析[J]. 余慧佳,劉奕群,張敏,茹立云,馬少平. 中文信息學(xué)報. 2007(01)
[6]基于XML數(shù)據(jù)庫的標(biāo)準(zhǔn)化教育資源內(nèi)容服務(wù)系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 楊小花,楊宗凱,吳砥. 計算機(jī)應(yīng)用研究. 2006(09)
[7]基于復(fù)雜適應(yīng)系統(tǒng)理論的組織知識系統(tǒng)主體研究[J]. 李海波,劉則淵,丁堃. 科技管理研究. 2006(07)
[8]文本檢索的統(tǒng)計語言建模方法綜述[J]. 丁國棟,白碩,王斌. 計算機(jī)研究與發(fā)展. 2006(05)
[9]中文文本體裁的自動分類機(jī)制[J]. 方鷙飛,林鴻飛,楊志豪,趙晶. 中文信息學(xué)報. 2006(02)
[10]基于遺傳算法和支持向量機(jī)的特征子集選擇方法[J]. 喬立巖,彭喜元,馬云彤. 電子測量與儀器學(xué)報. 2006(01)
博士論文
[1]選擇性貝葉斯分類算法研究[D]. 陳景年.北京交通大學(xué) 2008
[2]漢語文本自動分類[D]. 郝立柱.吉林大學(xué) 2008
[3]基于領(lǐng)域本體的漢語共指消解及相關(guān)技術(shù)研究[D]. 史樹敏.南京理工大學(xué) 2008
[4]智能知識及其管理模式研究[D]. 李興森.中國科學(xué)院研究生院 2008
[5]基于上下文的信息檢索關(guān)鍵技術(shù)研究[D]. 田萱.中國人民大學(xué) 2007
[6]文本分類及其相關(guān)技術(shù)研究[D]. 尚文倩.北京交通大學(xué) 2007
[7]中文信息檢索索引模型及相關(guān)技術(shù)研究[D]. 楊傳耀.復(fù)旦大學(xué) 2007
[8]多機(jī)器人系統(tǒng)協(xié)調(diào)與控制研究[D]. 嚴(yán)勇杰.哈爾濱工程大學(xué) 2007
[9]WEB數(shù)據(jù)挖掘研究[D]. 王勇.西北工業(yè)大學(xué) 2006
[10]關(guān)聯(lián)文本分類關(guān)鍵技術(shù)研究[D]. 錢鐵云.華中科技大學(xué) 2006
本文編號:3368634
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
LOM數(shù)據(jù)模型的層次結(jié)構(gòu)
度等因素進(jìn)行相關(guān)性排序。3.1系統(tǒng)體系結(jié)構(gòu)多源文檔全文檢索系統(tǒng)結(jié)構(gòu)如圖3一1所示。系統(tǒng)結(jié)構(gòu)中包括文檔獲取模塊、文本解析、信息抽取、索引與檢索等信息處理模塊;多源文檔資源庫、文本庫、索引庫構(gòu)成數(shù)據(jù)存儲模塊;以及檢索服務(wù)接口模塊等。多源文檔全文檢索系統(tǒng)的工作機(jī)理如下:(1)通過網(wǎng)絡(luò)爬蟲工具從網(wǎng)站或文件系統(tǒng)中獲取文件,包括PDF、HTML、woRD、PPT文檔等多種文件格式,獲取的文件信息存儲在文檔信息庫;(2)對獲取的多源文檔進(jìn)行文件格式轉(zhuǎn)換,形成文本文件,并通過文件內(nèi)容過濾,去除標(biāo)簽信息或版權(quán)信息等與內(nèi)容無關(guān)信息,形成文檔內(nèi)容快照,存儲在文本庫中;(3)對過濾后的文本信息依據(jù)專業(yè)詞庫進(jìn)行分詞,并提取出文件的主要內(nèi)容和信息,如主題、作者和關(guān)鍵詞等信息;(4)對文檔的多維信息進(jìn)行索引,添加到索引庫中,用于用戶檢索和查詢使用;(5)用戶通過查詢接口
》索引段(Segrnent):可以是一個或者多個,在本文索引結(jié)構(gòu)中只有一個索引段!匪饕臋n(Documeni):是索引器可以直接添加的對象。具體形式如圖3一8所示:
【參考文獻(xiàn)】:
期刊論文
[1]決策樹簡化算法的一種深化研究[J]. 張翼宇. 福建電腦. 2008(05)
[2]基于學(xué)習(xí)對象元數(shù)據(jù)的教育資源管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 鄭維勇,王一萍. 中國教育信息化. 2007(21)
[3]自然語言處理在信息檢索中的應(yīng)用綜述[J]. 王燦輝,張敏,馬少平. 中文信息學(xué)報. 2007(02)
[4]信息檢索中語言模型的研究[J]. 樓爐群,牛軍鈺. 計算機(jī)工程. 2007(04)
[5]基于大規(guī)模日志分析的搜索引擎用戶行為分析[J]. 余慧佳,劉奕群,張敏,茹立云,馬少平. 中文信息學(xué)報. 2007(01)
[6]基于XML數(shù)據(jù)庫的標(biāo)準(zhǔn)化教育資源內(nèi)容服務(wù)系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 楊小花,楊宗凱,吳砥. 計算機(jī)應(yīng)用研究. 2006(09)
[7]基于復(fù)雜適應(yīng)系統(tǒng)理論的組織知識系統(tǒng)主體研究[J]. 李海波,劉則淵,丁堃. 科技管理研究. 2006(07)
[8]文本檢索的統(tǒng)計語言建模方法綜述[J]. 丁國棟,白碩,王斌. 計算機(jī)研究與發(fā)展. 2006(05)
[9]中文文本體裁的自動分類機(jī)制[J]. 方鷙飛,林鴻飛,楊志豪,趙晶. 中文信息學(xué)報. 2006(02)
[10]基于遺傳算法和支持向量機(jī)的特征子集選擇方法[J]. 喬立巖,彭喜元,馬云彤. 電子測量與儀器學(xué)報. 2006(01)
博士論文
[1]選擇性貝葉斯分類算法研究[D]. 陳景年.北京交通大學(xué) 2008
[2]漢語文本自動分類[D]. 郝立柱.吉林大學(xué) 2008
[3]基于領(lǐng)域本體的漢語共指消解及相關(guān)技術(shù)研究[D]. 史樹敏.南京理工大學(xué) 2008
[4]智能知識及其管理模式研究[D]. 李興森.中國科學(xué)院研究生院 2008
[5]基于上下文的信息檢索關(guān)鍵技術(shù)研究[D]. 田萱.中國人民大學(xué) 2007
[6]文本分類及其相關(guān)技術(shù)研究[D]. 尚文倩.北京交通大學(xué) 2007
[7]中文信息檢索索引模型及相關(guān)技術(shù)研究[D]. 楊傳耀.復(fù)旦大學(xué) 2007
[8]多機(jī)器人系統(tǒng)協(xié)調(diào)與控制研究[D]. 嚴(yán)勇杰.哈爾濱工程大學(xué) 2007
[9]WEB數(shù)據(jù)挖掘研究[D]. 王勇.西北工業(yè)大學(xué) 2006
[10]關(guān)聯(lián)文本分類關(guān)鍵技術(shù)研究[D]. 錢鐵云.華中科技大學(xué) 2006
本文編號:3368634
本文鏈接:http://sikaile.net/tushudanganlunwen/3368634.html