面向現代漢語文本處理的全文檢索、自動分詞通用系統(tǒng)
發(fā)布時間:2021-01-01 15:36
全文檢索是現代信息檢索技術的一個非常重要的分支,它是處理非結構化數據的強大工具,也是搜索引擎的核心技術之一。本研究對中文全文檢索的有關技術進行了較為深入的研究,重點放在全文檢索技術的應用上。對如何利用新技術、改善檢索系統(tǒng)的結構、提高檢索系統(tǒng)的性能和效率、不斷適應信息技術發(fā)展的需求等方面進行了新的探索。 全文檢索是一種I/O密集型的應用,以往的全文檢索系統(tǒng)的開發(fā)多在關系數據庫的基礎上進行。本研究針對全文數據庫的特點,指出此方式的弊端與不足,并提出了基于文件系統(tǒng)進行構建的解決方案。由于目前全文檢索系統(tǒng)的開發(fā)平臺并不多見,本文介紹了一種全文檢索引擎工具包——Lucene,它功能強大,小巧精悍,便于嵌入各種應用。近年在世界各地被廣泛使用,諸如IBM等公司都使用其核心代碼。作為一個開源軟件,為我們掌握搜索引擎的核心技術提供了絕佳機會,根據現代漢語文本的特點對進行二次開發(fā),是一件很有意義的事情。 漢語自動分詞及詞性標注是中文信息處理中的重要環(huán)節(jié)。針對現代漢語自動分詞及詞性標注的難點,本研究在自動分詞方面進行了如下探索:1.對幾種常用電子詞典的結構進行了分析和比較,實現了核心詞典+專業(yè)詞...
【文章來源】:南京師范大學江蘇省 211工程院校
【文章頁數】:85 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 前言
1.1 研究背景及現狀
1.1.1 全文檢索的概念與特點
1.1.2 中文全文檢索
1.2 本文的工作和意義
1.3 本文的主要內容及其組織
第二章 全文檢索引擎Lucene的分析研究
2.1 Lucene簡介
2.2 Lucene的倒排索引原理
2.3 Lucene的組成結構
2.4 LUCENE的基本數據類型
2.5 Lucene中的文件格式
2.6 全文檢索的實現機制
第三章 全文檢索系統(tǒng)的分析與設計
3.1 系統(tǒng)的整體結構
3.2 模塊的功能描述
3.2.1 文檔對象
3.2.2 語言分析器和查詢分析器
3.2.3 檢索接口
3.2.4 索引接口
3.3 系統(tǒng)數據流邏輯
3.4 數據流分析
3.5 系統(tǒng)的可擴展性
第四章 中文自動分詞技術
4.1 自動分詞技術及發(fā)展概況
4.1.1 漢語自動分詞技術及存在的困難
4.1.2 漢語自動分詞的研究現狀及分析
4.2 分詞算法
4.2.1 現有的的分詞算法分析
4.2.2 本系統(tǒng)所用分詞算法
4.3 分詞詞典
4.3.1 詞典的常用組織結構
4.3.2 本系統(tǒng)的分詞詞典機制
4.3.3 本系統(tǒng)詞典的結構
4.4 歧義字段的處理
4.4.1 歧義字段產生的根源及其處理策略
4.4.2 本系統(tǒng)中歧義字段的消解方法
4.5 未登錄詞識別
4.5.1 未登錄詞的研究現狀
4.5.2 未登錄詞現有解決方案的討論
4.5.3 本系統(tǒng)中未登錄詞的解決方案
4.5.4 數字串的識別
4.5.5 重疊詞形式的識別
4.6 詞性標注
4.6.1 詞性標注的研究的概況
4.6.2 常用的兼類詞排歧方法及存在問題分析
4.6.3 本系統(tǒng)的處理方式
4.7 自動分詞系統(tǒng)的設計與實現
4.7.1 系統(tǒng)設計原則及思路
4.7.2 系統(tǒng)結構研制流程圖
4.7.3 系統(tǒng)的實現及其性能測評
第五章 系統(tǒng)集成的設計與實現
5.1 檢索結果的打開與保存
5.2 建立檢索
5.3 檢索流程
5.4 查詢表達式的處理
5.5 檢索結果的輸出
5.6 自動分詞模塊
5.7 字頻、詞頻統(tǒng)計
第六章 結論
6.1 本文工作總結
6.2 檢索功能的比較與測試
6.3 今后的工作
參考文獻
后記
【參考文獻】:
期刊論文
[1]一種基于語境的中文分詞方法研究[J]. 張茂元,盧正鼎,鄒春燕. 小型微型計算機系統(tǒng). 2005(01)
[2]用基于詞的二元模型消解交集型分詞歧義[J]. 陳小荷. 南京師大學報(社會科學版). 2004(06)
[3]漢語自動分詞專家系統(tǒng)的設計與實現[J]. 王彩榮. 微處理機. 2004(03)
[4]詞性標注規(guī)則的獲取和優(yōu)化[J]. 陳文亮,朱靖波,呂學強. 術語標準化與信息技術. 2004(02)
[5]基于角色標注的中國人名自動識別研究[J]. 張華平,劉群. 計算機學報. 2004(01)
[6]漢語語料的切分標注加工系統(tǒng)[J]. 徐菁,張輝,陸汝占. 計算機工程. 2003(09)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
[8]全文檢索字索引技術的研究與實現[J]. 曹元大,賀海軍,涂哲明,王琴. 計算機工程. 2002(06)
[9]自然語言處理技術的三個里程碑[J]. 黃昌寧,張小鳳. 外語教學與研究. 2002(03)
[10]一種基于概率模型的分詞系統(tǒng)[J]. 李家福,張亞非. 系統(tǒng)仿真學報. 2002(05)
博士論文
[1]中文信息處理中若干關鍵技術的研究[D]. 王建會.復旦大學 2004
碩士論文
[1]中文自動分詞系統(tǒng)的研究[D]. 朱珣.華中師范大學 2004
[2]基于統(tǒng)計的漢語詞性標注方法的研究[D]. 梁以敏.大連理工大學 2004
[3]在自然漢語中進行分詞和詞性標注[D]. 劉東旭.電子科技大學 2003
[4]中文文本分詞研究[D]. 許林杰.山東師范大學 2003
[5]現代漢語通用分詞系統(tǒng)的技術與實現[D]. 羅智勇.北京工業(yè)大學 2002
[6]基于Internet的智能信息檢索技術研究[D]. 傅賽香.廣西師范大學 2002
[7]基于統(tǒng)計的開放式漢語自動分詞[D]. 關宏超.大連理工大學 2002
[8]規(guī)則與統(tǒng)計相結合的兼類詞處理機制[D]. 張麗靜.大連理工大學 2002
[9]現代漢語分詞系統(tǒng)通用性設計及切分歧義處理[D]. 婁(王廷).北京工業(yè)大學 2000
本文編號:2951549
【文章來源】:南京師范大學江蘇省 211工程院校
【文章頁數】:85 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 前言
1.1 研究背景及現狀
1.1.1 全文檢索的概念與特點
1.1.2 中文全文檢索
1.2 本文的工作和意義
1.3 本文的主要內容及其組織
第二章 全文檢索引擎Lucene的分析研究
2.1 Lucene簡介
2.2 Lucene的倒排索引原理
2.3 Lucene的組成結構
2.4 LUCENE的基本數據類型
2.5 Lucene中的文件格式
2.6 全文檢索的實現機制
第三章 全文檢索系統(tǒng)的分析與設計
3.1 系統(tǒng)的整體結構
3.2 模塊的功能描述
3.2.1 文檔對象
3.2.2 語言分析器和查詢分析器
3.2.3 檢索接口
3.2.4 索引接口
3.3 系統(tǒng)數據流邏輯
3.4 數據流分析
3.5 系統(tǒng)的可擴展性
第四章 中文自動分詞技術
4.1 自動分詞技術及發(fā)展概況
4.1.1 漢語自動分詞技術及存在的困難
4.1.2 漢語自動分詞的研究現狀及分析
4.2 分詞算法
4.2.1 現有的的分詞算法分析
4.2.2 本系統(tǒng)所用分詞算法
4.3 分詞詞典
4.3.1 詞典的常用組織結構
4.3.2 本系統(tǒng)的分詞詞典機制
4.3.3 本系統(tǒng)詞典的結構
4.4 歧義字段的處理
4.4.1 歧義字段產生的根源及其處理策略
4.4.2 本系統(tǒng)中歧義字段的消解方法
4.5 未登錄詞識別
4.5.1 未登錄詞的研究現狀
4.5.2 未登錄詞現有解決方案的討論
4.5.3 本系統(tǒng)中未登錄詞的解決方案
4.5.4 數字串的識別
4.5.5 重疊詞形式的識別
4.6 詞性標注
4.6.1 詞性標注的研究的概況
4.6.2 常用的兼類詞排歧方法及存在問題分析
4.6.3 本系統(tǒng)的處理方式
4.7 自動分詞系統(tǒng)的設計與實現
4.7.1 系統(tǒng)設計原則及思路
4.7.2 系統(tǒng)結構研制流程圖
4.7.3 系統(tǒng)的實現及其性能測評
第五章 系統(tǒng)集成的設計與實現
5.1 檢索結果的打開與保存
5.2 建立檢索
5.3 檢索流程
5.4 查詢表達式的處理
5.5 檢索結果的輸出
5.6 自動分詞模塊
5.7 字頻、詞頻統(tǒng)計
第六章 結論
6.1 本文工作總結
6.2 檢索功能的比較與測試
6.3 今后的工作
參考文獻
后記
【參考文獻】:
期刊論文
[1]一種基于語境的中文分詞方法研究[J]. 張茂元,盧正鼎,鄒春燕. 小型微型計算機系統(tǒng). 2005(01)
[2]用基于詞的二元模型消解交集型分詞歧義[J]. 陳小荷. 南京師大學報(社會科學版). 2004(06)
[3]漢語自動分詞專家系統(tǒng)的設計與實現[J]. 王彩榮. 微處理機. 2004(03)
[4]詞性標注規(guī)則的獲取和優(yōu)化[J]. 陳文亮,朱靖波,呂學強. 術語標準化與信息技術. 2004(02)
[5]基于角色標注的中國人名自動識別研究[J]. 張華平,劉群. 計算機學報. 2004(01)
[6]漢語語料的切分標注加工系統(tǒng)[J]. 徐菁,張輝,陸汝占. 計算機工程. 2003(09)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
[8]全文檢索字索引技術的研究與實現[J]. 曹元大,賀海軍,涂哲明,王琴. 計算機工程. 2002(06)
[9]自然語言處理技術的三個里程碑[J]. 黃昌寧,張小鳳. 外語教學與研究. 2002(03)
[10]一種基于概率模型的分詞系統(tǒng)[J]. 李家福,張亞非. 系統(tǒng)仿真學報. 2002(05)
博士論文
[1]中文信息處理中若干關鍵技術的研究[D]. 王建會.復旦大學 2004
碩士論文
[1]中文自動分詞系統(tǒng)的研究[D]. 朱珣.華中師范大學 2004
[2]基于統(tǒng)計的漢語詞性標注方法的研究[D]. 梁以敏.大連理工大學 2004
[3]在自然漢語中進行分詞和詞性標注[D]. 劉東旭.電子科技大學 2003
[4]中文文本分詞研究[D]. 許林杰.山東師范大學 2003
[5]現代漢語通用分詞系統(tǒng)的技術與實現[D]. 羅智勇.北京工業(yè)大學 2002
[6]基于Internet的智能信息檢索技術研究[D]. 傅賽香.廣西師范大學 2002
[7]基于統(tǒng)計的開放式漢語自動分詞[D]. 關宏超.大連理工大學 2002
[8]規(guī)則與統(tǒng)計相結合的兼類詞處理機制[D]. 張麗靜.大連理工大學 2002
[9]現代漢語分詞系統(tǒng)通用性設計及切分歧義處理[D]. 婁(王廷).北京工業(yè)大學 2000
本文編號:2951549
本文鏈接:http://sikaile.net/tushudanganlunwen/2951549.html