基于內(nèi)容的漢語文獻信息檢索系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2021-02-28 19:51
本文針對目前基于標引的檢索系統(tǒng)和全文檢索系統(tǒng)存在的問題,分析了詞性標注對檢索性能的影響、基于重要句群檢索的可行性以及自然提問語句模式等方面內(nèi)容,并以此為基礎(chǔ),提出一種改進的信息檢索系統(tǒng)模型:基于內(nèi)容的漢語文獻信息檢索系統(tǒng)的模型。先把文章的句子按權(quán)重排序,然后根據(jù)用戶選擇閾值的范圍,把閾值范圍內(nèi)的重要句子群作為待檢段落,在待檢段落中進行檢索;同時在預(yù)處理的時候,對文獻的語詞進行詞性標注,達到部分消歧的效果;當用戶需要對文獻進行擴檢的時候,可以通過擴大閾值以及放松對詞性匹配的限制而擴大待檢段落的范圍,最終實現(xiàn)全文檢索的目的;此外,文章還對網(wǎng)站上的用戶提問語句做了分析,提出常見用戶提問模式,支持用戶用自然語句進行提問檢索。本實驗系統(tǒng)是針對中文計算機領(lǐng)域文獻的檢索系統(tǒng),以《軟件學報》發(fā)表的部分文獻以及其他一些計算機文獻作為系統(tǒng)開發(fā)和測試時候的測試集。在測試中,系統(tǒng)和中國期刊網(wǎng)全文數(shù)據(jù)庫檢索性能做了比較,其中大部分檢索結(jié)果優(yōu)于中國期刊網(wǎng)的檢索效果。 本實驗系統(tǒng)的設(shè)計與傳統(tǒng)的中文信息檢索系統(tǒng)比較起來,具有以下五點主要成果:1、實現(xiàn)了詞性匹配檢索。實驗通過具體數(shù)據(jù)來說明漢語詞性標注和漢語信息檢...
【文章來源】:南京農(nóng)業(yè)大學江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
實驗系統(tǒng)主界面
.1主窗口菜單和工具欄介紹主窗口菜單和工具欄如圖4一3所示:圖4一3:系統(tǒng)主窗口菜單和工具欄4.2.1.1文件菜單文件菜單下面包含有三個選項:保存、打印、退出。“保存”項:把檢索出來的內(nèi)容(文獻題錄信息)保存到本地。“打印”項:把檢索出來的內(nèi)容(文獻題錄信息)打印出來�!巴顺觥表�:結(jié)束程序。4.2.1.2編輯菜單編輯菜單下面包含有六個選項:撤消、剪切、復(fù)制、粘貼、刪除、全選。“撤消”項:撤消剛才的操作�!凹羟小表�:對本文進行剪切操作�!皬�(fù)制”項:對文本進行復(fù)制操作。“粘貼”項:對文本剪切或復(fù)制后進行粘貼操作�!皠h除”項:刪除文本�!叭x”項:選擇所有文本。4.2.1.3檢索菜單檢索菜單下面包含有兩個選項:語句檢索、語詞檢索�!罢Z句檢索”:首先,在語句檢索框里輸入檢索語句。然后,選擇合適的檢索效果。最后再點擊“語句檢索”項。語詞檢索”:首先,在檢索框中輸入檢索語詞,并選擇相應(yīng)的詞性和詞性匹配模式。然后,選擇合適的檢索效果。最后再點擊“語詞檢索”項。4.2.1.4原文菜單原文菜單下面只包含一個選項:運行。點擊“運行”,將運行副窗口,獲得原文。
還有詳盡的檢索示例。閱讀幫助,可以使用戶很快地掌握系統(tǒng)的操作。如圖4一4所示:圖4一4:系統(tǒng)幫助文件“關(guān)于”項:顯示系統(tǒng)的版本、版權(quán)等信息。4.2.1.6工具欄主窗口的工具欄上的按鈕和其對應(yīng)的主窗口菜單關(guān)系,見表4一l:表4一1:主窗口工具欄按鈕與菜單對應(yīng)表
【參考文獻】:
期刊論文
[1]一種新穎的詞性標注模型[J]. 袁里馳,鐘義信. 微電子學與計算機. 2005(09)
[2]電子編輯和電子出版物:概念、起源和早期發(fā)展(上)[J]. 林穗芳. 出版科學. 2005(03)
[3]詞性標注對信息檢索系統(tǒng)性能的影響[J]. 蘇祺,昝紅英,胡景賀,項錕. 中文信息學報. 2005(02)
[4]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學旗. 計算機研究與發(fā)展. 2004(08)
[5]漢語自然語言檢索中的詞法分析處理[J]. 耿騫,毛瑞. 情報科學. 2004(04)
[6]一個改進的漢語詞性標注系統(tǒng)[J]. 屈剛,陸汝占. 上海交通大學學報. 2003(06)
[7]基于特征的漢語詞性標注模型[J]. 屈剛,陸汝占. 計算機研究與發(fā)展. 2003(04)
[8]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計算機工程與應(yīng)用. 2003(10)
[9]情報檢索系統(tǒng)評價研究:回顧與展望[J]. 楊立英,尚克聰. 圖書情報工作. 2003(02)
[10]自動文摘綜述[J]. 郭燕慧,鐘義信,馬志勇,姚均勇. 情報學報. 2002(05)
本文編號:3056367
【文章來源】:南京農(nóng)業(yè)大學江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
實驗系統(tǒng)主界面
.1主窗口菜單和工具欄介紹主窗口菜單和工具欄如圖4一3所示:圖4一3:系統(tǒng)主窗口菜單和工具欄4.2.1.1文件菜單文件菜單下面包含有三個選項:保存、打印、退出。“保存”項:把檢索出來的內(nèi)容(文獻題錄信息)保存到本地。“打印”項:把檢索出來的內(nèi)容(文獻題錄信息)打印出來�!巴顺觥表�:結(jié)束程序。4.2.1.2編輯菜單編輯菜單下面包含有六個選項:撤消、剪切、復(fù)制、粘貼、刪除、全選。“撤消”項:撤消剛才的操作�!凹羟小表�:對本文進行剪切操作�!皬�(fù)制”項:對文本進行復(fù)制操作。“粘貼”項:對文本剪切或復(fù)制后進行粘貼操作�!皠h除”項:刪除文本�!叭x”項:選擇所有文本。4.2.1.3檢索菜單檢索菜單下面包含有兩個選項:語句檢索、語詞檢索�!罢Z句檢索”:首先,在語句檢索框里輸入檢索語句。然后,選擇合適的檢索效果。最后再點擊“語句檢索”項。語詞檢索”:首先,在檢索框中輸入檢索語詞,并選擇相應(yīng)的詞性和詞性匹配模式。然后,選擇合適的檢索效果。最后再點擊“語詞檢索”項。4.2.1.4原文菜單原文菜單下面只包含一個選項:運行。點擊“運行”,將運行副窗口,獲得原文。
還有詳盡的檢索示例。閱讀幫助,可以使用戶很快地掌握系統(tǒng)的操作。如圖4一4所示:圖4一4:系統(tǒng)幫助文件“關(guān)于”項:顯示系統(tǒng)的版本、版權(quán)等信息。4.2.1.6工具欄主窗口的工具欄上的按鈕和其對應(yīng)的主窗口菜單關(guān)系,見表4一l:表4一1:主窗口工具欄按鈕與菜單對應(yīng)表
【參考文獻】:
期刊論文
[1]一種新穎的詞性標注模型[J]. 袁里馳,鐘義信. 微電子學與計算機. 2005(09)
[2]電子編輯和電子出版物:概念、起源和早期發(fā)展(上)[J]. 林穗芳. 出版科學. 2005(03)
[3]詞性標注對信息檢索系統(tǒng)性能的影響[J]. 蘇祺,昝紅英,胡景賀,項錕. 中文信息學報. 2005(02)
[4]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學旗. 計算機研究與發(fā)展. 2004(08)
[5]漢語自然語言檢索中的詞法分析處理[J]. 耿騫,毛瑞. 情報科學. 2004(04)
[6]一個改進的漢語詞性標注系統(tǒng)[J]. 屈剛,陸汝占. 上海交通大學學報. 2003(06)
[7]基于特征的漢語詞性標注模型[J]. 屈剛,陸汝占. 計算機研究與發(fā)展. 2003(04)
[8]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計算機工程與應(yīng)用. 2003(10)
[9]情報檢索系統(tǒng)評價研究:回顧與展望[J]. 楊立英,尚克聰. 圖書情報工作. 2003(02)
[10]自動文摘綜述[J]. 郭燕慧,鐘義信,馬志勇,姚均勇. 情報學報. 2002(05)
本文編號:3056367
本文鏈接:http://sikaile.net/tushudanganlunwen/3056367.html