天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

計算機檢索心得_計算機檢索論文

發(fā)布時間:2016-10-12 19:23

  本文關鍵詞:計算機檢索,由筆耕文化傳播整理發(fā)布。


計算機檢索論文

相關熱詞搜索:

篇一:計算機檢索技術論文

中文問答系統(tǒng)中的信息檢索模型的研究

河北農(nóng)業(yè)大學

計算機檢索技術論文

姓名:

專業(yè):計算機科學與技術1101班

學號:2011614530226

指導教師:

中文問答系統(tǒng)中的信息檢索模型的研究

摘要

問答技術是自然語言處理領域中一個非常熱門的研究方向,它綜合運用了各種自然語言處理技術。本文充分結(jié)合了漢語語言的特點以及計算語言學的技術,對問答系統(tǒng)中信息檢索模塊進行了深入分析,指出了在實際的使用問答系統(tǒng)的時候,用戶的回答質(zhì)量參差不齊。 關鍵詞:問答系統(tǒng),信息檢索,文檔質(zhì)量,語言模型,最大熵

獨創(chuàng)性聲明

本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果。

1緒論

隨著科學技術發(fā)展,尤其是信息技術突飛猛進,一方面人們在理論上的信息擁有量不斷膨脹不斷豐富,一方面人們對信息的需求也與日俱增,對信息的質(zhì)量和相關度的要求也越來越高, 現(xiàn)有的檢索系統(tǒng),無論是受限領域的檢索還是互聯(lián)網(wǎng)搜索引擎,一般都是基于關鍵字檢索。

1.2本文的主要工作及篇章結(jié)構(gòu)

本文首先對問答系統(tǒng)的背景和研究現(xiàn)狀做出了闡述,然后介紹了中文問答系 統(tǒng)的體系結(jié)構(gòu)。從功能和技術兩個角度對現(xiàn)有問答系統(tǒng)進行劃分,并分析各種系統(tǒng)的特及優(yōu)缺點。然后從系統(tǒng)框架、系統(tǒng)資源以及自然語言本身對基于自然語言的中文問答系統(tǒng)進行了詳細的介紹,與傳統(tǒng)的搜索引擎做了一個橫向的對比。緊接著對問答系統(tǒng)一個核心環(huán)節(jié)(信息檢索環(huán)節(jié))的四個模型進行了分析,通過將文檔質(zhì)量融入到檢索模型中對現(xiàn)有的檢索模型做出了改進,最后通過試驗驗證了這種改進的有效性。

本文篇章結(jié)構(gòu)如下:

第一章介紹了問答系統(tǒng)的相關背景知識以及研究現(xiàn)狀。

第二章分析了中文問答系統(tǒng)的體系結(jié)構(gòu)。

第三章闡述了基于自然語言處理的中文問答系統(tǒng)的系統(tǒng)結(jié)構(gòu),還介紹了自然語言處理

第四章分析了四種傳統(tǒng)的檢索模型以及基于語言模型的檢索模型的優(yōu)缺點。

第五章結(jié)論

2中文問答系統(tǒng)的概述

2.1中文問答系統(tǒng)體系結(jié)構(gòu)

中文問答系統(tǒng)除了需要具有一般問答系統(tǒng)的功能處理外,還需要考慮中文的特性,在自然語言處理中,中文在語法語義語用等諸方面都存在有別于西文的特性,比如分詞處理和詞性標注上面。因此,國外的先進技術往往不能直接應用,只有將國外成熟的技術模型與中文信息處理相結(jié)合,才能取得較好的結(jié)果。

2.2問答系統(tǒng)分類

現(xiàn)有問答系統(tǒng)的分類,大致可以分為:聊天機器人、基于知識庫的問答系統(tǒng)、問答式檢索系統(tǒng)以及基于自由文本的問答系統(tǒng)。

2.2。1聊天機器人

2.2.2基于知識庫的問答系統(tǒng)

2.2.3問答式檢索系統(tǒng)

2.2.4基于自由文本的問答系統(tǒng)

2.3問答系統(tǒng)技術分類

目前的問答按技術分為以下幾類:基于事實性問題問答技術、基于問答模式匹配的問答技術和基于自然語言處理的問答技術,分別介紹如下。

2.3.1基于事實-性問題的問答技術

2.3.2基于問答模式匹配的問答技術

2.3.3基于自然語言處理的問答技術

3基于自然語言處理的中文問答系統(tǒng)概述

3.1系統(tǒng)框架

系統(tǒng)主要包括五個部分:問題理解、信息檢索、信息處理、答案抽取、①問題理解(QuestionAnalysis);②信息檢索(Information Retrieval);③信息處理(Inforraation Processing);④答案抽取(Answer Extraction).

3.2系統(tǒng)資源

基于自然語言的問答系統(tǒng),其實現(xiàn)需要自然語言處理、知識聚類、數(shù)據(jù)挖掘等技術支撐。在充分利用這些技術的同時,也必須建立相應的系統(tǒng)資源。

3.3自然語言處理.

自然語言處理的任務是對語言的字、詞、句、篇章的語音形式和書面形式進行輸入、輸出、統(tǒng)計、檢索、識別、分析、理解和生成。研究的核心問題是語言的自動理解(Language Understanding)和自動生成(Language Generation)。所以,計算語言學理論的任務是描述和解釋自然語言的現(xiàn)象和規(guī)律,建立形式化的語言模型,并且提供相應的算法,使其得以在計算機上實現(xiàn)。自然語言處理的應用目標是使人與計算機之間用自然語言進行交流。具體說是建立各種處理自然語言的計算機應用軟件系統(tǒng)。一般來說,科學研究轉(zhuǎn)化為產(chǎn)品的過程是從理論研究、應用研究到應用技術。在我國的語言處理領域,人們也一直向往著能從某種語言理論衍生出相應的處理漢語的應用系統(tǒng)。然而,由于學科發(fā)展的局限性和漢語本身的復雜性。

4信息檢索

4.1傳統(tǒng)的檢索模型

傳統(tǒng)的信息檢索,主要是起源于圖書的管理學,早期通過人員的手動編制,對每筆資料定義其索引字(index term),用數(shù)個最符合文件內(nèi)容的關鍵詞來代表其整體含義,而用戶只能透過關鍵詞的輸入來進書名或文件的檢索:時至今日,檢索模型主要衍生有幾大類:布爾模型(Boolean Model)、模糊邏輯模型(Fuzzy LogicModel)、向量模(Vector Model)及概率模型(Probability Model)。

4.2基于語言模型的信息檢索

1統(tǒng)計語言模型。

語言建模技術要解決的問題是,對于一個服從某個未知概率分布P的語言L,如何根據(jù)給定的樣本集估計P因此通過語言模型可以決定哪一個詞序列的可能性更大或是已知若干個詞,預測下一個詞。語言模型首先在語音識別中提出,后來陸續(xù)用到光學字符識別、手寫字識別、機器翻譯、信息檢索等領域。語言模型最常用的是N元模型,如果用變量w代表一個文本中順序排列的11個詞,即W--wlW2?Wn,則統(tǒng)計語言模型的任務是給出任意詞序列w在文本中出現(xiàn)的概率P(w)。

2語言模型中的平滑技術。

加1平滑(Additive smoothing); Good.Turing估計;退化法(Backing-offsmoothing model;線性插值法(Linear Interpolated smoothing model)

3基于語言模型的IR模型的概念。

最近幾年提出的語言模型檢索系統(tǒng)將語音識別領域的語言模型技術引入信息檢索領域

來改善檢索系統(tǒng)的性能。Ponte和CroR在1998年首先提出基于語言模型的信息檢索系統(tǒng),他們根據(jù)詞匯的分布規(guī)律為文檔集合中的每篇文檔構(gòu)建一元語言模型,查詢條件在概念上被理解為由文檔的語言模型通過隨機過程生成的語言實例,而文檔與查詢條件的相關度評價標準就是由文檔語言模型生成查詢條件概率的大小,生成概率越大也就是說該文檔和查詢條件越相關。Miller等人將檢索過程看作是一個隱馬爾可夫隨機過程,通過將文檔語言模型和一般語言模型平滑處理相結(jié)合來計算查詢條件和文檔的相關度,這個方法在TREC評測中獲得很好的性能。語言模型檢索方法因為其比較堅實的數(shù)學理論基礎,,簡潔的概念模型和實際評測中相對于傳統(tǒng)的向量空間模型能夠獲得更好的檢索效果等優(yōu)勢因素逐漸引起相關研究人員的注意。

5.1結(jié)論

本文對中文問答系統(tǒng)做出較為全面具體的總結(jié)與回顧,特別是在問答系統(tǒng)的關鍵模塊之一信息檢索模塊中提出了自己的一些想法。

張曉騰

二0一二年十月

參考文獻

【1】全球互聯(lián)網(wǎng)狀況統(tǒng)計.http://www.clickz.com/stats

【2】英國莫里(MORD調(diào)查公司.htip://www.mori.corn/

【3】D.Moldovan et a1.The structure end performance of an open domain question answeringsystem,in Proceedings ACL 2000,PP.563-570 2000

【4】郭以昆.信息檢索和自然語言處理中的幾個關鍵問題的研究.復旦大學博士學位論文,

篇二:計算機檢索論文01

計算機檢索技術論文

專業(yè):

班級:

姓名:

學號:

全文檢索技術研究與應用論文

摘要

全文檢索是現(xiàn)代信息檢索技術的一個非常重要的分支, 它是處理非結(jié) 構(gòu)化數(shù)據(jù)的強大工具,也是搜索引擎的核心技術之一。本文對中文全文檢 索的有關技術進行了較為深入的研究。在基于字表的全文索引方面,本文 提出了一種改進的倒排索引結(jié)構(gòu),同傳統(tǒng)索引結(jié)構(gòu)相比,更便于索引的構(gòu) 建、維護、更新。本文的重點放在了全文檢索技術的應用上,對如何利用 新技術、 改善檢索系統(tǒng)的結(jié)構(gòu)、 提高檢索系統(tǒng)的性能和效率、 加快檢速度、 不斷適應網(wǎng)絡信息發(fā)展等方面做了重點研究。 全文檢索是一種 IO 密集型的應用,以往的全文檢索系統(tǒng)的開發(fā)多在 關系數(shù)據(jù)庫的基礎上進行。本文針對全文數(shù)據(jù)庫的特點,深入討論此法弊 端與不足,并提出了在文件系統(tǒng)上構(gòu)建的解決方案。由于目前全文檢索系 統(tǒng)的開發(fā)平臺并不多見,本文介紹了一種全文檢索引擎工具包一 Lucerne, 它功能強大, 小巧精悍, 便于嵌入各種應用。 近年在世界各地被廣泛使用, 諸如 IBM 等公司都使用其核心代碼。作為一個開源軟件,它為我們學習搜 索引擎的核心技術提供了絕佳的機會,對其剖析研究、進行二次開發(fā),是 一件很有意義的事情。 在應用方面,本文主要工作是本校學位論文全文數(shù)據(jù)庫的設計與實現(xiàn)。

關鍵字:全文檢索, 倒排文件, Lucerne, 全文數(shù)據(jù)庫, 自動分詞

Full-text retrieval is an important information retrieval technology. It is a powerful tool for dealing with nonstructural data, and is one of the key technologies of the search engine. This paper deeply research on Chinese full-text retrieval technology. In the filed of full-text index based on word inverted table, an improved word-based Chinese inverted index structure is proposed which has a better performance than traditional approaches, and convenient for constructing, maintaining and updating index. According. To its characteristic, we design its corresponding optimized search method. Analysis shows that better dynamic performance and high indexing speed is possible using this structure. This paper pays more attention in application of full-text retrieval technologies. How to use ne(來自: 寫 論 文 網(wǎng):計算機檢索論文)w technique, optimize the structure of retrieval system, improve performance and efficiency, quicken search speed and adapt the development of current web is also discussed in this paper. Full-text retrieval is an I/O intensive application. Its previous developments are carried on the basis of relation database. This paper deeply discusses the abuse and deficiency of this mode according to its characteristic. Because the development platform of full-text retrieval is absent currently, Lucerne, a full-text search engine toolkit, is introduced into the paper. It has powerful performed acne. And its body is cabinet, capable and vigorous. This Convenient for it embedded applications. At present, Lucerne is employed world abroad, so that many professional companies such as IBM also use its core code. As an open source code soft, Lucerne offer a superexcellent chance to study search engine key technology. It is wrathful to take a parse. Research and carry second development to it. In the application aspect, this paper works mostly in the design and implement of the degree dissertation full-text database in university. KEY WORDS: Full-text,Inverted File, Lucerne,F(xiàn)ull-text Database Divided Syncopation 一、全文檢索技術簡介

1.什么是全文檢索

全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個 詞建立一個索

引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時, 檢索程序就根據(jù)事先建立的索引進行查找, 并將查找的結(jié)果反饋給用戶的 檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。 總之,全文檢索技術是現(xiàn)代信息檢索的一項重要技術。

2.全文檢索需要解決的問題

一套完整的全文檢索一般包括: 1 對不同文本的統(tǒng)一處理; 2 索引的建立,考慮索引壓縮率,是否支持動態(tài)索引更新等問題; 3 對漢語詞語進行正確的切分; 4 檢索問題,考慮檢索效率,查全率,查準率等問題; 5 排序問題。 本文就圍繞以上 5 個問題進行分析與研究。

二、建立索引庫

1.索引文件分類

(1)順排檔結(jié)構(gòu)

順排檔文檔是以 Decide 為主序的, 每一文檔下存放各自出現(xiàn)的詞的 ID 及各詞所出現(xiàn)的次數(shù)和具體位置信息,各數(shù)據(jù)項的存儲長度固定。

(2)倒排檔結(jié)構(gòu)

1) 、一級索引:一級索引文件屬于記錄式文件,每一記錄大小固定, 共有三個數(shù)據(jù)項構(gòu)成, Word ID、 文檔數(shù)、 第一個文檔開始位置。 其中 Word ID 是詞典中詞條的 ID,文檔數(shù)是指這個詞總共在多少個文檔中出現(xiàn),文檔 開始位置是一個文件指針指向二級索引中出現(xiàn)當前詞的文檔集中的第一 個文檔存儲位置, 這個指針是一個長整形值相當于指明 了是二級索引文件 中的第幾條記錄,因為各記錄長度也是固定大小。通過這個指向可以直接 定位到二級索引文件讀取位置,然后讀取 n Docs 個記錄即可,因為它們是 存放在連續(xù)的地址空間上。

2) 、二級索引:二級索引也是一種記錄式文件,每一記錄有三個數(shù)據(jù) 項組成,Doc ID、出現(xiàn)次數(shù)、第一個 Hit 位置。其中 Doc ID 是文檔的 ID, 出現(xiàn)次數(shù)指的是當前文檔中某一個詞出現(xiàn)的次數(shù), 第一個 Hit 位置也是一 個指針,指向 Hits 文件中的某一位置。通過這個指針就可以直接定位到 Hits 位置中的讀取位置,這樣連續(xù)讀取 n Hits 個記錄就可以將所有當前 詞在當前文檔中的出現(xiàn)的位置信息都讀入。這些文件將屬于同一 Word ID下的所有文檔記錄按其詞在整個文檔的權值從大到小排列。

3) 、Hits 位置信息文件:這些文件每一記錄只有一個數(shù)據(jù)項,即 Hit 位置信息,只記錄了各詞在文檔中出現(xiàn)的位置。將同一詞在同一文檔中的 出現(xiàn)位置按出現(xiàn)的先后排列。 這樣在讀取文檔并提取摘要時只需對字符串 從頭到尾掃描一邊即可,不需要來回掃描。

2.倒排索引壓縮

(1)動態(tài)文本集的倒排索引壓縮方案

我們考慮文本集動態(tài)性時, 將文本內(nèi)部的動態(tài)調(diào)整用兩次文本層次的 調(diào)整代替,即對一個文本作文字改動視為刪除舊文本和增加新文本,因此 一般只考慮文本層次的索引動態(tài)同步調(diào)整。 上文 3.1 節(jié)提到一個倒排列表 可拆分成三部分序列,事實上這三部分的動態(tài)特性并不相同,根據(jù)這一特 點,我們可以采用混合編碼的方案,對三部分序列實施不同的壓縮方法, 力求在滿足動態(tài)性的前提下,盡可能地實現(xiàn)高壓縮率。 位置序列

  本文關鍵詞:計算機檢索,由筆耕文化傳播整理發(fā)布。



本文編號:138569

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/xxkj/138569.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶7c095***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com