天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

計(jì)算機(jī)檢索心得_計(jì)算機(jī)檢索論文

發(fā)布時(shí)間:2016-10-12 19:23

  本文關(guān)鍵詞:計(jì)算機(jī)檢索,由筆耕文化傳播整理發(fā)布。


計(jì)算機(jī)檢索論文

相關(guān)熱詞搜索:

篇一:計(jì)算機(jī)檢索技術(shù)論文

中文問(wèn)答系統(tǒng)中的信息檢索模型的研究

河北農(nóng)業(yè)大學(xué)

計(jì)算機(jī)檢索技術(shù)論文

姓名:

專(zhuān)業(yè):計(jì)算機(jī)科學(xué)與技術(shù)1101班

學(xué)號(hào):2011614530226

指導(dǎo)教師:

中文問(wèn)答系統(tǒng)中的信息檢索模型的研究

摘要

問(wèn)答技術(shù)是自然語(yǔ)言處理領(lǐng)域中一個(gè)非常熱門(mén)的研究方向,它綜合運(yùn)用了各種自然語(yǔ)言處理技術(shù)。本文充分結(jié)合了漢語(yǔ)語(yǔ)言的特點(diǎn)以及計(jì)算語(yǔ)言學(xué)的技術(shù),對(duì)問(wèn)答系統(tǒng)中信息檢索模塊進(jìn)行了深入分析,指出了在實(shí)際的使用問(wèn)答系統(tǒng)的時(shí)候,用戶(hù)的回答質(zhì)量參差不齊。 關(guān)鍵詞:?jiǎn)柎鹣到y(tǒng),信息檢索,文檔質(zhì)量,語(yǔ)言模型,最大熵

獨(dú)創(chuàng)性聲明

本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果。

1緒論

隨著科學(xué)技術(shù)發(fā)展,尤其是信息技術(shù)突飛猛進(jìn),一方面人們?cè)诶碚撋系男畔碛辛坎粩嗯蛎洸粩嘭S富,一方面人們對(duì)信息的需求也與日俱增,對(duì)信息的質(zhì)量和相關(guān)度的要求也越來(lái)越高, 現(xiàn)有的檢索系統(tǒng),無(wú)論是受限領(lǐng)域的檢索還是互聯(lián)網(wǎng)搜索引擎,一般都是基于關(guān)鍵字檢索。

1.2本文的主要工作及篇章結(jié)構(gòu)

本文首先對(duì)問(wèn)答系統(tǒng)的背景和研究現(xiàn)狀做出了闡述,然后介紹了中文問(wèn)答系 統(tǒng)的體系結(jié)構(gòu)。從功能和技術(shù)兩個(gè)角度對(duì)現(xiàn)有問(wèn)答系統(tǒng)進(jìn)行劃分,并分析各種系統(tǒng)的特及優(yōu)缺點(diǎn)。然后從系統(tǒng)框架、系統(tǒng)資源以及自然語(yǔ)言本身對(duì)基于自然語(yǔ)言的中文問(wèn)答系統(tǒng)進(jìn)行了詳細(xì)的介紹,與傳統(tǒng)的搜索引擎做了一個(gè)橫向的對(duì)比。緊接著對(duì)問(wèn)答系統(tǒng)一個(gè)核心環(huán)節(jié)(信息檢索環(huán)節(jié))的四個(gè)模型進(jìn)行了分析,通過(guò)將文檔質(zhì)量融入到檢索模型中對(duì)現(xiàn)有的檢索模型做出了改進(jìn),最后通過(guò)試驗(yàn)驗(yàn)證了這種改進(jìn)的有效性。

本文篇章結(jié)構(gòu)如下:

第一章介紹了問(wèn)答系統(tǒng)的相關(guān)背景知識(shí)以及研究現(xiàn)狀。

第二章分析了中文問(wèn)答系統(tǒng)的體系結(jié)構(gòu)。

第三章闡述了基于自然語(yǔ)言處理的中文問(wèn)答系統(tǒng)的系統(tǒng)結(jié)構(gòu),還介紹了自然語(yǔ)言處理

第四章分析了四種傳統(tǒng)的檢索模型以及基于語(yǔ)言模型的檢索模型的優(yōu)缺點(diǎn)。

第五章結(jié)論

2中文問(wèn)答系統(tǒng)的概述

2.1中文問(wèn)答系統(tǒng)體系結(jié)構(gòu)

中文問(wèn)答系統(tǒng)除了需要具有一般問(wèn)答系統(tǒng)的功能處理外,還需要考慮中文的特性,在自然語(yǔ)言處理中,中文在語(yǔ)法語(yǔ)義語(yǔ)用等諸方面都存在有別于西文的特性,比如分詞處理和詞性標(biāo)注上面。因此,國(guó)外的先進(jìn)技術(shù)往往不能直接應(yīng)用,只有將國(guó)外成熟的技術(shù)模型與中文信息處理相結(jié)合,才能取得較好的結(jié)果。

2.2問(wèn)答系統(tǒng)分類(lèi)

現(xiàn)有問(wèn)答系統(tǒng)的分類(lèi),大致可以分為:聊天機(jī)器人、基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)、問(wèn)答式檢索系統(tǒng)以及基于自由文本的問(wèn)答系統(tǒng)。

2.2。1聊天機(jī)器人

2.2.2基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)

2.2.3問(wèn)答式檢索系統(tǒng)

2.2.4基于自由文本的問(wèn)答系統(tǒng)

2.3問(wèn)答系統(tǒng)技術(shù)分類(lèi)

目前的問(wèn)答按技術(shù)分為以下幾類(lèi):基于事實(shí)性問(wèn)題問(wèn)答技術(shù)、基于問(wèn)答模式匹配的問(wèn)答技術(shù)和基于自然語(yǔ)言處理的問(wèn)答技術(shù),分別介紹如下。

2.3.1基于事實(shí)-性問(wèn)題的問(wèn)答技術(shù)

2.3.2基于問(wèn)答模式匹配的問(wèn)答技術(shù)

2.3.3基于自然語(yǔ)言處理的問(wèn)答技術(shù)

3基于自然語(yǔ)言處理的中文問(wèn)答系統(tǒng)概述

3.1系統(tǒng)框架

系統(tǒng)主要包括五個(gè)部分:?jiǎn)栴}理解、信息檢索、信息處理、答案抽取、①問(wèn)題理解(QuestionAnalysis);②信息檢索(Information Retrieval);③信息處理(Inforraation Processing);④答案抽取(Answer Extraction).

3.2系統(tǒng)資源

基于自然語(yǔ)言的問(wèn)答系統(tǒng),其實(shí)現(xiàn)需要自然語(yǔ)言處理、知識(shí)聚類(lèi)、數(shù)據(jù)挖掘等技術(shù)支撐。在充分利用這些技術(shù)的同時(shí),也必須建立相應(yīng)的系統(tǒng)資源。

3.3自然語(yǔ)言處理.

自然語(yǔ)言處理的任務(wù)是對(duì)語(yǔ)言的字、詞、句、篇章的語(yǔ)音形式和書(shū)面形式進(jìn)行輸入、輸出、統(tǒng)計(jì)、檢索、識(shí)別、分析、理解和生成。研究的核心問(wèn)題是語(yǔ)言的自動(dòng)理解(Language Understanding)和自動(dòng)生成(Language Generation)。所以,計(jì)算語(yǔ)言學(xué)理論的任務(wù)是描述和解釋自然語(yǔ)言的現(xiàn)象和規(guī)律,建立形式化的語(yǔ)言模型,并且提供相應(yīng)的算法,使其得以在計(jì)算機(jī)上實(shí)現(xiàn)。自然語(yǔ)言處理的應(yīng)用目標(biāo)是使人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行交流。具體說(shuō)是建立各種處理自然語(yǔ)言的計(jì)算機(jī)應(yīng)用軟件系統(tǒng)。一般來(lái)說(shuō),科學(xué)研究轉(zhuǎn)化為產(chǎn)品的過(guò)程是從理論研究、應(yīng)用研究到應(yīng)用技術(shù)。在我國(guó)的語(yǔ)言處理領(lǐng)域,人們也一直向往著能從某種語(yǔ)言理論衍生出相應(yīng)的處理漢語(yǔ)的應(yīng)用系統(tǒng)。然而,由于學(xué)科發(fā)展的局限性和漢語(yǔ)本身的復(fù)雜性。

4信息檢索

4.1傳統(tǒng)的檢索模型

傳統(tǒng)的信息檢索,主要是起源于圖書(shū)的管理學(xué),早期通過(guò)人員的手動(dòng)編制,對(duì)每筆資料定義其索引字(index term),用數(shù)個(gè)最符合文件內(nèi)容的關(guān)鍵詞來(lái)代表其整體含義,而用戶(hù)只能透過(guò)關(guān)鍵詞的輸入來(lái)進(jìn)書(shū)名或文件的檢索:時(shí)至今日,檢索模型主要衍生有幾大類(lèi):布爾模型(Boolean Model)、模糊邏輯模型(Fuzzy LogicModel)、向量模(Vector Model)及概率模型(Probability Model)。

4.2基于語(yǔ)言模型的信息檢索

1統(tǒng)計(jì)語(yǔ)言模型。

語(yǔ)言建模技術(shù)要解決的問(wèn)題是,對(duì)于一個(gè)服從某個(gè)未知概率分布P的語(yǔ)言L(fǎng),如何根據(jù)給定的樣本集估計(jì)P因此通過(guò)語(yǔ)言模型可以決定哪一個(gè)詞序列的可能性更大或是已知若干個(gè)詞,預(yù)測(cè)下一個(gè)詞。語(yǔ)言模型首先在語(yǔ)音識(shí)別中提出,后來(lái)陸續(xù)用到光學(xué)字符識(shí)別、手寫(xiě)字識(shí)別、機(jī)器翻譯、信息檢索等領(lǐng)域。語(yǔ)言模型最常用的是N元模型,如果用變量w代表一個(gè)文本中順序排列的11個(gè)詞,即W--wlW2?Wn,則統(tǒng)計(jì)語(yǔ)言模型的任務(wù)是給出任意詞序列w在文本中出現(xiàn)的概率P(w)。

2語(yǔ)言模型中的平滑技術(shù)。

加1平滑(Additive smoothing); Good.Turing估計(jì);退化法(Backing-offsmoothing model;線(xiàn)性插值法(Linear Interpolated smoothing model)

3基于語(yǔ)言模型的IR模型的概念。

最近幾年提出的語(yǔ)言模型檢索系統(tǒng)將語(yǔ)音識(shí)別領(lǐng)域的語(yǔ)言模型技術(shù)引入信息檢索領(lǐng)域

來(lái)改善檢索系統(tǒng)的性能。Ponte和CroR在1998年首先提出基于語(yǔ)言模型的信息檢索系統(tǒng),他們根據(jù)詞匯的分布規(guī)律為文檔集合中的每篇文檔構(gòu)建一元語(yǔ)言模型,查詢(xún)條件在概念上被理解為由文檔的語(yǔ)言模型通過(guò)隨機(jī)過(guò)程生成的語(yǔ)言實(shí)例,而文檔與查詢(xún)條件的相關(guān)度評(píng)價(jià)標(biāo)準(zhǔn)就是由文檔語(yǔ)言模型生成查詢(xún)條件概率的大小,生成概率越大也就是說(shuō)該文檔和查詢(xún)條件越相關(guān)。Miller等人將檢索過(guò)程看作是一個(gè)隱馬爾可夫隨機(jī)過(guò)程,通過(guò)將文檔語(yǔ)言模型和一般語(yǔ)言模型平滑處理相結(jié)合來(lái)計(jì)算查詢(xún)條件和文檔的相關(guān)度,這個(gè)方法在TREC評(píng)測(cè)中獲得很好的性能。語(yǔ)言模型檢索方法因?yàn)槠浔容^堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),,簡(jiǎn)潔的概念模型和實(shí)際評(píng)測(cè)中相對(duì)于傳統(tǒng)的向量空間模型能夠獲得更好的檢索效果等優(yōu)勢(shì)因素逐漸引起相關(guān)研究人員的注意。

5.1結(jié)論

本文對(duì)中文問(wèn)答系統(tǒng)做出較為全面具體的總結(jié)與回顧,特別是在問(wèn)答系統(tǒng)的關(guān)鍵模塊之一信息檢索模塊中提出了自己的一些想法。

張曉騰

二0一二年十月

參考文獻(xiàn)

【1】全球互聯(lián)網(wǎng)狀況統(tǒng)計(jì).http://www.clickz.com/stats

【2】英國(guó)莫里(MORD調(diào)查公司.htip://www.mori.corn/

【3】D.Moldovan et a1.The structure end performance of an open domain question answeringsystem,in Proceedings ACL 2000,PP.563-570 2000

【4】郭以昆.信息檢索和自然語(yǔ)言處理中的幾個(gè)關(guān)鍵問(wèn)題的研究.復(fù)旦大學(xué)博士學(xué)位論文,

篇二:計(jì)算機(jī)檢索論文01

計(jì)算機(jī)檢索技術(shù)論文

專(zhuān)業(yè):

班級(jí):

姓名:

學(xué)號(hào):

全文檢索技術(shù)研究與應(yīng)用論文

摘要

全文檢索是現(xiàn)代信息檢索技術(shù)的一個(gè)非常重要的分支, 它是處理非結(jié) 構(gòu)化數(shù)據(jù)的強(qiáng)大工具,也是搜索引擎的核心技術(shù)之一。本文對(duì)中文全文檢 索的有關(guān)技術(shù)進(jìn)行了較為深入的研究。在基于字表的全文索引方面,本文 提出了一種改進(jìn)的倒排索引結(jié)構(gòu),同傳統(tǒng)索引結(jié)構(gòu)相比,更便于索引的構(gòu) 建、維護(hù)、更新。本文的重點(diǎn)放在了全文檢索技術(shù)的應(yīng)用上,對(duì)如何利用 新技術(shù)、 改善檢索系統(tǒng)的結(jié)構(gòu)、 提高檢索系統(tǒng)的性能和效率、 加快檢速度、 不斷適應(yīng)網(wǎng)絡(luò)信息發(fā)展等方面做了重點(diǎn)研究。 全文檢索是一種 IO 密集型的應(yīng)用,以往的全文檢索系統(tǒng)的開(kāi)發(fā)多在 關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)上進(jìn)行。本文針對(duì)全文數(shù)據(jù)庫(kù)的特點(diǎn),深入討論此法弊 端與不足,并提出了在文件系統(tǒng)上構(gòu)建的解決方案。由于目前全文檢索系 統(tǒng)的開(kāi)發(fā)平臺(tái)并不多見(jiàn),本文介紹了一種全文檢索引擎工具包一 Lucerne, 它功能強(qiáng)大, 小巧精悍, 便于嵌入各種應(yīng)用。 近年在世界各地被廣泛使用, 諸如 IBM 等公司都使用其核心代碼。作為一個(gè)開(kāi)源軟件,它為我們學(xué)習(xí)搜 索引擎的核心技術(shù)提供了絕佳的機(jī)會(huì),對(duì)其剖析研究、進(jìn)行二次開(kāi)發(fā),是 一件很有意義的事情。 在應(yīng)用方面,本文主要工作是本校學(xué)位論文全文數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)。

關(guān)鍵字:全文檢索, 倒排文件, Lucerne, 全文數(shù)據(jù)庫(kù), 自動(dòng)分詞

Full-text retrieval is an important information retrieval technology. It is a powerful tool for dealing with nonstructural data, and is one of the key technologies of the search engine. This paper deeply research on Chinese full-text retrieval technology. In the filed of full-text index based on word inverted table, an improved word-based Chinese inverted index structure is proposed which has a better performance than traditional approaches, and convenient for constructing, maintaining and updating index. According. To its characteristic, we design its corresponding optimized search method. Analysis shows that better dynamic performance and high indexing speed is possible using this structure. This paper pays more attention in application of full-text retrieval technologies. How to use ne(來(lái)自: 寫(xiě) 論 文 網(wǎng):計(jì)算機(jī)檢索論文)w technique, optimize the structure of retrieval system, improve performance and efficiency, quicken search speed and adapt the development of current web is also discussed in this paper. Full-text retrieval is an I/O intensive application. Its previous developments are carried on the basis of relation database. This paper deeply discusses the abuse and deficiency of this mode according to its characteristic. Because the development platform of full-text retrieval is absent currently, Lucerne, a full-text search engine toolkit, is introduced into the paper. It has powerful performed acne. And its body is cabinet, capable and vigorous. This Convenient for it embedded applications. At present, Lucerne is employed world abroad, so that many professional companies such as IBM also use its core code. As an open source code soft, Lucerne offer a superexcellent chance to study search engine key technology. It is wrathful to take a parse. Research and carry second development to it. In the application aspect, this paper works mostly in the design and implement of the degree dissertation full-text database in university. KEY WORDS: Full-text,Inverted File, Lucerne,F(xiàn)ull-text Database Divided Syncopation 一、全文檢索技術(shù)簡(jiǎn)介

1.什么是全文檢索

全文檢索是指計(jì)算機(jī)索引程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每一個(gè) 詞建立一個(gè)索

引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶(hù)查詢(xún)時(shí), 檢索程序就根據(jù)事先建立的索引進(jìn)行查找, 并將查找的結(jié)果反饋給用戶(hù)的 檢索方式。這個(gè)過(guò)程類(lèi)似于通過(guò)字典中的檢索字表查字的過(guò)程。 總之,全文檢索技術(shù)是現(xiàn)代信息檢索的一項(xiàng)重要技術(shù)。

2.全文檢索需要解決的問(wèn)題

一套完整的全文檢索一般包括: 1 對(duì)不同文本的統(tǒng)一處理; 2 索引的建立,考慮索引壓縮率,是否支持動(dòng)態(tài)索引更新等問(wèn)題; 3 對(duì)漢語(yǔ)詞語(yǔ)進(jìn)行正確的切分; 4 檢索問(wèn)題,考慮檢索效率,查全率,查準(zhǔn)率等問(wèn)題; 5 排序問(wèn)題。 本文就圍繞以上 5 個(gè)問(wèn)題進(jìn)行分析與研究。

二、建立索引庫(kù)

1.索引文件分類(lèi)

(1)順排檔結(jié)構(gòu)

順排檔文檔是以 Decide 為主序的, 每一文檔下存放各自出現(xiàn)的詞的 ID 及各詞所出現(xiàn)的次數(shù)和具體位置信息,各數(shù)據(jù)項(xiàng)的存儲(chǔ)長(zhǎng)度固定。

(2)倒排檔結(jié)構(gòu)

1) 、一級(jí)索引:一級(jí)索引文件屬于記錄式文件,每一記錄大小固定, 共有三個(gè)數(shù)據(jù)項(xiàng)構(gòu)成, Word ID、 文檔數(shù)、 第一個(gè)文檔開(kāi)始位置。 其中 Word ID 是詞典中詞條的 ID,文檔數(shù)是指這個(gè)詞總共在多少個(gè)文檔中出現(xiàn),文檔 開(kāi)始位置是一個(gè)文件指針指向二級(jí)索引中出現(xiàn)當(dāng)前詞的文檔集中的第一 個(gè)文檔存儲(chǔ)位置, 這個(gè)指針是一個(gè)長(zhǎng)整形值相當(dāng)于指明 了是二級(jí)索引文件 中的第幾條記錄,因?yàn)楦饔涗涢L(zhǎng)度也是固定大小。通過(guò)這個(gè)指向可以直接 定位到二級(jí)索引文件讀取位置,然后讀取 n Docs 個(gè)記錄即可,因?yàn)樗鼈兪?存放在連續(xù)的地址空間上。

2) 、二級(jí)索引:二級(jí)索引也是一種記錄式文件,每一記錄有三個(gè)數(shù)據(jù) 項(xiàng)組成,Doc ID、出現(xiàn)次數(shù)、第一個(gè) Hit 位置。其中 Doc ID 是文檔的 ID, 出現(xiàn)次數(shù)指的是當(dāng)前文檔中某一個(gè)詞出現(xiàn)的次數(shù), 第一個(gè) Hit 位置也是一 個(gè)指針,指向 Hits 文件中的某一位置。通過(guò)這個(gè)指針就可以直接定位到 Hits 位置中的讀取位置,這樣連續(xù)讀取 n Hits 個(gè)記錄就可以將所有當(dāng)前 詞在當(dāng)前文檔中的出現(xiàn)的位置信息都讀入。這些文件將屬于同一 Word ID下的所有文檔記錄按其詞在整個(gè)文檔的權(quán)值從大到小排列。

3) 、Hits 位置信息文件:這些文件每一記錄只有一個(gè)數(shù)據(jù)項(xiàng),即 Hit 位置信息,只記錄了各詞在文檔中出現(xiàn)的位置。將同一詞在同一文檔中的 出現(xiàn)位置按出現(xiàn)的先后排列。 這樣在讀取文檔并提取摘要時(shí)只需對(duì)字符串 從頭到尾掃描一邊即可,不需要來(lái)回掃描。

2.倒排索引壓縮

(1)動(dòng)態(tài)文本集的倒排索引壓縮方案

我們考慮文本集動(dòng)態(tài)性時(shí), 將文本內(nèi)部的動(dòng)態(tài)調(diào)整用兩次文本層次的 調(diào)整代替,即對(duì)一個(gè)文本作文字改動(dòng)視為刪除舊文本和增加新文本,因此 一般只考慮文本層次的索引動(dòng)態(tài)同步調(diào)整。 上文 3.1 節(jié)提到一個(gè)倒排列表 可拆分成三部分序列,事實(shí)上這三部分的動(dòng)態(tài)特性并不相同,根據(jù)這一特 點(diǎn),我們可以采用混合編碼的方案,對(duì)三部分序列實(shí)施不同的壓縮方法, 力求在滿(mǎn)足動(dòng)態(tài)性的前提下,盡可能地實(shí)現(xiàn)高壓縮率。 位置序列

  本文關(guān)鍵詞:計(jì)算機(jī)檢索,由筆耕文化傳播整理發(fā)布。



本文編號(hào):138569

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/xxkj/138569.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)7c095***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美成人黄色一区二区三区| 国产精品推荐在线一区| 日韩精品在线观看完整版| 日韩欧美综合在线播放| 国产精品日韩欧美一区二区| 成人午夜爽爽爽免费视频| 午夜色午夜视频之日本| 日韩美成人免费在线视频| 好吊妞视频免费在线观看| 欧美色欧美亚洲日在线| 国产传媒免费观看视频| 亚洲午夜av一区二区| 精品高清美女精品国产区| 久久碰国产一区二区三区| 国产真人无遮挡免费视频一区| 日韩精品区欧美在线一区 | 免费福利午夜在线观看| 97人妻精品一区二区三区男同 | 免费在线观看激情小视频| 正在播放国产又粗又长| 美女露小粉嫩91精品久久久| 大香伊蕉欧美一区二区三区| 亚洲国产av国产av| 欧美整片精品日韩综合| 亚洲国产av在线观看一区| 中文字幕在线五月婷婷| 黄色在线免费高清观看| 黄片在线免费观看全集| 亚洲永久一区二区三区在线| 日本午夜免费福利视频 | 精品国产亚洲区久久露脸| 嫩草国产福利视频一区二区| 国产女高清在线看免费观看| 日本不卡在线一区二区三区| 日本精品免费在线观看| 欧美日韩人妻中文一区二区| 国产欧美亚洲精品自拍| 激情内射亚洲一区二区三区 | 欧美熟妇一区二区在线| 黄色激情视频中文字幕| 欧美精品激情视频一区|