信息距離理論及其在問答系統(tǒng)中的應(yīng)用研究
發(fā)布時(shí)間:2020-03-18 21:45
【摘要】: 計(jì)算詞與詞、句與句等文本片段之間的相似度或相關(guān)性是自然語言問答系統(tǒng)的核心任務(wù)之一。不僅如此,相似度或相關(guān)性計(jì)算在信息提取、信息檢索等很多領(lǐng)域也具有重要的意義。從根本上說,相似度或相似性計(jì)算都可以抽象成度量?jī)蓚(gè)實(shí)體在某種意義下的距離。本文就集中于建立和完善能夠計(jì)算對(duì)象間距離的統(tǒng)一理論——信息距離理論,并對(duì)各種情況下使用信息距離度量文本片段之間的相似度或相關(guān)性做出了深入探索,最后在此基礎(chǔ)上設(shè)計(jì)和實(shí)現(xiàn)了自然語言問答原型系統(tǒng)QUANTA。本文的主要工作如下: ·以傳統(tǒng)的max型信息距離理論為基礎(chǔ),提出了基于Kolmogorov復(fù)雜性的min型信息距離度量。新的度量解決了傳統(tǒng)信息距離在解決實(shí)際問題時(shí)遇到的部分匹配問題,三角不等式問題和密度問題。在正規(guī)化信息距離的普適性方面,我們證明了一系列定理,為傳統(tǒng)理論中的遺留問題做出了確定性結(jié)論。最后,我們發(fā)展了基于條件模式的條件信息距離理論。 ·在信息距離理論的指導(dǎo)下,對(duì)詞與詞之間、句與句之間的相似性進(jìn)行了深入研究;谀J降臈l件信息距離相比傳統(tǒng)信息距離可以提供更強(qiáng)的語義信息,據(jù)此我們?cè)O(shè)計(jì)了一套條件模式計(jì)算詞之間的語義相似度。基于最大交迭原則和min型信息距離的原理,我們提出了估計(jì)條件Kolmogorov復(fù)雜性的算法,以計(jì)算句子與句子之間的相似性。 ·答案確認(rèn)是問答系統(tǒng)中的關(guān)鍵環(huán)節(jié)之一。本文提出了基于條件信息距離的答案確認(rèn)算法,利用條件信息距離的穩(wěn)定性以及刻畫對(duì)象之間相關(guān)度時(shí)的靈活性,將計(jì)算問題與答案相關(guān)性的問題轉(zhuǎn)化成為計(jì)算問題的中心對(duì)象與答案之間關(guān)于特定條件模式的條件信息距離的問題。 ·采用自然語言處理、文本分類和信息檢索領(lǐng)域的一系列技術(shù),以信息距離理論為基礎(chǔ),設(shè)計(jì)并實(shí)現(xiàn)了事實(shí)型問題回答原型系統(tǒng)QUANTA。系統(tǒng)通過問題預(yù)處理、檢索條目生成、文檔/段落檢索、備選答案生成和答案確認(rèn)等五個(gè)模塊回答自然語言提出的事實(shí)型問題。
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2008
【分類號(hào)】:TP3;TP18
本文編號(hào):2589231
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2008
【分類號(hào)】:TP3;TP18
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前3條
1 彭先霖;基于語義網(wǎng)絡(luò)和交互式過濾的動(dòng)物圖像教育資源檢索方法[D];西北大學(xué);2013年
2 耿端;基于同義詞詞林的評(píng)分在中醫(yī)案例自測(cè)系統(tǒng)中的應(yīng)用[D];西北大學(xué);2013年
3 陶小雷;基于Kolmogorov復(fù)雜性的聚類方法研究[D];南京航空航天大學(xué);2013年
,本文編號(hào):2589231
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2589231.html
最近更新
教材專著