信息距離理論及其在問(wèn)答系統(tǒng)中的應(yīng)用研究
發(fā)布時(shí)間:2020-03-18 21:45
【摘要】: 計(jì)算詞與詞、句與句等文本片段之間的相似度或相關(guān)性是自然語(yǔ)言問(wèn)答系統(tǒng)的核心任務(wù)之一。不僅如此,相似度或相關(guān)性計(jì)算在信息提取、信息檢索等很多領(lǐng)域也具有重要的意義。從根本上說(shuō),相似度或相似性計(jì)算都可以抽象成度量?jī)蓚(gè)實(shí)體在某種意義下的距離。本文就集中于建立和完善能夠計(jì)算對(duì)象間距離的統(tǒng)一理論——信息距離理論,并對(duì)各種情況下使用信息距離度量文本片段之間的相似度或相關(guān)性做出了深入探索,最后在此基礎(chǔ)上設(shè)計(jì)和實(shí)現(xiàn)了自然語(yǔ)言問(wèn)答原型系統(tǒng)QUANTA。本文的主要工作如下: ·以傳統(tǒng)的max型信息距離理論為基礎(chǔ),提出了基于Kolmogorov復(fù)雜性的min型信息距離度量。新的度量解決了傳統(tǒng)信息距離在解決實(shí)際問(wèn)題時(shí)遇到的部分匹配問(wèn)題,三角不等式問(wèn)題和密度問(wèn)題。在正規(guī)化信息距離的普適性方面,我們證明了一系列定理,為傳統(tǒng)理論中的遺留問(wèn)題做出了確定性結(jié)論。最后,我們發(fā)展了基于條件模式的條件信息距離理論。 ·在信息距離理論的指導(dǎo)下,對(duì)詞與詞之間、句與句之間的相似性進(jìn)行了深入研究;谀J降臈l件信息距離相比傳統(tǒng)信息距離可以提供更強(qiáng)的語(yǔ)義信息,據(jù)此我們?cè)O(shè)計(jì)了一套條件模式計(jì)算詞之間的語(yǔ)義相似度;谧畲蠼坏瓌t和min型信息距離的原理,我們提出了估計(jì)條件Kolmogorov復(fù)雜性的算法,以計(jì)算句子與句子之間的相似性。 ·答案確認(rèn)是問(wèn)答系統(tǒng)中的關(guān)鍵環(huán)節(jié)之一。本文提出了基于條件信息距離的答案確認(rèn)算法,利用條件信息距離的穩(wěn)定性以及刻畫(huà)對(duì)象之間相關(guān)度時(shí)的靈活性,將計(jì)算問(wèn)題與答案相關(guān)性的問(wèn)題轉(zhuǎn)化成為計(jì)算問(wèn)題的中心對(duì)象與答案之間關(guān)于特定條件模式的條件信息距離的問(wèn)題。 ·采用自然語(yǔ)言處理、文本分類(lèi)和信息檢索領(lǐng)域的一系列技術(shù),以信息距離理論為基礎(chǔ),設(shè)計(jì)并實(shí)現(xiàn)了事實(shí)型問(wèn)題回答原型系統(tǒng)QUANTA。系統(tǒng)通過(guò)問(wèn)題預(yù)處理、檢索條目生成、文檔/段落檢索、備選答案生成和答案確認(rèn)等五個(gè)模塊回答自然語(yǔ)言提出的事實(shí)型問(wèn)題。
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2008
【分類(lèi)號(hào)】:TP3;TP18
本文編號(hào):2589231
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2008
【分類(lèi)號(hào)】:TP3;TP18
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前3條
1 彭先霖;基于語(yǔ)義網(wǎng)絡(luò)和交互式過(guò)濾的動(dòng)物圖像教育資源檢索方法[D];西北大學(xué);2013年
2 耿端;基于同義詞詞林的評(píng)分在中醫(yī)案例自測(cè)系統(tǒng)中的應(yīng)用[D];西北大學(xué);2013年
3 陶小雷;基于Kolmogorov復(fù)雜性的聚類(lèi)方法研究[D];南京航空航天大學(xué);2013年
,本文編號(hào):2589231
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2589231.html
最近更新
教材專(zhuān)著