問答系統(tǒng)的答案優(yōu)化方法研究
發(fā)布時間:2018-01-02 15:22
本文關(guān)鍵詞:問答系統(tǒng)的答案優(yōu)化方法研究 出處:《哈爾濱工業(yè)大學(xué)》2017年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 問答系統(tǒng) 語法錯誤修正 語義關(guān)系抽取 弱監(jiān)督學(xué)習(xí) 上下文建模 深度學(xué)習(xí) 用戶反饋
【摘要】:隨著大數(shù)據(jù)時代的到來和計算機(jī)硬件體系的不斷更新,人工智能在學(xué)術(shù)界和產(chǎn)業(yè)界都取得了長足的發(fā)展,如人機(jī)博弈、自動控制等。自動問答是人工智能的一個重要分支,它建立在自然語言理解的基礎(chǔ)上,能夠針對真實環(huán)境下用戶的提問給出精簡準(zhǔn)確的反饋以滿足其信息需求。問答系統(tǒng)的性能往往依賴于內(nèi)容準(zhǔn)確、表達(dá)合理的高質(zhì)量知識庫,其來源主要為互聯(lián)網(wǎng)上大規(guī)模的異構(gòu)信息;然而,由于互聯(lián)網(wǎng)用戶群體的復(fù)雜性和知識抽取方法的不完備性,問答系統(tǒng)知識庫中存儲的候選答案常會出現(xiàn)表述不合理的情形,例如答案語句的語法表達(dá)不當(dāng)、語義關(guān)系表述失準(zhǔn)或給出的回復(fù)對上下文信息考慮不足等,另外,問答系統(tǒng)在線運行時的復(fù)雜環(huán)境也使得不可靠答案的出現(xiàn)難以避免;谝陨戏治,本文提出問答系統(tǒng)的答案優(yōu)化方法,旨在對答案中潛在的不合理表述進(jìn)行校驗,從而優(yōu)化答案質(zhì)量,提高問答系統(tǒng)的回復(fù)能力。主要研究內(nèi)容包括:1、基于深度卷積神經(jīng)網(wǎng)絡(luò)的答案語法錯誤修正。互聯(lián)網(wǎng)用戶群體的復(fù)雜性使得不符合語法表達(dá)規(guī)范語句的存在難以避免,而互聯(lián)網(wǎng)作為自動問答系統(tǒng)知識庫的主要來源,其語言表達(dá)的不規(guī)范性將直接影響到系統(tǒng)生成答案的質(zhì)量,進(jìn)而影響用戶的體驗。本文從語法層次出發(fā),主要探索如何自動發(fā)現(xiàn)語句中的語法表達(dá)錯誤問題并加以修正,以保證系統(tǒng)返回答案中語法表達(dá)的合理性。為此,本文提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的語法錯誤檢測模型,模型使用詞向量和詞性向量作為輸入,通過卷積神經(jīng)網(wǎng)絡(luò)對候選樣本的上下文進(jìn)行特征學(xué)習(xí)。模型學(xué)習(xí)的目標(biāo)函數(shù)為最大化預(yù)測值和觀察值之間的邊緣間隔。實驗證明,與傳統(tǒng)統(tǒng)計學(xué)習(xí)方法相比,本文提出的深度模型對語法錯誤產(chǎn)生時的上下文特征具備更強(qiáng)的學(xué)習(xí)能力,并能取得比傳統(tǒng)方法更優(yōu)的結(jié)果。2、基于弱監(jiān)督學(xué)習(xí)的答案語義關(guān)系抽取。大規(guī)模語義知識庫可以為問答系統(tǒng)回答事實類問題提供支持,但由于知識抽取等方法仍存在一定局限性,語義知識庫中難免會存在不準(zhǔn)確、不合理或過時的語義信息,從而導(dǎo)致答案中對于語義的表述出現(xiàn)異常。本文從語義層次考慮,主要研究如何根據(jù)已有的小規(guī)模語義知識庫和較新的大規(guī)模自由文本學(xué)習(xí)新的語義關(guān)系,從而更新和補(bǔ)充問答系統(tǒng)的語義知識庫。弱監(jiān)督學(xué)習(xí)是實體語義關(guān)系抽取的主要路線之一,也是對知識庫進(jìn)行更新和補(bǔ)充的重要途徑,本文在弱監(jiān)督學(xué)習(xí)的基礎(chǔ)上提出基于高質(zhì)量樣本的實體語義關(guān)系抽取模型。在參數(shù)學(xué)習(xí)過程中,模型通過應(yīng)用多種評價策略來選擇高質(zhì)量訓(xùn)練樣本,以降低不可靠樣本對分類的影響、優(yōu)化語義關(guān)系分類器。實驗證明,基于高質(zhì)量樣本的實體語義關(guān)系抽取模型可以有效降低訓(xùn)練樣本集合中的噪聲,與基準(zhǔn)方法相比,模型能夠取得更優(yōu)的F_1值和P-R曲線。3、基于上下文的社區(qū)問答答案選擇。社區(qū)問答網(wǎng)站為問答系統(tǒng)知識庫的構(gòu)建提供了大量資源,而如何利用上下文信息進(jìn)行答案選擇是針對社區(qū)問答所開展研究中的一個難點。本文從語境層次考慮,主要研究如何高效、全面地學(xué)習(xí)和利用上下文信息來進(jìn)行答案選擇(即問答對抽取)。通過分析發(fā)現(xiàn),社區(qū)問答的答案質(zhì)量與內(nèi)容關(guān)聯(lián)和標(biāo)簽依賴兩種上下文關(guān)系密切相關(guān),為此,本文提出基于上下文的答案選擇深度模型,該模型通過深度卷積神經(jīng)網(wǎng)絡(luò)對問題和答案進(jìn)行編碼,利用融合注意力機(jī)制的長短時記憶網(wǎng)絡(luò)對內(nèi)容關(guān)聯(lián)進(jìn)行學(xué)習(xí),并使用條件隨機(jī)場對標(biāo)簽依賴進(jìn)行學(xué)習(xí)。實驗證明,兩種上下文關(guān)系在答案選擇過程中不可或缺,提出的模型相較于對比方法能夠獲得更優(yōu)的F1值。4、基于用戶反饋的不可靠答案識別。用戶反饋是自動問答系統(tǒng)成長和進(jìn)化的良藥,除了顯式的用戶評分,人機(jī)交互過程中的用戶行為也在一定程度上反映了答案的優(yōu)劣。本文從語境層次考慮,主要研究如何有效地捕捉真實人機(jī)交互過程中用戶所反饋出的不可靠答案,從而為答案的進(jìn)一步優(yōu)化或知識庫的更新提供依據(jù)。通過分析發(fā)現(xiàn),對話系統(tǒng)中的用戶反饋包括用戶意圖和用戶情感兩個方面,系統(tǒng)回復(fù)的不可靠答案通常由用戶進(jìn)一步的動作或表現(xiàn)出的情緒反映出來。為了研究人機(jī)對話中不可靠答案與用戶反饋之間的關(guān)系,本文首先構(gòu)建了一個真實環(huán)境下的對話數(shù)據(jù)集并對其中的不可靠答案進(jìn)行標(biāo)注和分析,然后通過定義一系列語法和語義等特征來描述兩種用戶反饋因素,并利用有監(jiān)督學(xué)習(xí)方法對不可靠答案進(jìn)行識別。實驗證明考慮用戶意圖和情感兩方面因素能夠更好的識別出不可靠答案,從而為系統(tǒng)優(yōu)化提供更有價值的線索。
[Abstract]:In this paper , based on deep convolution neural network , this paper puts forward an answer optimization method based on deep convolution neural network , which can be used as the main source of the knowledge base of automatic question and answer system . This paper studies how to efficiently and comprehensively learn and use context information to study the answers . In order to study the relationship between user ' s intention and user ' s feedback , this paper mainly studies how to efficiently and comprehensively study and use context information to identify the answers .
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:TP391.1;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學(xué)報;2010年08期
2 范士喜;王曉龍;王軒;張耀允;;面向真實環(huán)境的問句分析方法[J];電子學(xué)報;2010年05期
,本文編號:1369791
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1369791.html
最近更新
教材專著