中文問答系統(tǒng)中問題分類技術(shù)研究
發(fā)布時間:2020-02-13 02:14
【摘要】:問答(Question Answering, QA)系統(tǒng)允許用戶以自然語言形式進(jìn)行提問,并直接返回精確的答案。與傳統(tǒng)搜索引擎相比,問答系統(tǒng)的查詢方式更加人性化,較好地滿足了用戶快速、準(zhǔn)確地獲取信息的需求,代表著下一代智能搜索引擎的發(fā)展方向。 問題分類通過確定問題的目標(biāo)答案類型,為后續(xù)答案抽取和選擇提供語義限制和約束,縮小候選答案的查找范圍,并針對不同的問題類型選擇不同的答案選擇策略,對提升問答系統(tǒng)的整體性能具有特別重要的意義。 問題分類類似于文本分類,但問題分類比文本分類更難。問題分類的處理對象是簡短的問句,所含特征信息相對較少。對于當(dāng)前基于監(jiān)督學(xué)習(xí)的問題分類來說,其關(guān)鍵在于特征提取,所提取的特征越豐富,分類的精度也就越高。但是,現(xiàn)有研究存在以下兩點不足: (1)特征提取很大程度上依賴于自然語言處理技術(shù)。無論是從現(xiàn)階段的自然語言處理技術(shù)水平來看,還是從問答系統(tǒng)的實時性要求方面考慮,這種特征提取方式不僅會遇到實現(xiàn)技術(shù)上的限制,而且也難以滿足實際問答系統(tǒng)的需求。 (2)忽視了對所提取特征的組合優(yōu)化,F(xiàn)有工作大都根據(jù)所提取特征本身的分類精度,將一些認(rèn)為比較重要的特征組合到一起。這種單純依據(jù)特征本身重要性的特征組合方法具有一定的主觀性,進(jìn)而也影響了實際的問題分類效果。 對于中文問題分類,上述兩點更加明顯。由于中文自然語言處理技術(shù)相對于英文還遠(yuǎn)遠(yuǎn)不夠成熟和完善,加之相應(yīng)的語言處理基礎(chǔ)資源(知識庫、語料庫等)等的缺乏,與英文問題分類相比,問句特征的提取更加困難。同時,由于中文語言表達(dá)的多樣性和復(fù)雜性,所提取的中文問題特征之間的關(guān)聯(lián)性更強(qiáng),對這些特征進(jìn)行組合優(yōu)化就顯得更為重要。 本文針對中文問題分類精度偏低的現(xiàn)狀,從豐富特征集合及優(yōu)化特征組合等層面,來探討提升當(dāng)前中文問題分類性能的具體實現(xiàn)途徑。具體工作如下: (1)針對中文問題分類缺乏豐富的特征,提出一種融合基本特征和詞袋綁定特征的問句特征模型。在詞袋、詞性和詞義等基本特征的基礎(chǔ)上,通過將詞性、詞義等基本特征與詞袋特征分別進(jìn)行綁定,自動獲取一類新的問句特征——詞袋綁定特征,并將基本特征與詞袋綁定特征進(jìn)行融合,以獲取更加高效的問句特征集合。這種新的問句特征模型不僅具有實現(xiàn)簡單、處理開銷小的優(yōu)點,而且有效彌補(bǔ)了基本特征在句法、語義表達(dá)方面的不足。實驗結(jié)果表明,在基本特征基礎(chǔ)上融入詞袋綁定特征以后,取得了與目前同類型問題集上已知最好的分類精度相當(dāng)?shù)姆诸愋Ч?(2)針對(1)中詞袋綁定操作只是將詞性、詞義等基本特征單獨綁定到詞袋上,將其擴(kuò)展為可以將詞性、詞義等若干基本特征同時綁定到詞袋上的多重詞袋綁定(multi-ple bag_of_words binding,MBWB)操作。通過在普通詞袋和主干詞詞袋(trunk_BOW, T_BOW)上分別應(yīng)用MBWB操作,自動生成兩類潛在的問句特征——MBWB特征和T MBWB特征。MBWB操作可以更加充分地挖掘蘊含于基本特征之間的潛在特征,定程度上緩解了現(xiàn)有特征提取方法所面臨的語言技術(shù)限制問題。實驗結(jié)果表明,在基本特征基礎(chǔ)上加入MBWB特征、T_MBWB特征以后,問題分類精度獲得了較大的提升。 (3)針對依據(jù)特征重要性分析(importance analysis,ⅠA)的特征組合方法具有一定的主觀性,提出一種基于重要性和抑制性分析(importance-inhibition analysis,ⅡA)的特征組合方法。該方法在組合問句特征時不僅考慮了單個特征本身的重要性,還考慮了待組合特征之間的抑制性。實驗結(jié)果表明,與IA特征組合方法相比,ⅡA方法總體上要更加高效。 (4)考慮到ⅡA特征組合方法在特征數(shù)量較大時實現(xiàn)效率較低,進(jìn)一步提出一種基于差異性和重要性的特征組合(diversity and importance based feature combination, DIFC)方法。借鑒分類器集成領(lǐng)域中的分類器互補(bǔ)指數(shù)來度量特征之間的差異性,并將差異性的定義由僅考慮樣本集被錯誤分類時的差異(錯分差異),擴(kuò)展為同時考慮樣本集被正確分類時的差異(正分差異);將互補(bǔ)性的定義擴(kuò)展為同時考慮待組合特征與當(dāng)前特征組合的差異性,以及待組合特征本身的重要性。實驗結(jié)果表明,與ⅡA等其他特征組合方法相比,DIFC方法靈活高效,準(zhǔn)確率更高。
【圖文】:
[74]、:^等[25][3。]定義的問題分類體系都是層次式的。其中,,以1^等[25]_提出的層次式問題分類器最為典型。圖1-2給出了該層次式問題分類器的結(jié)構(gòu)。J' Coarse ClassifierX ABBR, E>"TITV. 描 !, %
本文編號:2578995
【圖文】:
[74]、:^等[25][3。]定義的問題分類體系都是層次式的。其中,,以1^等[25]_提出的層次式問題分類器最為典型。圖1-2給出了該層次式問題分類器的結(jié)構(gòu)。J' Coarse ClassifierX ABBR, E>"TITV. 描 !, %
本文編號:2578995
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2578995.html
最近更新
教材專著