基于同異性遷移學(xué)習(xí)的短文本分類技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2021-03-14 09:54
隨著人工智能及自然語(yǔ)言處理技術(shù)的快速發(fā)展,智能客服系統(tǒng)在學(xué)術(shù)與工業(yè)界獲得了越來(lái)越多的關(guān)注。其中,基于常見(jiàn)問(wèn)題及解答庫(kù)(Frequently Asked Question,FAQ)的智能客服系統(tǒng),由于其簡(jiǎn)單、高效、正確率高等優(yōu)點(diǎn),被廣泛應(yīng)用于許多商業(yè)服務(wù)。目前,基于FAQ的智能客服系統(tǒng)所依賴的短文本分類技術(shù)已取得長(zhǎng)足進(jìn)步,尤其在具有大規(guī)模平衡數(shù)據(jù)的前提下有良好表現(xiàn)。然而,實(shí)際的FAQ數(shù)據(jù)往往是不平衡的,即一些標(biāo)準(zhǔn)問(wèn)題具有多個(gè)擴(kuò)展問(wèn)題,而另一些標(biāo)準(zhǔn)問(wèn)題只有極少數(shù)甚至無(wú)擴(kuò)展問(wèn)題,這就導(dǎo)致依賴大規(guī)模平衡數(shù)據(jù)的短文本分類技術(shù)在實(shí)際的智能客服系統(tǒng)中難以取得令人滿意的效果。本文提出了一種基于同異性遷移學(xué)習(xí)的短文本分類技術(shù)。通過(guò)發(fā)現(xiàn)大樣本和小樣本間的共同性和差異性,生成小樣本的虛擬樣本,進(jìn)而緩解數(shù)據(jù)不平衡的現(xiàn)狀,提升短文本分類正確率,最終提升智能客服系統(tǒng)的性能。具體說(shuō)來(lái),首先采用文本相似度度量技術(shù),為小樣本發(fā)現(xiàn)可遷移的大樣本;接著構(gòu)建基于詞模板的樣本生成器得到基礎(chǔ)虛擬樣本;然后以小樣本和相似大樣本為輸入、以基礎(chǔ)虛擬樣本為輸出,訓(xùn)練一個(gè)基于編解碼框架的虛擬樣本生成器,為更多的小樣本生成大量的虛擬樣本;最...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1?一個(gè)典型的基于FAQ的智能客服系統(tǒng)??1??
圖1-2?—個(gè)典型的FAQ庫(kù)??短文本(Short?Text)通常指字?jǐn)?shù)簡(jiǎn)短的一種文本形式,如新聞標(biāo)題、問(wèn)題文本、??文獻(xiàn)摘要等
圖2-1前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型??圖2-1所示,NNLM包括三層,即輸入層(Input?Layer),隱藏層(HiddenLayer)??
【參考文獻(xiàn)】:
期刊論文
[1]基于搜索引擎的詞匯語(yǔ)義相似度計(jì)算方法[J]. 陳海燕. 計(jì)算機(jī)科學(xué). 2015(01)
本文編號(hào):3081954
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1?一個(gè)典型的基于FAQ的智能客服系統(tǒng)??1??
圖1-2?—個(gè)典型的FAQ庫(kù)??短文本(Short?Text)通常指字?jǐn)?shù)簡(jiǎn)短的一種文本形式,如新聞標(biāo)題、問(wèn)題文本、??文獻(xiàn)摘要等
圖2-1前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型??圖2-1所示,NNLM包括三層,即輸入層(Input?Layer),隱藏層(HiddenLayer)??
【參考文獻(xiàn)】:
期刊論文
[1]基于搜索引擎的詞匯語(yǔ)義相似度計(jì)算方法[J]. 陳海燕. 計(jì)算機(jī)科學(xué). 2015(01)
本文編號(hào):3081954
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3081954.html
最近更新
教材專著