一種基于BERT的中文NL2SQL模型

發(fā)布時間：2022-01-17 09:40

　　Bert模型為Google開發(fā)的基于Transformer Encoder的大規(guī)模語料預(yù)訓(xùn)練語言模型,在自然語言處理領(lǐng)域（Natural language Processing）近乎各個子領(lǐng)域內(nèi)均獲得了大幅度的突破。本文在基于Bert作為數(shù)據(jù)增強的基礎(chǔ)上,研究對當(dāng)前人工智能領(lǐng)域中的一個實用性任務(wù):NL2SQL（即“自然語言轉(zhuǎn)SQL語句”任務(wù)）。創(chuàng)新地設(shè)計了新型的針對19年發(fā)布的首個中文NL2SQL數(shù)據(jù)集的深度學(xué)習(xí)模型,并達到了87%左右的準確率,接近了當(dāng)前State-Of-The-Art模型X-SQL在英文NL2SQL數(shù)據(jù)集WikiSQL上的表現(xiàn)。

【文章來源】：山東大學(xué)山東省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：53 頁

【學(xué)位級別】：碩士

【部分圖文】：

一種基于BERT的中文NL2SQL模型

圖１．４：中文ＮＬ２ＳＱＬ數(shù)據(jù)集樣例??－５－??

模型圖,數(shù)據(jù)集中,中文,字段

，丁３１３＇１６＿３讓２＜：３〇１４＇＃衰格名稱??”ｔｉｔｉｍｉ：?２０１９年新幵工預(yù)酒”，＃褒格??”ｈｅａｄｅｒ”：?［?＃我格所包含的列名??＂３００域市土地出讓”，??”規(guī)劃速筑面積Ｃ／ｉｍ５）”，??１，??＂ｔｙｐｅｓ”：?［＃農(nóng)格列所祖應(yīng)的笑盤??＂ｔｅｘｔ＂，??＂ｒｅａｌ＂，??］，??”ｒｏｗｓ”：?［＃授格每？行所存儲的道??ｔ??”２００９年?７巧－２０１０年６月＂，??１６８２１２．４，??］??３??｝??圖１．５：中文ＮＬ２ＳＱＬ數(shù)據(jù)集中ＳＱＬ字段說明??下面簡要深度學(xué)習(xí)模型對于該ＮＬ２ＳＱＬ數(shù)據(jù)集如何才能由用戶問題自動構(gòu)??建ＳＱＬ表達式。如下圖所示，對于自然語言查詢語句“二零一九年第四周大??－６－??

子任務(wù),解耦,訓(xùn)練樣本,票房

??？ｔｉｔｌｅ＊：?＊表３，?２０１９年３５４網(wǎng)（２０１９．０１．２８?－?２０１９．０Ｚ０３）全Ｕｆｌ電影票房ＴＯＰ１０＊，??？ｈｅａｄｅｒ、［ｍ名稱？，？閥票房（＂）？，＊票房占比（％）?＇？場均人次？］，??－Ｃ〇ＩａＤ〇ｎ’：’資Ｍ來源：艿思１＆影如４．光人證羚研九所＇??＇ｉｄ＊：?＊４ｄ２９ｄ０５１３ａａａｌｌｅ９ｂ９１１ｆ４０ｆ２４３４４ａ０８＂，??＂ｔｙｐｅｓ＂：?［＂ｌｅｘｌ＊，?＊ｒｅａｌ＇?＂ｒｅａｌ＊－，?＊ｒｅａｌ＊］??）??圖１．６：第一條訓(xùn)練樣本??ＮＬ２ＳＱＬ任務(wù)所需做的是將原任務(wù)解耦為各種子任務(wù)來確定最終生成的ＳＱＬ??表達式的各個模塊，進而構(gòu)建完整語句并經(jīng)其檢索正確答案。??具體地，通過自然語言査詢語句中的“票房總占比是多少”，模型能夠正確??對應(yīng)表格中的第三個特征列“票房占比（％）”，即“ｓｅｌ：⑵”；和對應(yīng)的聚合函??數(shù)，即“ａｇｇ：間”。從自然語言査詢語句中的“大黃蜂和密室逃生”模型能正確??得出”大黃蜂”和”密室逃生”這兩個條件同時確定兩條件間關(guān)系為“ＡＮＤ”，即??確定?“ｃｏｎｄｓ”?和?“ｃｏｎｄ＿ｃｏｎｎ＿ｏｐ”?具體的值。??當(dāng)以上各ＳＱＬ子句均能正確預(yù)測時，ＮＬ１ＳＱＬ模型即可正確生成對應(yīng)上述??樣例的ＳＱＬ表達式如下：??ＳＥＬＥＣＴ?ＳＵＭ（ｃｏｌ＿３）?ＦＲＯＭ?Ｔａｂｌｅ—４ｄ２９ｄ０５１３ａａａｌｌｅ９ｂ９１１ｆ４０ｆ２４３４４ａ０８??ＷＨＥＲＥ?（ｃｏｌ—１?＝＝，大黃蜂，ａｎｄ?ｃｏｌ＿ｌ?＝＝，密室逃生，）??－７－??

【參考文獻】：
期刊論文
[1]基于表格的自動問答研究與展望[J]. 李智,王震,楊賦庚,奚雪峰. 計算機工程與應(yīng)用. 2021(13)

碩士論文
[1]面向自然語言問句的結(jié)構(gòu)化查詢語句生成方法研究與實現(xiàn)[D]. 張立國.天津工業(yè)大學(xué) 2020

本文編號：3594499

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/3594499.html

上一篇：“李子柒” 美食類短視頻傳播效果研究
下一篇：基于安全網(wǎng)絡(luò)編碼的命名數(shù)據(jù)網(wǎng)絡(luò)匿名通信的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于BERT的中文NL2SQL模型