一種基于BERT的中文NL2SQL模型
發(fā)布時間:2022-01-17 09:40
Bert模型為Google開發(fā)的基于Transformer Encoder的大規(guī)模語料預(yù)訓(xùn)練語言模型,在自然語言處理領(lǐng)域(Natural language Processing)近乎各個子領(lǐng)域內(nèi)均獲得了大幅度的突破。本文在基于Bert作為數(shù)據(jù)增強的基礎(chǔ)上,研究對當(dāng)前人工智能領(lǐng)域中的一個實用性任務(wù):NL2SQL(即“自然語言轉(zhuǎn)SQL語句”任務(wù))。創(chuàng)新地設(shè)計了新型的針對19年發(fā)布的首個中文NL2SQL數(shù)據(jù)集的深度學(xué)習(xí)模型,并達到了87%左右的準確率,接近了當(dāng)前State-Of-The-Art模型X-SQL在英文NL2SQL數(shù)據(jù)集WikiSQL上的表現(xiàn)。
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.4:中文NL2SQL數(shù)據(jù)集樣例??-5-??
,丁313'16_3讓2<:3〇14'#衰格名稱??”titimi:?2019年新幵工預(yù)酒”,#褒格??”header”:?[?#我格所包含的列名??"300域市土地出讓”,??”規(guī)劃速筑面積C/im5)”,??1,??"types”:?[#農(nóng)格列所祖應(yīng)的笑盤??"text",??"real",??],??”rows”:?[#授格每?行所存儲的道??t??”2009年?7巧-2010年6月",??168212.4,??]??3??}??圖1.5:中文NL2SQL數(shù)據(jù)集中SQL字段說明??下面簡要深度學(xué)習(xí)模型對于該NL2SQL數(shù)據(jù)集如何才能由用戶問題自動構(gòu)??建SQL表達式。如下圖所示,對于自然語言查詢語句“二零一九年第四周大??-6-??
???title*:?*表3,?2019年354網(wǎng)(2019.01.28?-?2019.0Z03)全Ufl電影票房TOP10*,???header、[m名稱?,?閥票房(")?,*票房占比(%)?'?場均人次?],??-C〇IaD〇n’:’資M來源:艿思1&影如4.光人證羚研九所'??'id*:?*4d29d0513aaalle9b911f40f24344a08",??"types":?["lexl*,?*real'?"real*-,?*real*]??)??圖1.6:第一條訓(xùn)練樣本??NL2SQL任務(wù)所需做的是將原任務(wù)解耦為各種子任務(wù)來確定最終生成的SQL??表達式的各個模塊,進而構(gòu)建完整語句并經(jīng)其檢索正確答案。??具體地,通過自然語言査詢語句中的“票房總占比是多少”,模型能夠正確??對應(yīng)表格中的第三個特征列“票房占比(%)”,即“sel:⑵”;和對應(yīng)的聚合函??數(shù),即“agg:間”。從自然語言査詢語句中的“大黃蜂和密室逃生”模型能正確??得出”大黃蜂”和”密室逃生”這兩個條件同時確定兩條件間關(guān)系為“AND”,即??確定?“conds”?和?“cond_conn_op”?具體的值。??當(dāng)以上各SQL子句均能正確預(yù)測時,NL1SQL模型即可正確生成對應(yīng)上述??樣例的SQL表達式如下:??SELECT?SUM(col_3)?FROM?Table—4d29d0513aaalle9b911f40f24344a08??WHERE?(col—1?==,大黃蜂,and?col_l?==,密室逃生,)??-7-??
【參考文獻】:
期刊論文
[1]基于表格的自動問答研究與展望[J]. 李智,王震,楊賦庚,奚雪峰. 計算機工程與應(yīng)用. 2021(13)
碩士論文
[1]面向自然語言問句的結(jié)構(gòu)化查詢語句生成方法研究與實現(xiàn)[D]. 張立國.天津工業(yè)大學(xué) 2020
本文編號:3594499
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.4:中文NL2SQL數(shù)據(jù)集樣例??-5-??
,丁313'16_3讓2<:3〇14'#衰格名稱??”titimi:?2019年新幵工預(yù)酒”,#褒格??”header”:?[?#我格所包含的列名??"300域市土地出讓”,??”規(guī)劃速筑面積C/im5)”,??1,??"types”:?[#農(nóng)格列所祖應(yīng)的笑盤??"text",??"real",??],??”rows”:?[#授格每?行所存儲的道??t??”2009年?7巧-2010年6月",??168212.4,??]??3??}??圖1.5:中文NL2SQL數(shù)據(jù)集中SQL字段說明??下面簡要深度學(xué)習(xí)模型對于該NL2SQL數(shù)據(jù)集如何才能由用戶問題自動構(gòu)??建SQL表達式。如下圖所示,對于自然語言查詢語句“二零一九年第四周大??-6-??
???title*:?*表3,?2019年354網(wǎng)(2019.01.28?-?2019.0Z03)全Ufl電影票房TOP10*,???header、[m名稱?,?閥票房(")?,*票房占比(%)?'?場均人次?],??-C〇IaD〇n’:’資M來源:艿思1&影如4.光人證羚研九所'??'id*:?*4d29d0513aaalle9b911f40f24344a08",??"types":?["lexl*,?*real'?"real*-,?*real*]??)??圖1.6:第一條訓(xùn)練樣本??NL2SQL任務(wù)所需做的是將原任務(wù)解耦為各種子任務(wù)來確定最終生成的SQL??表達式的各個模塊,進而構(gòu)建完整語句并經(jīng)其檢索正確答案。??具體地,通過自然語言査詢語句中的“票房總占比是多少”,模型能夠正確??對應(yīng)表格中的第三個特征列“票房占比(%)”,即“sel:⑵”;和對應(yīng)的聚合函??數(shù),即“agg:間”。從自然語言査詢語句中的“大黃蜂和密室逃生”模型能正確??得出”大黃蜂”和”密室逃生”這兩個條件同時確定兩條件間關(guān)系為“AND”,即??確定?“conds”?和?“cond_conn_op”?具體的值。??當(dāng)以上各SQL子句均能正確預(yù)測時,NL1SQL模型即可正確生成對應(yīng)上述??樣例的SQL表達式如下:??SELECT?SUM(col_3)?FROM?Table—4d29d0513aaalle9b911f40f24344a08??WHERE?(col—1?==,大黃蜂,and?col_l?==,密室逃生,)??-7-??
【參考文獻】:
期刊論文
[1]基于表格的自動問答研究與展望[J]. 李智,王震,楊賦庚,奚雪峰. 計算機工程與應(yīng)用. 2021(13)
碩士論文
[1]面向自然語言問句的結(jié)構(gòu)化查詢語句生成方法研究與實現(xiàn)[D]. 張立國.天津工業(yè)大學(xué) 2020
本文編號:3594499
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3594499.html
最近更新
教材專著