一種基于BERT的中文NL2SQL模型
發(fā)布時間:2022-01-17 09:40
Bert模型為Google開發(fā)的基于Transformer Encoder的大規(guī)模語料預訓練語言模型,在自然語言處理領域(Natural language Processing)近乎各個子領域內均獲得了大幅度的突破。本文在基于Bert作為數據增強的基礎上,研究對當前人工智能領域中的一個實用性任務:NL2SQL(即“自然語言轉SQL語句”任務)。創(chuàng)新地設計了新型的針對19年發(fā)布的首個中文NL2SQL數據集的深度學習模型,并達到了87%左右的準確率,接近了當前State-Of-The-Art模型X-SQL在英文NL2SQL數據集WikiSQL上的表現。
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:53 頁
【學位級別】:碩士
【部分圖文】:
圖1.4:中文NL2SQL數據集樣例??-5-??
,。常保常В保叮撸匙專玻迹海畅枺保矗ВKジ衩Q??”titimi:?2019年新幵工預酒”,#褒格??”header”:?[?#我格所包含的列名??"300域市土地出讓”,??”規(guī)劃速筑面積C/im5)”,??1,??"types”:?[#農格列所祖應的笑盤??"text",??"real",??],??”rows”:?[#授格每?行所存儲的道??t??”2009年?7巧-2010年6月",??168212.4,??]??3??}??圖1.5:中文NL2SQL數據集中SQL字段說明??下面簡要深度學習模型對于該NL2SQL數據集如何才能由用戶問題自動構??建SQL表達式。如下圖所示,對于自然語言查詢語句“二零一九年第四周大??-6-??
???title*:?*表3,?2019年354網(2019.01.28?-?2019.0Z03)全Ufl電影票房TOP10*,???header、[m名稱?,?閥票房(")?,*票房占比(%)?'?場均人次?],??-C〇IaD〇n’:’資M來源:艿思1&影如4.光人證羚研九所'??'id*:?*4d29d0513aaalle9b911f40f24344a08",??"types":?["lexl*,?*real'?"real*-,?*real*]??)??圖1.6:第一條訓練樣本??NL2SQL任務所需做的是將原任務解耦為各種子任務來確定最終生成的SQL??表達式的各個模塊,進而構建完整語句并經其檢索正確答案。??具體地,通過自然語言査詢語句中的“票房總占比是多少”,模型能夠正確??對應表格中的第三個特征列“票房占比(%)”,即“sel:⑵”;和對應的聚合函??數,即“agg:間”。從自然語言査詢語句中的“大黃蜂和密室逃生”模型能正確??得出”大黃蜂”和”密室逃生”這兩個條件同時確定兩條件間關系為“AND”,即??確定?“conds”?和?“cond_conn_op”?具體的值。??當以上各SQL子句均能正確預測時,NL1SQL模型即可正確生成對應上述??樣例的SQL表達式如下:??SELECT?SUM(col_3)?FROM?Table—4d29d0513aaalle9b911f40f24344a08??WHERE?(col—1?==,大黃蜂,and?col_l?==,密室逃生,)??-7-??
【參考文獻】:
期刊論文
[1]基于表格的自動問答研究與展望[J]. 李智,王震,楊賦庚,奚雪峰. 計算機工程與應用. 2021(13)
碩士論文
[1]面向自然語言問句的結構化查詢語句生成方法研究與實現[D]. 張立國.天津工業(yè)大學 2020
本文編號:3594499
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:53 頁
【學位級別】:碩士
【部分圖文】:
圖1.4:中文NL2SQL數據集樣例??-5-??
,。常保常В保叮撸匙專玻迹海畅枺保矗ВKジ衩Q??”titimi:?2019年新幵工預酒”,#褒格??”header”:?[?#我格所包含的列名??"300域市土地出讓”,??”規(guī)劃速筑面積C/im5)”,??1,??"types”:?[#農格列所祖應的笑盤??"text",??"real",??],??”rows”:?[#授格每?行所存儲的道??t??”2009年?7巧-2010年6月",??168212.4,??]??3??}??圖1.5:中文NL2SQL數據集中SQL字段說明??下面簡要深度學習模型對于該NL2SQL數據集如何才能由用戶問題自動構??建SQL表達式。如下圖所示,對于自然語言查詢語句“二零一九年第四周大??-6-??
???title*:?*表3,?2019年354網(2019.01.28?-?2019.0Z03)全Ufl電影票房TOP10*,???header、[m名稱?,?閥票房(")?,*票房占比(%)?'?場均人次?],??-C〇IaD〇n’:’資M來源:艿思1&影如4.光人證羚研九所'??'id*:?*4d29d0513aaalle9b911f40f24344a08",??"types":?["lexl*,?*real'?"real*-,?*real*]??)??圖1.6:第一條訓練樣本??NL2SQL任務所需做的是將原任務解耦為各種子任務來確定最終生成的SQL??表達式的各個模塊,進而構建完整語句并經其檢索正確答案。??具體地,通過自然語言査詢語句中的“票房總占比是多少”,模型能夠正確??對應表格中的第三個特征列“票房占比(%)”,即“sel:⑵”;和對應的聚合函??數,即“agg:間”。從自然語言査詢語句中的“大黃蜂和密室逃生”模型能正確??得出”大黃蜂”和”密室逃生”這兩個條件同時確定兩條件間關系為“AND”,即??確定?“conds”?和?“cond_conn_op”?具體的值。??當以上各SQL子句均能正確預測時,NL1SQL模型即可正確生成對應上述??樣例的SQL表達式如下:??SELECT?SUM(col_3)?FROM?Table—4d29d0513aaalle9b911f40f24344a08??WHERE?(col—1?==,大黃蜂,and?col_l?==,密室逃生,)??-7-??
【參考文獻】:
期刊論文
[1]基于表格的自動問答研究與展望[J]. 李智,王震,楊賦庚,奚雪峰. 計算機工程與應用. 2021(13)
碩士論文
[1]面向自然語言問句的結構化查詢語句生成方法研究與實現[D]. 張立國.天津工業(yè)大學 2020
本文編號:3594499
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3594499.html