基于依存句法分析的受限自然語言查詢接口研究
發(fā)布時(shí)間:2021-07-03 09:21
自然語言是人類社會(huì)中最主要的信息載體,現(xiàn)實(shí)世界中存儲(chǔ)和交換的大部分?jǐn)?shù)據(jù)都是通過自然語言描述的,同時(shí),它也是人與機(jī)器交互的重要媒介。數(shù)據(jù)庫自然語言查詢接口允許人們使用自然語言進(jìn)行數(shù)據(jù)檢索,不需要任何正式查詢語言、數(shù)據(jù)庫模型或底層數(shù)據(jù)的先驗(yàn)知識(shí),因此對(duì)存儲(chǔ)和檢索信息具有重要意義。理想的自然語言接口應(yīng)當(dāng)支持用戶針對(duì)底層數(shù)據(jù)庫提出的任意查詢,并以最低的代價(jià)獲取準(zhǔn)確的信息。由于受到自然語言處理技術(shù)的限制,實(shí)踐上通常將查詢語句的支持范圍限定為一個(gè)受詞匯、句式等方面約束的自然語言的子集,在該范圍內(nèi)實(shí)現(xiàn)受限的自然語言查詢接口。本文的研究工作主要包括以下方面:(1)設(shè)計(jì)了一個(gè)通用數(shù)據(jù)庫自然語言接口模型,在程序設(shè)計(jì)上將知識(shí)庫構(gòu)建與源代碼相分離。根據(jù)通用接口的抽象模型,將自然語言到正式數(shù)據(jù)庫語言的轉(zhuǎn)換分解為自然語言到概念模型,再到結(jié)構(gòu)化語言的兩層映射,并以此為依據(jù)將系統(tǒng)劃分為詞法分析、句法分析和結(jié)構(gòu)化語句生成三大模塊。通過構(gòu)建獨(dú)立的專用知識(shí)庫,實(shí)現(xiàn)系統(tǒng)的擴(kuò)展性。(2)本文采用統(tǒng)計(jì)與詞典相結(jié)合的N-最短路徑分詞方法,根據(jù)知識(shí)庫優(yōu)先級(jí)設(shè)定路徑權(quán)重,并在分詞過程中為每個(gè)詞語標(biāo)記關(guān)系數(shù)據(jù)的語義標(biāo)簽。同時(shí),提出了一種...
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NLIDB系統(tǒng)流程圖
第二章NLIDB系統(tǒng)模型與知識(shí)庫構(gòu)建9圖2.1NLIDB的抽象模型(1)語言模型向概念模型的映射:在將NLQ轉(zhuǎn)換為正式的數(shù)據(jù)庫查詢之前,需要首先將其理解并解釋為一個(gè)或多個(gè)中間結(jié)構(gòu)[41],以概念模型中的元素表示查詢語句的含義。(2)概念模型向數(shù)據(jù)模型的映射:將NLQ的中間結(jié)構(gòu)進(jìn)一步解釋和轉(zhuǎn)換為針對(duì)底層數(shù)據(jù)庫的結(jié)構(gòu)化查詢語句。以映射的層級(jí)為依據(jù),將系統(tǒng)模塊化為三個(gè)組件:①自然語言解析;②結(jié)構(gòu)化語句生成;③數(shù)據(jù)庫查詢。其中,①、②分別完成了自然語言到中間結(jié)構(gòu),再到結(jié)構(gòu)化語言的映射。除此之外,現(xiàn)有NLIDB通常還包括以下一個(gè)或兩個(gè)組件:(1)知識(shí)庫:它存儲(chǔ)與基礎(chǔ)數(shù)據(jù)相關(guān)的領(lǐng)域知識(shí),幫助系統(tǒng)更好地解析NLQ。(2)反饋生成:向用戶提供關(guān)于系統(tǒng)對(duì)NLQ處理的反饋,或請(qǐng)求來自用戶的附加輸入以幫助系統(tǒng)理解NLQ。NLIDB的系統(tǒng)流程圖可以表述為圖2.2。圖2.2NLIDB系統(tǒng)流程圖
昆明理工大學(xué)專業(yè)學(xué)位碩士學(xué)位論文102.2.2NLIDB系統(tǒng)模型本文研究的重點(diǎn)是NLQ向SQL的轉(zhuǎn)換過程。自然語言解析是通過對(duì)查詢語句進(jìn)行詞法分析與句法分析,從而將自然語言映射到中間結(jié)構(gòu)。結(jié)構(gòu)化語句生成則負(fù)責(zé)從中間結(jié)構(gòu)轉(zhuǎn)換為正式的數(shù)據(jù)庫查詢。將交由數(shù)據(jù)庫執(zhí)行。根據(jù)系統(tǒng)流程,可以劃分為詞法分析、句法分析以及結(jié)構(gòu)化語句生成三大模塊,其內(nèi)部相互獨(dú)立,但模塊之間相互依賴,下一模塊受到上一模塊輸出結(jié)果的影響。知識(shí)庫是整個(gè)系統(tǒng)的支柱,為獲得正確的SQL提供保障,在系統(tǒng)設(shè)計(jì)上,將知識(shí)庫與主程序相分離,以便于后期擴(kuò)展或移植。本文的自然語言接口模型結(jié)構(gòu)如圖2.3所示。圖2.3受限漢語自然語言接口模型結(jié)構(gòu)各模塊的簡要分析與主要功能如下:(1)知識(shí)庫知識(shí)庫是計(jì)算機(jī)理解自然語言的基礎(chǔ),為實(shí)現(xiàn)接口的通用性提供了可能。本文根據(jù)知識(shí)的適用范圍,將知識(shí)庫劃分為通用知識(shí)庫和專用知識(shí)庫兩部分。通用知識(shí)庫由分詞詞典、通用數(shù)據(jù)庫詞典與同義詞詞林組成,不受應(yīng)用領(lǐng)域的影響。同義詞詞林是一個(gè)語義知識(shí)庫,主要用于同義詞識(shí)別,但是為了保證轉(zhuǎn)換的準(zhǔn)確性,本文保留了同義詞詞庫作為補(bǔ)充。專用知識(shí)庫將關(guān)注重點(diǎn)放在數(shù)據(jù)庫對(duì)象上,由專用分詞庫、同義詞詞庫、實(shí)體知識(shí)庫、域名知識(shí)庫、復(fù)合概念知識(shí)庫以及枚舉值知識(shí)庫組成。
【參考文獻(xiàn)】:
期刊論文
[1]《同義詞詞林》的嵌入表示與應(yīng)用評(píng)估[J]. 段宇光,劉揚(yáng),俞士汶. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[2]融合路徑與信息內(nèi)容的詞語語義相似度計(jì)算[J]. 郭承湘,唐忠,石懷明. 廣西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[3]基于HMM中文詞性標(biāo)注研究[J]. 楊榮根,楊忠. 金陵科技學(xué)院學(xué)報(bào). 2017(01)
[4]本體與條件隨機(jī)場結(jié)合的涉農(nóng)商品名稱抽取與類別標(biāo)注[J]. 黃念娥,黃河,王儒敬. 計(jì)算機(jī)應(yīng)用. 2017(01)
[5]基于復(fù)述的中文自然語言接口[J]. 張俊馳,胡婕,劉夢(mèng)赤. 計(jì)算機(jī)應(yīng)用. 2016(05)
[6]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(02)
[7]面向知識(shí)庫的中文自然語言問句的語義理解[J]. 許坤,馮巖松,趙東巖,陳立偉,鄒磊. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(01)
[8]基于實(shí)體的數(shù)據(jù)庫漢語問句查詢接口研究[J]. 朱文海,黃小斌. 現(xiàn)代計(jì)算機(jī). 2013(10)
[9]自然語言向SQL代碼的轉(zhuǎn)化方法[J]. 楊鶴標(biāo),陳力. 計(jì)算機(jī)工程. 2011(23)
[10]基于Ontology的數(shù)據(jù)庫自然語言查詢接口的研究[J]. 李虎,田金文,王緩緩,石勇. 計(jì)算機(jī)科學(xué). 2010(06)
博士論文
[1]關(guān)于計(jì)算機(jī)理解自然查詢語言的研究[D]. 鄭逢斌.西南交通大學(xué) 2004
[2]中文數(shù)據(jù)庫自然語言查詢處理研究[D]. 孟小峰.中國科學(xué)院研究生院(計(jì)算技術(shù)研究所) 1999
碩士論文
[1]基于條件隨機(jī)場的中文分詞技術(shù)的研究與實(shí)現(xiàn)[D]. 徐曉芳.南京郵電大學(xué) 2018
[2]基于語義依存文法分析模型的受限自然語言查詢接口研究[D]. 宋甜.武漢大學(xué) 2017
[3]面向受限自然語言的語法分析研究[D]. 張勝歧.重慶大學(xué) 2010
[4]漢語自動(dòng)分詞和中文人名識(shí)別技術(shù)研究[D]. 熊冬明.浙江大學(xué) 2006
[5]通用數(shù)據(jù)庫自然語言接口的設(shè)計(jì)方法[D]. 龔珂琳.國防科學(xué)技術(shù)大學(xué) 2005
本文編號(hào):3262305
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NLIDB系統(tǒng)流程圖
第二章NLIDB系統(tǒng)模型與知識(shí)庫構(gòu)建9圖2.1NLIDB的抽象模型(1)語言模型向概念模型的映射:在將NLQ轉(zhuǎn)換為正式的數(shù)據(jù)庫查詢之前,需要首先將其理解并解釋為一個(gè)或多個(gè)中間結(jié)構(gòu)[41],以概念模型中的元素表示查詢語句的含義。(2)概念模型向數(shù)據(jù)模型的映射:將NLQ的中間結(jié)構(gòu)進(jìn)一步解釋和轉(zhuǎn)換為針對(duì)底層數(shù)據(jù)庫的結(jié)構(gòu)化查詢語句。以映射的層級(jí)為依據(jù),將系統(tǒng)模塊化為三個(gè)組件:①自然語言解析;②結(jié)構(gòu)化語句生成;③數(shù)據(jù)庫查詢。其中,①、②分別完成了自然語言到中間結(jié)構(gòu),再到結(jié)構(gòu)化語言的映射。除此之外,現(xiàn)有NLIDB通常還包括以下一個(gè)或兩個(gè)組件:(1)知識(shí)庫:它存儲(chǔ)與基礎(chǔ)數(shù)據(jù)相關(guān)的領(lǐng)域知識(shí),幫助系統(tǒng)更好地解析NLQ。(2)反饋生成:向用戶提供關(guān)于系統(tǒng)對(duì)NLQ處理的反饋,或請(qǐng)求來自用戶的附加輸入以幫助系統(tǒng)理解NLQ。NLIDB的系統(tǒng)流程圖可以表述為圖2.2。圖2.2NLIDB系統(tǒng)流程圖
昆明理工大學(xué)專業(yè)學(xué)位碩士學(xué)位論文102.2.2NLIDB系統(tǒng)模型本文研究的重點(diǎn)是NLQ向SQL的轉(zhuǎn)換過程。自然語言解析是通過對(duì)查詢語句進(jìn)行詞法分析與句法分析,從而將自然語言映射到中間結(jié)構(gòu)。結(jié)構(gòu)化語句生成則負(fù)責(zé)從中間結(jié)構(gòu)轉(zhuǎn)換為正式的數(shù)據(jù)庫查詢。將交由數(shù)據(jù)庫執(zhí)行。根據(jù)系統(tǒng)流程,可以劃分為詞法分析、句法分析以及結(jié)構(gòu)化語句生成三大模塊,其內(nèi)部相互獨(dú)立,但模塊之間相互依賴,下一模塊受到上一模塊輸出結(jié)果的影響。知識(shí)庫是整個(gè)系統(tǒng)的支柱,為獲得正確的SQL提供保障,在系統(tǒng)設(shè)計(jì)上,將知識(shí)庫與主程序相分離,以便于后期擴(kuò)展或移植。本文的自然語言接口模型結(jié)構(gòu)如圖2.3所示。圖2.3受限漢語自然語言接口模型結(jié)構(gòu)各模塊的簡要分析與主要功能如下:(1)知識(shí)庫知識(shí)庫是計(jì)算機(jī)理解自然語言的基礎(chǔ),為實(shí)現(xiàn)接口的通用性提供了可能。本文根據(jù)知識(shí)的適用范圍,將知識(shí)庫劃分為通用知識(shí)庫和專用知識(shí)庫兩部分。通用知識(shí)庫由分詞詞典、通用數(shù)據(jù)庫詞典與同義詞詞林組成,不受應(yīng)用領(lǐng)域的影響。同義詞詞林是一個(gè)語義知識(shí)庫,主要用于同義詞識(shí)別,但是為了保證轉(zhuǎn)換的準(zhǔn)確性,本文保留了同義詞詞庫作為補(bǔ)充。專用知識(shí)庫將關(guān)注重點(diǎn)放在數(shù)據(jù)庫對(duì)象上,由專用分詞庫、同義詞詞庫、實(shí)體知識(shí)庫、域名知識(shí)庫、復(fù)合概念知識(shí)庫以及枚舉值知識(shí)庫組成。
【參考文獻(xiàn)】:
期刊論文
[1]《同義詞詞林》的嵌入表示與應(yīng)用評(píng)估[J]. 段宇光,劉揚(yáng),俞士汶. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[2]融合路徑與信息內(nèi)容的詞語語義相似度計(jì)算[J]. 郭承湘,唐忠,石懷明. 廣西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[3]基于HMM中文詞性標(biāo)注研究[J]. 楊榮根,楊忠. 金陵科技學(xué)院學(xué)報(bào). 2017(01)
[4]本體與條件隨機(jī)場結(jié)合的涉農(nóng)商品名稱抽取與類別標(biāo)注[J]. 黃念娥,黃河,王儒敬. 計(jì)算機(jī)應(yīng)用. 2017(01)
[5]基于復(fù)述的中文自然語言接口[J]. 張俊馳,胡婕,劉夢(mèng)赤. 計(jì)算機(jī)應(yīng)用. 2016(05)
[6]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(02)
[7]面向知識(shí)庫的中文自然語言問句的語義理解[J]. 許坤,馮巖松,趙東巖,陳立偉,鄒磊. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(01)
[8]基于實(shí)體的數(shù)據(jù)庫漢語問句查詢接口研究[J]. 朱文海,黃小斌. 現(xiàn)代計(jì)算機(jī). 2013(10)
[9]自然語言向SQL代碼的轉(zhuǎn)化方法[J]. 楊鶴標(biāo),陳力. 計(jì)算機(jī)工程. 2011(23)
[10]基于Ontology的數(shù)據(jù)庫自然語言查詢接口的研究[J]. 李虎,田金文,王緩緩,石勇. 計(jì)算機(jī)科學(xué). 2010(06)
博士論文
[1]關(guān)于計(jì)算機(jī)理解自然查詢語言的研究[D]. 鄭逢斌.西南交通大學(xué) 2004
[2]中文數(shù)據(jù)庫自然語言查詢處理研究[D]. 孟小峰.中國科學(xué)院研究生院(計(jì)算技術(shù)研究所) 1999
碩士論文
[1]基于條件隨機(jī)場的中文分詞技術(shù)的研究與實(shí)現(xiàn)[D]. 徐曉芳.南京郵電大學(xué) 2018
[2]基于語義依存文法分析模型的受限自然語言查詢接口研究[D]. 宋甜.武漢大學(xué) 2017
[3]面向受限自然語言的語法分析研究[D]. 張勝歧.重慶大學(xué) 2010
[4]漢語自動(dòng)分詞和中文人名識(shí)別技術(shù)研究[D]. 熊冬明.浙江大學(xué) 2006
[5]通用數(shù)據(jù)庫自然語言接口的設(shè)計(jì)方法[D]. 龔珂琳.國防科學(xué)技術(shù)大學(xué) 2005
本文編號(hào):3262305
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3262305.html
最近更新
教材專著