基于垂直領(lǐng)域知識圖譜的問答系統(tǒng)研究與應用
發(fā)布時間:2021-06-07 02:03
伴隨著互聯(lián)網(wǎng)和人工智能的飛速發(fā)展,現(xiàn)今已經(jīng)進入“知識互聯(lián)”的時代,對于知識圖譜的關(guān)注逐漸升溫。知識圖譜根據(jù)其包含的知識范疇被細分為通用領(lǐng)域知識圖譜和垂直領(lǐng)域知識圖譜。本文重點聚焦于垂直領(lǐng)域知識圖譜構(gòu)建與答案排序研究,旨在將行業(yè)知識引入問答系統(tǒng),改善問答系統(tǒng)的用戶體驗,為實現(xiàn)并優(yōu)化基于垂直領(lǐng)域知識圖譜的問答系統(tǒng)提供思路。本文的主要研究內(nèi)容包括三個方面:(1)以“建筑安全”為例,研究垂直領(lǐng)域知識圖譜構(gòu)建方法。針對目前在建筑領(lǐng)域還沒有一個開放的中文安全知識圖譜,而目前使用廣泛的都是百科類的通用知識圖譜,本文提出一個構(gòu)建建筑安全領(lǐng)域知識圖譜的框架。首先,通過爬蟲獲取建筑領(lǐng)域?qū)I(yè)術(shù)語。然后,采用CNN和RNN模型區(qū)分出建筑安全領(lǐng)域文本,使用Bi-LSTM+CRF模型完成常規(guī)實體抽取,通過人工干預結(jié)合近義詞擴展的方式完成建筑專業(yè)實體的抽取。緊接著使用依存句法分析完成關(guān)系抽取。最后,將拼接好的三元組數(shù)據(jù)導入開源圖數(shù)據(jù)庫Neo4j中,完成建筑安全領(lǐng)域知識圖譜的構(gòu)建工作,可將其作為知識庫模塊應用于問答系統(tǒng)中。(2)針對實體鏈接和關(guān)系鏈接獨立處理會丟失信息且效率不高的問題,提出基于連接密度的實體關(guān)系聯(lián)合鏈...
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
基于垂直領(lǐng)域知識圖譜的問答系統(tǒng)示意圖
重慶大學碩士學位論文2相關(guān)理論與技術(shù)162相關(guān)理論與技術(shù)在基于垂直領(lǐng)域知識圖譜的問答系統(tǒng)研究與應用中會涉及到多個關(guān)鍵環(huán)節(jié),本章將對相關(guān)環(huán)節(jié)涉及到的主要技術(shù)進行介紹。2.1文本分類現(xiàn)有的文本分類模型主要有兩大類,一類使用傳統(tǒng)機器學習的方法,另一類使用深度學習的方法。由于深度學習的熱度一直持續(xù)未減,基于深度學習的文本分類模型成為目前文本分類模型的主流,下面將對CNN[35]和RNN[36]兩種文本分類模型展開介紹。①CNN模型圖2.1CNN模型示意圖Fig.2.1ThediagramofCNNmodel由圖2.1所示,整個模型主要由輸入層、卷積層、池化層、全連接層四個部分組成。1)輸入層(詞嵌入層)模型的輸入層需要輸入一個固定長度的文本序列,這就需要通過對語料集樣本長度的分析為輸入序列指定長度L。為了確保文本序列長度固定,需要自定義字符填充比L短的樣本序列,截取比L長的序列。最終將文本序列中各個詞匯對應的詞向量輸入到輸入層。
重慶大學碩士學位論文2相關(guān)理論與技術(shù)172)卷積層自然語言處理中卷積核不涉及多維滑動,卷積核一般只進行一維的滑動,即卷積核在寬度上與詞向量的維度相同。卷積核的高度,即窗口值,可以理解為N-gram模型中的N,即局部詞序的長度。窗口值是一個超參數(shù),需要在實驗中不斷嘗試才能確定,一般選取2-8之間的值。3)池化層在CNN模型的池化層中使用了maxpooling(最大值池化)。選用最大值池化的益處在于既減少了模型參數(shù)的數(shù)量,又能保證將不定長的卷積層的輸出轉(zhuǎn)換成一個定長的全連接層的輸入。4)全連接層CNN模型中的全連接層提供了分類器的功能。CNN模型使用含有隱藏層的全連接網(wǎng)絡,相當于把卷積層與池化層提取的特征信息輸入到一個分類器中進行分類。②RNN模型循環(huán)神經(jīng)網(wǎng)絡(RNN)借助了人類大腦的記憶模式。人類的想法會根據(jù)之前已經(jīng)記住的東西產(chǎn)生,類似的,RNN借助之前的序列“記憶”,進而產(chǎn)生后面的“想法”。RNN通過記憶機制和反向傳播,可以處理任意長度的序列,在架構(gòu)上比前饋神經(jīng)網(wǎng)絡更符合生物神經(jīng)網(wǎng)絡的結(jié)構(gòu)。下圖2.2是RNN模型的示意圖。圖2.2RNN模型示意圖Fig.2.2ThediagramofRNNmodel
【參考文獻】:
期刊論文
[1]聊天機器人問答系統(tǒng)現(xiàn)狀與發(fā)展[J]. 馮升. 機器人技術(shù)與應用. 2016(04)
[2]基于依存分析的開放式中文實體關(guān)系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[3]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[4]開放式信息抽取研究進展[J]. 楊博,蔡東風,楊華. 中文信息學報. 2014(04)
[5]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[6]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術(shù). 2010(06)
[7]語料庫、知識獲取和句法分析[J]. 黃昌寧,苑春法,潘詩梅. 中文信息學報. 1992(03)
本文編號:3215617
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
基于垂直領(lǐng)域知識圖譜的問答系統(tǒng)示意圖
重慶大學碩士學位論文2相關(guān)理論與技術(shù)162相關(guān)理論與技術(shù)在基于垂直領(lǐng)域知識圖譜的問答系統(tǒng)研究與應用中會涉及到多個關(guān)鍵環(huán)節(jié),本章將對相關(guān)環(huán)節(jié)涉及到的主要技術(shù)進行介紹。2.1文本分類現(xiàn)有的文本分類模型主要有兩大類,一類使用傳統(tǒng)機器學習的方法,另一類使用深度學習的方法。由于深度學習的熱度一直持續(xù)未減,基于深度學習的文本分類模型成為目前文本分類模型的主流,下面將對CNN[35]和RNN[36]兩種文本分類模型展開介紹。①CNN模型圖2.1CNN模型示意圖Fig.2.1ThediagramofCNNmodel由圖2.1所示,整個模型主要由輸入層、卷積層、池化層、全連接層四個部分組成。1)輸入層(詞嵌入層)模型的輸入層需要輸入一個固定長度的文本序列,這就需要通過對語料集樣本長度的分析為輸入序列指定長度L。為了確保文本序列長度固定,需要自定義字符填充比L短的樣本序列,截取比L長的序列。最終將文本序列中各個詞匯對應的詞向量輸入到輸入層。
重慶大學碩士學位論文2相關(guān)理論與技術(shù)172)卷積層自然語言處理中卷積核不涉及多維滑動,卷積核一般只進行一維的滑動,即卷積核在寬度上與詞向量的維度相同。卷積核的高度,即窗口值,可以理解為N-gram模型中的N,即局部詞序的長度。窗口值是一個超參數(shù),需要在實驗中不斷嘗試才能確定,一般選取2-8之間的值。3)池化層在CNN模型的池化層中使用了maxpooling(最大值池化)。選用最大值池化的益處在于既減少了模型參數(shù)的數(shù)量,又能保證將不定長的卷積層的輸出轉(zhuǎn)換成一個定長的全連接層的輸入。4)全連接層CNN模型中的全連接層提供了分類器的功能。CNN模型使用含有隱藏層的全連接網(wǎng)絡,相當于把卷積層與池化層提取的特征信息輸入到一個分類器中進行分類。②RNN模型循環(huán)神經(jīng)網(wǎng)絡(RNN)借助了人類大腦的記憶模式。人類的想法會根據(jù)之前已經(jīng)記住的東西產(chǎn)生,類似的,RNN借助之前的序列“記憶”,進而產(chǎn)生后面的“想法”。RNN通過記憶機制和反向傳播,可以處理任意長度的序列,在架構(gòu)上比前饋神經(jīng)網(wǎng)絡更符合生物神經(jīng)網(wǎng)絡的結(jié)構(gòu)。下圖2.2是RNN模型的示意圖。圖2.2RNN模型示意圖Fig.2.2ThediagramofRNNmodel
【參考文獻】:
期刊論文
[1]聊天機器人問答系統(tǒng)現(xiàn)狀與發(fā)展[J]. 馮升. 機器人技術(shù)與應用. 2016(04)
[2]基于依存分析的開放式中文實體關(guān)系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[3]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[4]開放式信息抽取研究進展[J]. 楊博,蔡東風,楊華. 中文信息學報. 2014(04)
[5]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[6]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術(shù). 2010(06)
[7]語料庫、知識獲取和句法分析[J]. 黃昌寧,苑春法,潘詩梅. 中文信息學報. 1992(03)
本文編號:3215617
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3215617.html
最近更新
教材專著