天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

面向非結構化文本的問答系統(tǒng)中答案抽取技術研究

發(fā)布時間:2021-01-14 00:02
  搜索引擎是用戶獲取知識和答案的重要渠道,通過用戶在搜索框中輸入的query,搜索引擎返回排序好的網(wǎng)頁集合供用戶瀏覽,用戶需要快速瀏覽一些網(wǎng)頁,根據(jù)自身的辨別能力找到目標答案的具體位置,整個流程費時費力。基于自然語言處理技術的問答系統(tǒng)是傳統(tǒng)搜索引擎的重要改進方向,能夠幫助用戶獲取精確簡短的答案。維基百科,百度百科等非結構化文本是構建問答系統(tǒng)的重要數(shù)據(jù)來源。和基于知識圖譜等結構化知識的問答系統(tǒng)相比,非結構化文本數(shù)據(jù)規(guī)模龐大而且容易獲取,為了提高系統(tǒng)返回答案的準確性,首先根據(jù)問題的意圖縮小答案候選句子集合,然后進行答案精確定位。本文針對問答系統(tǒng)中候選答案句子選擇及精確答案定位技術進行了研究。對于候選答案句子選擇,本文從兩方面進行了研究:1)本文使用傳統(tǒng)機器學習方法對問題句和答案句之間的關系進行建模,提取三個方面的特征:基于句子向量表征的相似度特征,基于詞共現(xiàn)的特征以及句子本身的長度等基本特征,本文使用SVM和Xgboost分類器,給出問題句和每一個候選答案句子的分數(shù),用于答案排序。2)本文還使用CNN,LSTM等深度學習模型對句子進行語義表示,采用pairwise方法進行訓練,實驗結果優(yōu)于傳... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:67 頁

【學位級別】:碩士

【部分圖文】:

面向非結構化文本的問答系統(tǒng)中答案抽取技術研究


WMD示例圖

基礎結構,單詞


哈爾濱工業(yè)大學工程碩士學位論文¤( ) ( ) ( ) (3-利用 Bayes 公式,公式(3-4)可以寫作:¤( ) ( ) π ( ) π ( ) ( ) (3-傳統(tǒng)方法使用 n-gram 模型假設一個詞出現(xiàn)的概率與它前面的 個相關,根據(jù)語料庫計算詞頻概率表示單詞出現(xiàn)的條件概率,理論上 n 越大效果越好,而實踐中發(fā)現(xiàn),n 在 1 到 2,與 2 到 3 時模型效果提升明顯,而后效果的提升不再顯著,對于一個詞 ,只覆蓋前 n 個詞,不能適應長度較長的單詞序列。相比于傳統(tǒng)的 ngram 模型,新的語言模型是利用 RNN 對列建模,復用不同時刻的線性非線性單元及權值,理論上之前所有的單詞都會影響到預測單詞。如圖 3-8 所示,為 RNN 模型的結構圖。

模型圖,注意力機制,模型


圖 3-12 引入句間注意力機制的模型如圖 3-12 所示,對于該任務,使用 Attentive Pooling 注意力構建模型。模型主要分為以下幾部分:(1)輸入層輸入層包括兩部分:一個是長度為 m 個單詞的問題句 Q,以及包含 n 個詞的答案句 A。Embedding 層分別輸出兩個句子的詞向量矩陣 和 ,分為表示為: (3-13)(2)編碼層首先使用兩個共享權重的 Bi-LSTM 提取時序特征,對答案句子的隱藏層表示為矩陣 A,對問題句子的隱藏層表示為矩陣 B,使用¨ ¢ ( )計算矩陣 G,G 中第 m 行,n 列的數(shù)值為 A 中第 m 個位置與 B 中第 n 個位置的匹配得分。對于矩陣 G,我們逐列選取最大的分數(shù),構成向量 M;對 G 中逐行


本文編號:2975796

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2975796.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶21f4e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com