天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)絡(luò)信息的限定域問答系統(tǒng)研究

發(fā)布時間:2021-03-28 23:59
  自進(jìn)入互聯(lián)網(wǎng)時代以來網(wǎng)絡(luò)上各類信息的爆炸性增長,在獲取準(zhǔn)確信息時人們總要花費(fèi)不少精力。為了解決這個問題,搜索引擎出現(xiàn)了,搜索引擎有助于這個問題的解決,但是其也具有很多的局限性,其中最重要的一點(diǎn)就是其只能按照關(guān)聯(lián)程度返回一系列的網(wǎng)頁,而不是一句準(zhǔn)確的回答,人們依舊需要花大量時間去尋找所需的答案。所以人們還是需要一種能更為簡單快捷地獲取信息的方式,此時問答系統(tǒng)便應(yīng)運(yùn)而生成為一大研究熱門。其中限定域問答系統(tǒng)又因其可行性高和用途廣泛而備受關(guān)注。而海量的網(wǎng)絡(luò)信息也為問答系統(tǒng)提供了海量的信息來源。故本文致力于基于網(wǎng)絡(luò)信息的限定域問答系統(tǒng)的研究。其中主要分為以下三個部分;诰W(wǎng)絡(luò)信息的知識庫自動構(gòu)建。過往知識庫的構(gòu)建往往需要大量的人工,費(fèi)事費(fèi)力。為解決該問題本文建立了基于網(wǎng)絡(luò)信息的知識庫自動構(gòu)建框架,即基于領(lǐng)域詞條集收集百科和在線問答社區(qū)的問答對。領(lǐng)域詞條集則通過爬取領(lǐng)域網(wǎng)站語料并抽取其中的領(lǐng)域詞條構(gòu)建而成。此處,本文提出了改進(jìn)的基于TextRank和Word2Vec的領(lǐng)域詞條提取方法,并取得了不錯的效果;诰W(wǎng)絡(luò)信息的檢索式問答系統(tǒng)構(gòu)建。由于傳統(tǒng)問答系統(tǒng)知識庫內(nèi)容的局限性,很多問句檢索時會找不到匹... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:59 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于網(wǎng)絡(luò)信息的限定域問答系統(tǒng)研究


領(lǐng)域知識庫構(gòu)建流程圖

示意圖,模型框架,詞條,領(lǐng)域


圖 2-2CBOW 與 Skip-Gram 兩種模型框架示意圖基于 Word2Vec 抽取領(lǐng)域術(shù)語,首先要將語料進(jìn)行分詞等預(yù)處理,然后訓(xùn)練得到每個詞的詞向量,然后要提供一個領(lǐng)域詞條集,也可以叫做種子領(lǐng)域詞條集,這個詞集中有語料中包含的與領(lǐng)域相關(guān)度極高的詞,通過種子領(lǐng)域詞條集就可以以這個種子領(lǐng)域詞條集做一個詞聚類,即計算語料中各個詞與種子領(lǐng)域詞條的相似度,相似度大的詞便可選作是領(lǐng)域詞條,這個詞語的相似度可以用訓(xùn)練出來的詞向量的相似度來表示。由此可見,種子領(lǐng)域詞條集作為聚類的中心,其的選取對最后提取的領(lǐng)域詞條的質(zhì)量影響甚大;诖藛栴}的存在,本文提出了改進(jìn)的基于 Word2Vec 的領(lǐng)域詞條提取的方法,具體是由傳統(tǒng)的領(lǐng)域詞條抽取方法抽取的領(lǐng)域詞條集中選取十個最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集,因?yàn)閭鹘y(tǒng)的方法都對領(lǐng)域語料庫進(jìn)行了整體的統(tǒng)計分析,所得的領(lǐng)域詞條在一定程度上是比較能代表整個領(lǐng)域語料的。本文在進(jìn)行了大量相關(guān)試驗(yàn)后,發(fā)現(xiàn)使用 TextRank 抽取的領(lǐng)域詞條集的前十個最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集時效果較好。故在改進(jìn)的方法中選取 TextRank 抽取的領(lǐng)域詞條集的前十個最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集。由于要得到各詞之間確切的聯(lián)系,訓(xùn)練詞向量時未完全去除噪聲詞,故生成的領(lǐng)

詞條,領(lǐng)域,提取流程


以這個種子領(lǐng)域詞條集做一個詞聚類,即計算語料中各個詞與種子領(lǐng)域詞條的相似度,相似度大的詞便可選作是領(lǐng)域詞條,這個詞語的相似度可以用訓(xùn)練出來的詞向量的相似度來表示。由此可見,種子領(lǐng)域詞條集作為聚類的中心,其的選取對最后提取的領(lǐng)域詞條的質(zhì)量影響甚大;诖藛栴}的存在,本文提出了改進(jìn)的基于 Word2Vec 的領(lǐng)域詞條提取的方法,具體是由傳統(tǒng)的領(lǐng)域詞條抽取方法抽取的領(lǐng)域詞條集中選取十個最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集,因?yàn)閭鹘y(tǒng)的方法都對領(lǐng)域語料庫進(jìn)行了整體的統(tǒng)計分析,所得的領(lǐng)域詞條在一定程度上是比較能代表整個領(lǐng)域語料的。本文在進(jìn)行了大量相關(guān)試驗(yàn)后,發(fā)現(xiàn)使用 TextRank 抽取的領(lǐng)域詞條集的前十個最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集時效果較好。故在改進(jìn)的方法中選取 TextRank 抽取的領(lǐng)域詞條集的前十個最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集。由于要得到各詞之間確切的聯(lián)系,訓(xùn)練詞向量時未完全去除噪聲詞,故生成的領(lǐng)域詞條集還會有大量噪聲詞。故在領(lǐng)域詞條抽取得到候選領(lǐng)域詞條集后還要進(jìn)行去噪,本文在此主要是將非名詞的候選領(lǐng)域詞條進(jìn)行了去除,還有是將候選領(lǐng)域詞條在百科網(wǎng)站中搜索將沒有對應(yīng)詞條的候選領(lǐng)域詞條去除。故改進(jìn)的基于Word2Vec 的領(lǐng)域詞條提取的流程大致如下圖 2-3 所示:


本文編號:3106491

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3106491.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0b6e6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com