天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于網(wǎng)絡(luò)信息的限定域問(wèn)答系統(tǒng)研究

發(fā)布時(shí)間:2021-03-28 23:59
  自進(jìn)入互聯(lián)網(wǎng)時(shí)代以來(lái)網(wǎng)絡(luò)上各類信息的爆炸性增長(zhǎng),在獲取準(zhǔn)確信息時(shí)人們總要花費(fèi)不少精力。為了解決這個(gè)問(wèn)題,搜索引擎出現(xiàn)了,搜索引擎有助于這個(gè)問(wèn)題的解決,但是其也具有很多的局限性,其中最重要的一點(diǎn)就是其只能按照關(guān)聯(lián)程度返回一系列的網(wǎng)頁(yè),而不是一句準(zhǔn)確的回答,人們依舊需要花大量時(shí)間去尋找所需的答案。所以人們還是需要一種能更為簡(jiǎn)單快捷地獲取信息的方式,此時(shí)問(wèn)答系統(tǒng)便應(yīng)運(yùn)而生成為一大研究熱門(mén)。其中限定域問(wèn)答系統(tǒng)又因其可行性高和用途廣泛而備受關(guān)注。而海量的網(wǎng)絡(luò)信息也為問(wèn)答系統(tǒng)提供了海量的信息來(lái)源。故本文致力于基于網(wǎng)絡(luò)信息的限定域問(wèn)答系統(tǒng)的研究。其中主要分為以下三個(gè)部分。基于網(wǎng)絡(luò)信息的知識(shí)庫(kù)自動(dòng)構(gòu)建。過(guò)往知識(shí)庫(kù)的構(gòu)建往往需要大量的人工,費(fèi)事費(fèi)力。為解決該問(wèn)題本文建立了基于網(wǎng)絡(luò)信息的知識(shí)庫(kù)自動(dòng)構(gòu)建框架,即基于領(lǐng)域詞條集收集百科和在線問(wèn)答社區(qū)的問(wèn)答對(duì)。領(lǐng)域詞條集則通過(guò)爬取領(lǐng)域網(wǎng)站語(yǔ)料并抽取其中的領(lǐng)域詞條構(gòu)建而成。此處,本文提出了改進(jìn)的基于TextRank和Word2Vec的領(lǐng)域詞條提取方法,并取得了不錯(cuò)的效果;诰W(wǎng)絡(luò)信息的檢索式問(wèn)答系統(tǒng)構(gòu)建。由于傳統(tǒng)問(wèn)答系統(tǒng)知識(shí)庫(kù)內(nèi)容的局限性,很多問(wèn)句檢索時(shí)會(huì)找不到匹... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】:59 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于網(wǎng)絡(luò)信息的限定域問(wèn)答系統(tǒng)研究


領(lǐng)域知識(shí)庫(kù)構(gòu)建流程圖

示意圖,模型框架,詞條,領(lǐng)域


圖 2-2CBOW 與 Skip-Gram 兩種模型框架示意圖基于 Word2Vec 抽取領(lǐng)域術(shù)語(yǔ),首先要將語(yǔ)料進(jìn)行分詞等預(yù)處理,然后訓(xùn)練得到每個(gè)詞的詞向量,然后要提供一個(gè)領(lǐng)域詞條集,也可以叫做種子領(lǐng)域詞條集,這個(gè)詞集中有語(yǔ)料中包含的與領(lǐng)域相關(guān)度極高的詞,通過(guò)種子領(lǐng)域詞條集就可以以這個(gè)種子領(lǐng)域詞條集做一個(gè)詞聚類,即計(jì)算語(yǔ)料中各個(gè)詞與種子領(lǐng)域詞條的相似度,相似度大的詞便可選作是領(lǐng)域詞條,這個(gè)詞語(yǔ)的相似度可以用訓(xùn)練出來(lái)的詞向量的相似度來(lái)表示。由此可見(jiàn),種子領(lǐng)域詞條集作為聚類的中心,其的選取對(duì)最后提取的領(lǐng)域詞條的質(zhì)量影響甚大;诖藛(wèn)題的存在,本文提出了改進(jìn)的基于 Word2Vec 的領(lǐng)域詞條提取的方法,具體是由傳統(tǒng)的領(lǐng)域詞條抽取方法抽取的領(lǐng)域詞條集中選取十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集,因?yàn)閭鹘y(tǒng)的方法都對(duì)領(lǐng)域語(yǔ)料庫(kù)進(jìn)行了整體的統(tǒng)計(jì)分析,所得的領(lǐng)域詞條在一定程度上是比較能代表整個(gè)領(lǐng)域語(yǔ)料的。本文在進(jìn)行了大量相關(guān)試驗(yàn)后,發(fā)現(xiàn)使用 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集時(shí)效果較好。故在改進(jìn)的方法中選取 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集。由于要得到各詞之間確切的聯(lián)系,訓(xùn)練詞向量時(shí)未完全去除噪聲詞,故生成的領(lǐng)

詞條,領(lǐng)域,提取流程


以這個(gè)種子領(lǐng)域詞條集做一個(gè)詞聚類,即計(jì)算語(yǔ)料中各個(gè)詞與種子領(lǐng)域詞條的相似度,相似度大的詞便可選作是領(lǐng)域詞條,這個(gè)詞語(yǔ)的相似度可以用訓(xùn)練出來(lái)的詞向量的相似度來(lái)表示。由此可見(jiàn),種子領(lǐng)域詞條集作為聚類的中心,其的選取對(duì)最后提取的領(lǐng)域詞條的質(zhì)量影響甚大。基于此問(wèn)題的存在,本文提出了改進(jìn)的基于 Word2Vec 的領(lǐng)域詞條提取的方法,具體是由傳統(tǒng)的領(lǐng)域詞條抽取方法抽取的領(lǐng)域詞條集中選取十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集,因?yàn)閭鹘y(tǒng)的方法都對(duì)領(lǐng)域語(yǔ)料庫(kù)進(jìn)行了整體的統(tǒng)計(jì)分析,所得的領(lǐng)域詞條在一定程度上是比較能代表整個(gè)領(lǐng)域語(yǔ)料的。本文在進(jìn)行了大量相關(guān)試驗(yàn)后,發(fā)現(xiàn)使用 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集時(shí)效果較好。故在改進(jìn)的方法中選取 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集。由于要得到各詞之間確切的聯(lián)系,訓(xùn)練詞向量時(shí)未完全去除噪聲詞,故生成的領(lǐng)域詞條集還會(huì)有大量噪聲詞。故在領(lǐng)域詞條抽取得到候選領(lǐng)域詞條集后還要進(jìn)行去噪,本文在此主要是將非名詞的候選領(lǐng)域詞條進(jìn)行了去除,還有是將候選領(lǐng)域詞條在百科網(wǎng)站中搜索將沒(méi)有對(duì)應(yīng)詞條的候選領(lǐng)域詞條去除。故改進(jìn)的基于Word2Vec 的領(lǐng)域詞條提取的流程大致如下圖 2-3 所示:


本文編號(hào):3106491

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3106491.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0b6e6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com