基于網(wǎng)絡(luò)信息的限定域問(wèn)答系統(tǒng)研究

發(fā)布時(shí)間：2021-03-28 23:59

　　自進(jìn)入互聯(lián)網(wǎng)時(shí)代以來(lái)網(wǎng)絡(luò)上各類信息的爆炸性增長(zhǎng),在獲取準(zhǔn)確信息時(shí)人們總要花費(fèi)不少精力。為了解決這個(gè)問(wèn)題,搜索引擎出現(xiàn)了,搜索引擎有助于這個(gè)問(wèn)題的解決,但是其也具有很多的局限性,其中最重要的一點(diǎn)就是其只能按照關(guān)聯(lián)程度返回一系列的網(wǎng)頁(yè),而不是一句準(zhǔn)確的回答,人們依舊需要花大量時(shí)間去尋找所需的答案。所以人們還是需要一種能更為簡(jiǎn)單快捷地獲取信息的方式,此時(shí)問(wèn)答系統(tǒng)便應(yīng)運(yùn)而生成為一大研究熱門(mén)。其中限定域問(wèn)答系統(tǒng)又因其可行性高和用途廣泛而備受關(guān)注。而海量的網(wǎng)絡(luò)信息也為問(wèn)答系統(tǒng)提供了海量的信息來(lái)源。故本文致力于基于網(wǎng)絡(luò)信息的限定域問(wèn)答系統(tǒng)的研究。其中主要分為以下三個(gè)部分。基于網(wǎng)絡(luò)信息的知識(shí)庫(kù)自動(dòng)構(gòu)建。過(guò)往知識(shí)庫(kù)的構(gòu)建往往需要大量的人工,費(fèi)事費(fèi)力。為解決該問(wèn)題本文建立了基于網(wǎng)絡(luò)信息的知識(shí)庫(kù)自動(dòng)構(gòu)建框架,即基于領(lǐng)域詞條集收集百科和在線問(wèn)答社區(qū)的問(wèn)答對(duì)。領(lǐng)域詞條集則通過(guò)爬取領(lǐng)域網(wǎng)站語(yǔ)料并抽取其中的領(lǐng)域詞條構(gòu)建而成。此處,本文提出了改進(jìn)的基于TextRank和Word2Vec的領(lǐng)域詞條提取方法,并取得了不錯(cuò)的效果�；诰W(wǎng)絡(luò)信息的檢索式問(wèn)答系統(tǒng)構(gòu)建。由于傳統(tǒng)問(wèn)答系統(tǒng)知識(shí)庫(kù)內(nèi)容的局限性,很多問(wèn)句檢索時(shí)會(huì)找不到匹...

【文章來(lái)源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】：59 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

領(lǐng)域知識(shí)庫(kù)構(gòu)建流程圖

示意圖,模型框架,詞條,領(lǐng)域

圖 2-2CBOW 與 Skip-Gram 兩種模型框架示意圖基于 Word2Vec 抽取領(lǐng)域術(shù)語(yǔ)，首先要將語(yǔ)料進(jìn)行分詞等預(yù)處理，然后訓(xùn)練得到每個(gè)詞的詞向量，然后要提供一個(gè)領(lǐng)域詞條集，也可以叫做種子領(lǐng)域詞條集，這個(gè)詞集中有語(yǔ)料中包含的與領(lǐng)域相關(guān)度極高的詞，通過(guò)種子領(lǐng)域詞條集就可以以這個(gè)種子領(lǐng)域詞條集做一個(gè)詞聚類，即計(jì)算語(yǔ)料中各個(gè)詞與種子領(lǐng)域詞條的相似度，相似度大的詞便可選作是領(lǐng)域詞條，這個(gè)詞語(yǔ)的相似度可以用訓(xùn)練出來(lái)的詞向量的相似度來(lái)表示。由此可見(jiàn)，種子領(lǐng)域詞條集作為聚類的中心，其的選取對(duì)最后提取的領(lǐng)域詞條的質(zhì)量影響甚大�；诖藛�(wèn)題的存在，本文提出了改進(jìn)的基于 Word2Vec 的領(lǐng)域詞條提取的方法，具體是由傳統(tǒng)的領(lǐng)域詞條抽取方法抽取的領(lǐng)域詞條集中選取十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集，因?yàn)閭鹘y(tǒng)的方法都對(duì)領(lǐng)域語(yǔ)料庫(kù)進(jìn)行了整體的統(tǒng)計(jì)分析，所得的領(lǐng)域詞條在一定程度上是比較能代表整個(gè)領(lǐng)域語(yǔ)料的。本文在進(jìn)行了大量相關(guān)試驗(yàn)后，發(fā)現(xiàn)使用 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集時(shí)效果較好。故在改進(jìn)的方法中選取 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集。由于要得到各詞之間確切的聯(lián)系，訓(xùn)練詞向量時(shí)未完全去除噪聲詞，故生成的領(lǐng)

詞條,領(lǐng)域,提取流程

以這個(gè)種子領(lǐng)域詞條集做一個(gè)詞聚類，即計(jì)算語(yǔ)料中各個(gè)詞與種子領(lǐng)域詞條的相似度，相似度大的詞便可選作是領(lǐng)域詞條，這個(gè)詞語(yǔ)的相似度可以用訓(xùn)練出來(lái)的詞向量的相似度來(lái)表示。由此可見(jiàn)，種子領(lǐng)域詞條集作為聚類的中心，其的選取對(duì)最后提取的領(lǐng)域詞條的質(zhì)量影響甚大。基于此問(wèn)題的存在，本文提出了改進(jìn)的基于 Word2Vec 的領(lǐng)域詞條提取的方法，具體是由傳統(tǒng)的領(lǐng)域詞條抽取方法抽取的領(lǐng)域詞條集中選取十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集，因?yàn)閭鹘y(tǒng)的方法都對(duì)領(lǐng)域語(yǔ)料庫(kù)進(jìn)行了整體的統(tǒng)計(jì)分析，所得的領(lǐng)域詞條在一定程度上是比較能代表整個(gè)領(lǐng)域語(yǔ)料的。本文在進(jìn)行了大量相關(guān)試驗(yàn)后，發(fā)現(xiàn)使用 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集時(shí)效果較好。故在改進(jìn)的方法中選取 TextRank 抽取的領(lǐng)域詞條集的前十個(gè)最佳領(lǐng)域詞條作為種子領(lǐng)域詞條集。由于要得到各詞之間確切的聯(lián)系，訓(xùn)練詞向量時(shí)未完全去除噪聲詞，故生成的領(lǐng)域詞條集還會(huì)有大量噪聲詞。故在領(lǐng)域詞條抽取得到候選領(lǐng)域詞條集后還要進(jìn)行去噪，本文在此主要是將非名詞的候選領(lǐng)域詞條進(jìn)行了去除，還有是將候選領(lǐng)域詞條在百科網(wǎng)站中搜索將沒(méi)有對(duì)應(yīng)詞條的候選領(lǐng)域詞條去除。故改進(jìn)的基于Word2Vec 的領(lǐng)域詞條提取的流程大致如下圖 2-3 所示：

本文編號(hào)：3106491

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3106491.html

上一篇：大數(shù)據(jù)背景下的關(guān)聯(lián)規(guī)則挖掘算法研究
下一篇：資源發(fā)現(xiàn)系統(tǒng)的用戶信息行為分析——以西交利物浦大學(xué)圖書(shū)館為例

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網(wǎng)絡(luò)信息的限定域問(wèn)答系統(tǒng)研究