天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于CNN的輕量級(jí)問(wèn)答系統(tǒng)算法研究

發(fā)布時(shí)間:2024-03-09 10:12
  問(wèn)答系統(tǒng)是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域重要的一個(gè)分支,自“圖靈測(cè)試”的提出至今,實(shí)現(xiàn)問(wèn)答系統(tǒng)的算法和框架多種多樣,大致的實(shí)現(xiàn)流程為構(gòu)建數(shù)據(jù)集、文本特征提取、問(wèn)題分類(lèi)、問(wèn)句分析、信息檢索、語(yǔ)句匹配、抽取或者生成答案。每個(gè)步驟都有很多種算法或方法進(jìn)行實(shí)現(xiàn),如文本體征提取有基于概率統(tǒng)計(jì)的、有基于向量空間的、有基于神經(jīng)網(wǎng)絡(luò)的等;問(wèn)句分類(lèi)有樸素貝葉斯、支持向量機(jī)、決策樹(shù)、KNN等;信息檢索有數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言、MultiText算法、IBM的算法、SiteQ算法、哈希函數(shù)等。在具體的實(shí)現(xiàn)過(guò)程中,根據(jù)使用不同的算法和應(yīng)用場(chǎng)景,有些步驟會(huì)被簡(jiǎn)化或者過(guò)濾,本文在標(biāo)注型數(shù)據(jù)集的基礎(chǔ)上構(gòu)建出一個(gè)基于詞向量和CNN輕量級(jí)問(wèn)答系統(tǒng),主要工作如下:1.選取三種不同的語(yǔ)料庫(kù)和三種維度(30維,60維,90維)訓(xùn)練出多個(gè)詞向量模型,經(jīng)過(guò)不同的對(duì)比實(shí)驗(yàn),尋找出最適合本文CNN模型的詞向量。2.CNN運(yùn)用于自然語(yǔ)言處理的傳統(tǒng)方法是通過(guò)CNN對(duì)問(wèn)句和答句分別提取文本特征,然后使用余弦值或者歐氏距離來(lái)匹配兩句話(huà)的語(yǔ)義相似度。為了保留更加完整的原始語(yǔ)義,本文采取問(wèn)句和答句原始...

【文章頁(yè)數(shù)】:56 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2-2改進(jìn)的結(jié)構(gòu)化問(wèn)答系統(tǒng)

圖2-2改進(jìn)的結(jié)構(gòu)化問(wèn)答系統(tǒng)

于關(guān)鍵詞技術(shù)數(shù)據(jù)形式的問(wèn)答系統(tǒng)對(duì)于語(yǔ)句要求具有多種表達(dá)方式,為了解決這一問(wèn)題,基于一個(gè)或多個(gè)關(guān)鍵詞可以代表整個(gè)語(yǔ)句的對(duì)關(guān)鍵詞進(jìn)行檢索,這樣可以解決結(jié)構(gòu)技術(shù)的方式有兩種:第一種是在結(jié)構(gòu)化工標(biāo)注和抽取,進(jìn)行信息檢索時(shí)也會(huì)出現(xiàn)行篩選,顯然這種方式耗時(shí)又費(fèi)力;第練,訓(xùn)練過(guò)程中會(huì)過(guò)濾掉停用....


圖2-3關(guān)鍵詞問(wèn)答系統(tǒng)結(jié)構(gòu)圖

圖2-3關(guān)鍵詞問(wèn)答系統(tǒng)結(jié)構(gòu)圖

圖2-3關(guān)鍵詞問(wèn)答系統(tǒng)結(jié)構(gòu)圖優(yōu)點(diǎn):以關(guān)鍵詞來(lái)代替整個(gè)語(yǔ)句的語(yǔ)義可以加快系統(tǒng)的運(yùn)行效率也解決了結(jié)構(gòu)化問(wèn)答的笨重問(wèn)題;使用以詞袋模型為基礎(chǔ)的形式可以直接對(duì)語(yǔ)句進(jìn)行關(guān)鍵詞抽取,并且解結(jié)構(gòu)化問(wèn)答系統(tǒng)人工標(biāo)注的的問(wèn)題。缺點(diǎn):詞袋模型使基于概率統(tǒng)計(jì)的,所有的詞匯和語(yǔ)句并沒(méi)有象現(xiàn)實(shí)生活中的....


圖2-4語(yǔ)義問(wèn)答系統(tǒng)結(jié)構(gòu)圖

圖2-4語(yǔ)義問(wèn)答系統(tǒng)結(jié)構(gòu)圖

圖2-4語(yǔ)義問(wèn)答系統(tǒng)結(jié)構(gòu)圖點(diǎn):語(yǔ)義問(wèn)答系統(tǒng)在準(zhǔn)確率方面比關(guān)鍵詞問(wèn)答系統(tǒng)高很多;關(guān)鍵詞問(wèn)答系統(tǒng)采用存儲(chǔ)詞匯和語(yǔ)句,語(yǔ)義問(wèn)答系統(tǒng)采用分布式稠密向量存儲(chǔ)詞匯或語(yǔ)句,這樣可以要的空間浪費(fèi)也可以提升運(yùn)算效率;語(yǔ)義問(wèn)答系統(tǒng)可以兼容關(guān)鍵詞問(wèn)答系統(tǒng)。點(diǎn):語(yǔ)義問(wèn)答系統(tǒng)的訓(xùn)練時(shí)間會(huì)更長(zhǎng);目前語(yǔ)義....


圖2-5LSA奇異值分解示意圖

圖2-5LSA奇異值分解示意圖

圖2-5LSA奇異值分解示意圖是詞袋模型的延伸,既可以使用詞袋模型直接訓(xùn)練LSA,也上訓(xùn)練LSA。一般來(lái)說(shuō)直接使用TF-IDF模型來(lái)訓(xùn)練LSA得到,本文采用2.1小節(jié)生成TF-IDF模型進(jìn)行LSA生成,使用models.LsiModel()函數(shù)生....



本文編號(hào):3923268

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3923268.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)45641***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com