天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于深度學(xué)習(xí)的中文自動問答與校對研究

發(fā)布時間:2021-01-28 02:36
  隨著互聯(lián)網(wǎng)的迅猛發(fā)展,海量的信息與數(shù)據(jù)在不斷產(chǎn)生,人們對快速并準(zhǔn)確獲取信息以及對語言規(guī)范使用的需求,使中文自動問答與自動校對成為自然語言處理領(lǐng)域中備受矚目的研究方向。其中,中文自動問答是指對用戶以自然語言方式提問的問題,計算機自動返回簡潔準(zhǔn)確的答案。中文自動校對則是利用計算機來自動識別與糾正文本中的書寫錯誤以及語法錯誤。針對中文自動問答,本文首先研究了基于語句相似度的自動問答。由于問句中的關(guān)鍵詞可能與文本語句中的關(guān)鍵詞不同,在限定領(lǐng)域中,對問句中所有關(guān)鍵詞進行擴展會導(dǎo)致結(jié)果答非所問。針對該不足,本文首先利用依存句法分析來找到問句的核心關(guān)鍵詞,然后利用深度學(xué)習(xí)模型對其進行語義擴展。通過實驗發(fā)現(xiàn),對問句核心關(guān)鍵詞進行擴展能提高自動問答的查準(zhǔn)率與查全率。為了真正實現(xiàn)語義檢索,本文又研究了基于知識圖譜的自動問答。由于開放領(lǐng)域文本的特點,知識圖譜的構(gòu)建采用了實體抽取和實體關(guān)系識別技術(shù)。其中,實體抽取的實現(xiàn)是基于經(jīng)過序列標(biāo)注過的語料,而序列標(biāo)注的顆粒度大小會影響實體抽取的準(zhǔn)確率。為了增大序列標(biāo)注的顆粒度,本文首先利用依存句法分析來提取序列中的短語,然后結(jié)合領(lǐng)域詞庫來共同完成序列標(biāo)注。通過實驗發(fā)現(xiàn),... 

【文章來源】:浙江工商大學(xué)浙江省

【文章頁數(shù)】:108 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的中文自動問答與校對研究


圖1-丨2012-2017年國內(nèi)搜索引擎用戶的規(guī)模與使用率??從上圖可知,傳統(tǒng)搜索引笮的使用率極高,但是在海量的互聯(lián)網(wǎng)數(shù)據(jù)中,并??

句法分析


?問答功能測試?問句預(yù)處理??圖2-4基于語句相似度的問答功能整體設(shè)計??(1)向量空間的構(gòu)建??由于語句相似度的基礎(chǔ)是詞語間的相似度,且原始語料為中文文本,首先需??要對文本做分詞處理。由于向量空間模型是將詞頻作為向量的特征值,而分詞后??文本中存在的大量停用詞會影響最終的語句相似度,其中,停用詞是指對文本內(nèi)??容不起作用的高頻詞。接著,將分詞后的文本進行停用詞過濾,該操作是為了避??免這些高頻詞在相似度計算中變成噪聲來制約答案的搜索精度。經(jīng)過預(yù)處理后,??利用基于TF-IDF計算方法的向量空間模型來得到文本所有語句的向量化表示,??從而初步完成向量空間的構(gòu)建。接著,利用LSI模型對向量化的語句進行降維,??23??

向量空間,整體設(shè)計,功能,問句


ED??圖2-3依存句法分析舉例??2.4.2問答功能的整體設(shè)計??在限定領(lǐng)域中,基于語句相似度的問答功能的整體設(shè)計如下圖所示,主要分??成向量空間的構(gòu)建,問句預(yù)處理以及問答功能的測試三部分。??|r^T'?[pi^i??17?||?1?J?|?^?1??數(shù)據(jù)預(yù)處理?丨問句預(yù)處理%?1依存句法分析??I?r—f——|?I?IL1?——*——|?I??■文本語句的TF-??l語句相似度計|?I?Word2vec擴展??I?|?IDF值計算?I ̄p?算?|?|核心關(guān)鍵詞??I????I?|??y.??I?I????I??I?LSI模型降維|?|語句匹配結(jié)果?|?問句向S:化??L???????_i?—?—?—?—?I?i—?—?—?—?J??向量空間構(gòu)建?問答功能測試?問句預(yù)處理??圖2-4基于語句相似度的問答功能整體設(shè)計??(1)向量空間的構(gòu)建??由于語句相似度的基礎(chǔ)是詞語間的相似度,且原始語料為中文文本,首先需??要對文本做分詞處理。由于向量空間模型是將詞頻作為向量的特征值,而分詞后??文本中存在的大量停用詞會影響最終的語句相似度,其中,停用詞是指對文本內(nèi)??容不起作用的高頻詞。接著,將分詞后的文本進行停用詞過濾,該操作是為了避??免這些高頻詞在相似度計算中變成噪聲來制約答案的搜索精度。經(jīng)過預(yù)處理后,??利用基于TF-IDF計算方法的向量空間模型來得到文本所有語句的向量化表示

【參考文獻】:
期刊論文
[1]改進的基于詞典的中文分詞方法[J]. 莫建文,鄭陽,首照宇,張順嵐.  計算機工程與設(shè)計. 2013(05)
[2]基于Deep Belief Nets的中文名實體關(guān)系抽取[J]. 陳宇,鄭德權(quán),趙鐵軍.  軟件學(xué)報. 2012(10)
[3]詞匯語義信息對中文實體關(guān)系抽取影響的比較[J]. 劉丹丹,彭成,錢龍華,周國棟.  計算機應(yīng)用. 2012(08)
[4]文本相似度計算在主觀題評分中的應(yīng)用[J]. 程傳鵬,齊暉.  計算機工程. 2012(05)
[5]問答系統(tǒng)研究綜述[J]. 毛先領(lǐng),李曉明.  計算機科學(xué)與探索. 2012(03)
[6]一種基于向量空間模型的主觀題批改算法[J]. 蔡瑋,黃陳蓉,林忠,韓磊.  計算機與現(xiàn)代化. 2008(12)
[7]自動作文評分研究綜述[J]. 陳瀟瀟,葛詩利.  解放軍外國語學(xué)院學(xué)報. 2008(05)
[8]一種基于知網(wǎng)的主觀題閱卷算法[J]. 丁振國,陳海霞.  微電子學(xué)與計算機. 2008(05)
[9]基于自然語言理解的自動閱卷系統(tǒng)的設(shè)計與實現(xiàn)[J]. 高雪霞,張超.  新鄉(xiāng)師范高等?茖W(xué)校學(xué)報. 2007(05)
[10]文本自動校對技術(shù)研究綜述[J]. 張仰森,俞士汶.  計算機應(yīng)用研究. 2006(06)

碩士論文
[1]基于知識圖譜的bug分析技術(shù)研究與系統(tǒng)實現(xiàn)[D]. 王璐.揚州大學(xué) 2018
[2]面向領(lǐng)域文本知識實體識別及關(guān)系抽取的關(guān)鍵技術(shù)研究[D]. 何曉藝.河北科技大學(xué) 2018
[3]基于《中國語言生活狀況報告》流行語的多視角研究[D]. 宗冰冰.浙江財經(jīng)大學(xué) 2018
[4]基于信息抽取的實體知識庫系統(tǒng)研究[D]. 李明鑫.北京交通大學(xué) 2017
[5]文本相似度算法在自動評分系統(tǒng)中的應(yīng)用研究[D]. 歐陽經(jīng)綸.湘潭大學(xué) 2017
[6]自動作文評分模型及方法研究[D]. 陳珊珊.哈爾濱工業(yè)大學(xué) 2017
[7]基于LDA主題模型的主觀題自動評分算法[D]. 楚尚武.湘潭大學(xué) 2017
[8]中文文本自動校對系統(tǒng)設(shè)計與實現(xiàn)[D]. 張濤.西南交通大學(xué) 2017
[9]基于回歸分析的中文作文自動評分技術(shù)研究[D]. 陳一樂.哈爾濱工業(yè)大學(xué) 2016
[10]面向跨領(lǐng)域產(chǎn)品評論的情感分析研究[D]. 李寧.北京工業(yè)大學(xué) 2016



本文編號:3004200

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3004200.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bab16***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com