基于深度學(xué)習(xí)的中文自動(dòng)問(wèn)答與校對(duì)研究
發(fā)布時(shí)間:2021-01-28 02:36
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,海量的信息與數(shù)據(jù)在不斷產(chǎn)生,人們對(duì)快速并準(zhǔn)確獲取信息以及對(duì)語(yǔ)言規(guī)范使用的需求,使中文自動(dòng)問(wèn)答與自動(dòng)校對(duì)成為自然語(yǔ)言處理領(lǐng)域中備受矚目的研究方向。其中,中文自動(dòng)問(wèn)答是指對(duì)用戶以自然語(yǔ)言方式提問(wèn)的問(wèn)題,計(jì)算機(jī)自動(dòng)返回簡(jiǎn)潔準(zhǔn)確的答案。中文自動(dòng)校對(duì)則是利用計(jì)算機(jī)來(lái)自動(dòng)識(shí)別與糾正文本中的書寫錯(cuò)誤以及語(yǔ)法錯(cuò)誤。針對(duì)中文自動(dòng)問(wèn)答,本文首先研究了基于語(yǔ)句相似度的自動(dòng)問(wèn)答。由于問(wèn)句中的關(guān)鍵詞可能與文本語(yǔ)句中的關(guān)鍵詞不同,在限定領(lǐng)域中,對(duì)問(wèn)句中所有關(guān)鍵詞進(jìn)行擴(kuò)展會(huì)導(dǎo)致結(jié)果答非所問(wèn)。針對(duì)該不足,本文首先利用依存句法分析來(lái)找到問(wèn)句的核心關(guān)鍵詞,然后利用深度學(xué)習(xí)模型對(duì)其進(jìn)行語(yǔ)義擴(kuò)展。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),對(duì)問(wèn)句核心關(guān)鍵詞進(jìn)行擴(kuò)展能提高自動(dòng)問(wèn)答的查準(zhǔn)率與查全率。為了真正實(shí)現(xiàn)語(yǔ)義檢索,本文又研究了基于知識(shí)圖譜的自動(dòng)問(wèn)答。由于開(kāi)放領(lǐng)域文本的特點(diǎn),知識(shí)圖譜的構(gòu)建采用了實(shí)體抽取和實(shí)體關(guān)系識(shí)別技術(shù)。其中,實(shí)體抽取的實(shí)現(xiàn)是基于經(jīng)過(guò)序列標(biāo)注過(guò)的語(yǔ)料,而序列標(biāo)注的顆粒度大小會(huì)影響實(shí)體抽取的準(zhǔn)確率。為了增大序列標(biāo)注的顆粒度,本文首先利用依存句法分析來(lái)提取序列中的短語(yǔ),然后結(jié)合領(lǐng)域詞庫(kù)來(lái)共同完成序列標(biāo)注。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),...
【文章來(lái)源】:浙江工商大學(xué)浙江省
【文章頁(yè)數(shù)】:108 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-丨2012-2017年國(guó)內(nèi)搜索引擎用戶的規(guī)模與使用率??從上圖可知,傳統(tǒng)搜索引笮的使用率極高,但是在海量的互聯(lián)網(wǎng)數(shù)據(jù)中,并??
?問(wèn)答功能測(cè)試?問(wèn)句預(yù)處理??圖2-4基于語(yǔ)句相似度的問(wèn)答功能整體設(shè)計(jì)??(1)向量空間的構(gòu)建??由于語(yǔ)句相似度的基礎(chǔ)是詞語(yǔ)間的相似度,且原始語(yǔ)料為中文文本,首先需??要對(duì)文本做分詞處理。由于向量空間模型是將詞頻作為向量的特征值,而分詞后??文本中存在的大量停用詞會(huì)影響最終的語(yǔ)句相似度,其中,停用詞是指對(duì)文本內(nèi)??容不起作用的高頻詞。接著,將分詞后的文本進(jìn)行停用詞過(guò)濾,該操作是為了避??免這些高頻詞在相似度計(jì)算中變成噪聲來(lái)制約答案的搜索精度。經(jīng)過(guò)預(yù)處理后,??利用基于TF-IDF計(jì)算方法的向量空間模型來(lái)得到文本所有語(yǔ)句的向量化表示,??從而初步完成向量空間的構(gòu)建。接著,利用LSI模型對(duì)向量化的語(yǔ)句進(jìn)行降維,??23??
ED??圖2-3依存句法分析舉例??2.4.2問(wèn)答功能的整體設(shè)計(jì)??在限定領(lǐng)域中,基于語(yǔ)句相似度的問(wèn)答功能的整體設(shè)計(jì)如下圖所示,主要分??成向量空間的構(gòu)建,問(wèn)句預(yù)處理以及問(wèn)答功能的測(cè)試三部分。??|r^T'?[pi^i??17?||?1?J?|?^?1??數(shù)據(jù)預(yù)處理?丨問(wèn)句預(yù)處理%?1依存句法分析??I?r—f——|?I?IL1?——*——|?I??■文本語(yǔ)句的TF-??l語(yǔ)句相似度計(jì)|?I?Word2vec擴(kuò)展??I?|?IDF值計(jì)算?I ̄p?算?|?|核心關(guān)鍵詞??I????I?|??y.??I?I????I??I?LSI模型降維|?|語(yǔ)句匹配結(jié)果?|?問(wèn)句向S:化??L???????_i?—?—?—?—?I?i—?—?—?—?J??向量空間構(gòu)建?問(wèn)答功能測(cè)試?問(wèn)句預(yù)處理??圖2-4基于語(yǔ)句相似度的問(wèn)答功能整體設(shè)計(jì)??(1)向量空間的構(gòu)建??由于語(yǔ)句相似度的基礎(chǔ)是詞語(yǔ)間的相似度,且原始語(yǔ)料為中文文本,首先需??要對(duì)文本做分詞處理。由于向量空間模型是將詞頻作為向量的特征值,而分詞后??文本中存在的大量停用詞會(huì)影響最終的語(yǔ)句相似度,其中,停用詞是指對(duì)文本內(nèi)??容不起作用的高頻詞。接著,將分詞后的文本進(jìn)行停用詞過(guò)濾,該操作是為了避??免這些高頻詞在相似度計(jì)算中變成噪聲來(lái)制約答案的搜索精度。經(jīng)過(guò)預(yù)處理后,??利用基于TF-IDF計(jì)算方法的向量空間模型來(lái)得到文本所有語(yǔ)句的向量化表示
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的基于詞典的中文分詞方法[J]. 莫建文,鄭陽(yáng),首照宇,張順嵐. 計(jì)算機(jī)工程與設(shè)計(jì). 2013(05)
[2]基于Deep Belief Nets的中文名實(shí)體關(guān)系抽取[J]. 陳宇,鄭德權(quán),趙鐵軍. 軟件學(xué)報(bào). 2012(10)
[3]詞匯語(yǔ)義信息對(duì)中文實(shí)體關(guān)系抽取影響的比較[J]. 劉丹丹,彭成,錢龍華,周國(guó)棟. 計(jì)算機(jī)應(yīng)用. 2012(08)
[4]文本相似度計(jì)算在主觀題評(píng)分中的應(yīng)用[J]. 程傳鵬,齊暉. 計(jì)算機(jī)工程. 2012(05)
[5]問(wèn)答系統(tǒng)研究綜述[J]. 毛先領(lǐng),李曉明. 計(jì)算機(jī)科學(xué)與探索. 2012(03)
[6]一種基于向量空間模型的主觀題批改算法[J]. 蔡瑋,黃陳蓉,林忠,韓磊. 計(jì)算機(jī)與現(xiàn)代化. 2008(12)
[7]自動(dòng)作文評(píng)分研究綜述[J]. 陳瀟瀟,葛詩(shī)利. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào). 2008(05)
[8]一種基于知網(wǎng)的主觀題閱卷算法[J]. 丁振國(guó),陳海霞. 微電子學(xué)與計(jì)算機(jī). 2008(05)
[9]基于自然語(yǔ)言理解的自動(dòng)閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 高雪霞,張超. 新鄉(xiāng)師范高等?茖W(xué)校學(xué)報(bào). 2007(05)
[10]文本自動(dòng)校對(duì)技術(shù)研究綜述[J]. 張仰森,俞士汶. 計(jì)算機(jī)應(yīng)用研究. 2006(06)
碩士論文
[1]基于知識(shí)圖譜的bug分析技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D]. 王璐.揚(yáng)州大學(xué) 2018
[2]面向領(lǐng)域文本知識(shí)實(shí)體識(shí)別及關(guān)系抽取的關(guān)鍵技術(shù)研究[D]. 何曉藝.河北科技大學(xué) 2018
[3]基于《中國(guó)語(yǔ)言生活狀況報(bào)告》流行語(yǔ)的多視角研究[D]. 宗冰冰.浙江財(cái)經(jīng)大學(xué) 2018
[4]基于信息抽取的實(shí)體知識(shí)庫(kù)系統(tǒng)研究[D]. 李明鑫.北京交通大學(xué) 2017
[5]文本相似度算法在自動(dòng)評(píng)分系統(tǒng)中的應(yīng)用研究[D]. 歐陽(yáng)經(jīng)綸.湘潭大學(xué) 2017
[6]自動(dòng)作文評(píng)分模型及方法研究[D]. 陳珊珊.哈爾濱工業(yè)大學(xué) 2017
[7]基于LDA主題模型的主觀題自動(dòng)評(píng)分算法[D]. 楚尚武.湘潭大學(xué) 2017
[8]中文文本自動(dòng)校對(duì)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 張濤.西南交通大學(xué) 2017
[9]基于回歸分析的中文作文自動(dòng)評(píng)分技術(shù)研究[D]. 陳一樂(lè).哈爾濱工業(yè)大學(xué) 2016
[10]面向跨領(lǐng)域產(chǎn)品評(píng)論的情感分析研究[D]. 李寧.北京工業(yè)大學(xué) 2016
本文編號(hào):3004200
【文章來(lái)源】:浙江工商大學(xué)浙江省
【文章頁(yè)數(shù)】:108 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-丨2012-2017年國(guó)內(nèi)搜索引擎用戶的規(guī)模與使用率??從上圖可知,傳統(tǒng)搜索引笮的使用率極高,但是在海量的互聯(lián)網(wǎng)數(shù)據(jù)中,并??
?問(wèn)答功能測(cè)試?問(wèn)句預(yù)處理??圖2-4基于語(yǔ)句相似度的問(wèn)答功能整體設(shè)計(jì)??(1)向量空間的構(gòu)建??由于語(yǔ)句相似度的基礎(chǔ)是詞語(yǔ)間的相似度,且原始語(yǔ)料為中文文本,首先需??要對(duì)文本做分詞處理。由于向量空間模型是將詞頻作為向量的特征值,而分詞后??文本中存在的大量停用詞會(huì)影響最終的語(yǔ)句相似度,其中,停用詞是指對(duì)文本內(nèi)??容不起作用的高頻詞。接著,將分詞后的文本進(jìn)行停用詞過(guò)濾,該操作是為了避??免這些高頻詞在相似度計(jì)算中變成噪聲來(lái)制約答案的搜索精度。經(jīng)過(guò)預(yù)處理后,??利用基于TF-IDF計(jì)算方法的向量空間模型來(lái)得到文本所有語(yǔ)句的向量化表示,??從而初步完成向量空間的構(gòu)建。接著,利用LSI模型對(duì)向量化的語(yǔ)句進(jìn)行降維,??23??
ED??圖2-3依存句法分析舉例??2.4.2問(wèn)答功能的整體設(shè)計(jì)??在限定領(lǐng)域中,基于語(yǔ)句相似度的問(wèn)答功能的整體設(shè)計(jì)如下圖所示,主要分??成向量空間的構(gòu)建,問(wèn)句預(yù)處理以及問(wèn)答功能的測(cè)試三部分。??|r^T'?[pi^i??17?||?1?J?|?^?1??數(shù)據(jù)預(yù)處理?丨問(wèn)句預(yù)處理%?1依存句法分析??I?r—f——|?I?IL1?——*——|?I??■文本語(yǔ)句的TF-??l語(yǔ)句相似度計(jì)|?I?Word2vec擴(kuò)展??I?|?IDF值計(jì)算?I ̄p?算?|?|核心關(guān)鍵詞??I????I?|??y.??I?I????I??I?LSI模型降維|?|語(yǔ)句匹配結(jié)果?|?問(wèn)句向S:化??L???????_i?—?—?—?—?I?i—?—?—?—?J??向量空間構(gòu)建?問(wèn)答功能測(cè)試?問(wèn)句預(yù)處理??圖2-4基于語(yǔ)句相似度的問(wèn)答功能整體設(shè)計(jì)??(1)向量空間的構(gòu)建??由于語(yǔ)句相似度的基礎(chǔ)是詞語(yǔ)間的相似度,且原始語(yǔ)料為中文文本,首先需??要對(duì)文本做分詞處理。由于向量空間模型是將詞頻作為向量的特征值,而分詞后??文本中存在的大量停用詞會(huì)影響最終的語(yǔ)句相似度,其中,停用詞是指對(duì)文本內(nèi)??容不起作用的高頻詞。接著,將分詞后的文本進(jìn)行停用詞過(guò)濾,該操作是為了避??免這些高頻詞在相似度計(jì)算中變成噪聲來(lái)制約答案的搜索精度。經(jīng)過(guò)預(yù)處理后,??利用基于TF-IDF計(jì)算方法的向量空間模型來(lái)得到文本所有語(yǔ)句的向量化表示
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的基于詞典的中文分詞方法[J]. 莫建文,鄭陽(yáng),首照宇,張順嵐. 計(jì)算機(jī)工程與設(shè)計(jì). 2013(05)
[2]基于Deep Belief Nets的中文名實(shí)體關(guān)系抽取[J]. 陳宇,鄭德權(quán),趙鐵軍. 軟件學(xué)報(bào). 2012(10)
[3]詞匯語(yǔ)義信息對(duì)中文實(shí)體關(guān)系抽取影響的比較[J]. 劉丹丹,彭成,錢龍華,周國(guó)棟. 計(jì)算機(jī)應(yīng)用. 2012(08)
[4]文本相似度計(jì)算在主觀題評(píng)分中的應(yīng)用[J]. 程傳鵬,齊暉. 計(jì)算機(jī)工程. 2012(05)
[5]問(wèn)答系統(tǒng)研究綜述[J]. 毛先領(lǐng),李曉明. 計(jì)算機(jī)科學(xué)與探索. 2012(03)
[6]一種基于向量空間模型的主觀題批改算法[J]. 蔡瑋,黃陳蓉,林忠,韓磊. 計(jì)算機(jī)與現(xiàn)代化. 2008(12)
[7]自動(dòng)作文評(píng)分研究綜述[J]. 陳瀟瀟,葛詩(shī)利. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào). 2008(05)
[8]一種基于知網(wǎng)的主觀題閱卷算法[J]. 丁振國(guó),陳海霞. 微電子學(xué)與計(jì)算機(jī). 2008(05)
[9]基于自然語(yǔ)言理解的自動(dòng)閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 高雪霞,張超. 新鄉(xiāng)師范高等?茖W(xué)校學(xué)報(bào). 2007(05)
[10]文本自動(dòng)校對(duì)技術(shù)研究綜述[J]. 張仰森,俞士汶. 計(jì)算機(jī)應(yīng)用研究. 2006(06)
碩士論文
[1]基于知識(shí)圖譜的bug分析技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D]. 王璐.揚(yáng)州大學(xué) 2018
[2]面向領(lǐng)域文本知識(shí)實(shí)體識(shí)別及關(guān)系抽取的關(guān)鍵技術(shù)研究[D]. 何曉藝.河北科技大學(xué) 2018
[3]基于《中國(guó)語(yǔ)言生活狀況報(bào)告》流行語(yǔ)的多視角研究[D]. 宗冰冰.浙江財(cái)經(jīng)大學(xué) 2018
[4]基于信息抽取的實(shí)體知識(shí)庫(kù)系統(tǒng)研究[D]. 李明鑫.北京交通大學(xué) 2017
[5]文本相似度算法在自動(dòng)評(píng)分系統(tǒng)中的應(yīng)用研究[D]. 歐陽(yáng)經(jīng)綸.湘潭大學(xué) 2017
[6]自動(dòng)作文評(píng)分模型及方法研究[D]. 陳珊珊.哈爾濱工業(yè)大學(xué) 2017
[7]基于LDA主題模型的主觀題自動(dòng)評(píng)分算法[D]. 楚尚武.湘潭大學(xué) 2017
[8]中文文本自動(dòng)校對(duì)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 張濤.西南交通大學(xué) 2017
[9]基于回歸分析的中文作文自動(dòng)評(píng)分技術(shù)研究[D]. 陳一樂(lè).哈爾濱工業(yè)大學(xué) 2016
[10]面向跨領(lǐng)域產(chǎn)品評(píng)論的情感分析研究[D]. 李寧.北京工業(yè)大學(xué) 2016
本文編號(hào):3004200
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3004200.html
最近更新
教材專著