基于語(yǔ)義樹(shù)的短文本相似度算法研究與應(yīng)用
發(fā)布時(shí)間:2021-11-04 19:07
互聯(lián)網(wǎng)時(shí)代的海量信息資源充斥著我們的生活,這些信息資源很大一部分是以自然語(yǔ)言的形式存在的文本信息,如電子郵件、網(wǎng)頁(yè)、電子書(shū)等。伴隨著人工智能的發(fā)展,自然語(yǔ)言處理的各種技術(shù)被應(yīng)用到互聯(lián)網(wǎng)的各個(gè)方面,如文本數(shù)據(jù)挖掘,搜索引擎等,而文本相似度計(jì)算是自然語(yǔ)言處理的核心技術(shù)之一。本文對(duì)自然語(yǔ)言處理這一研究方向的背景和研究現(xiàn)狀進(jìn)行了較為深入的了解和分析,并對(duì)相關(guān)理論進(jìn)行了總結(jié)和學(xué)習(xí),確立了本文的研究目標(biāo):短文本相似度算法研究。同時(shí)結(jié)合讀研期間參與的在線教育平臺(tái)項(xiàng)目,提出了基于短文本相似度算法的主觀題自動(dòng)評(píng)分算法,并將該算法應(yīng)用到了面向政治公共課考試的主觀題自動(dòng)評(píng)分系統(tǒng),并予以實(shí)現(xiàn)。本文所提出的短文本相似度算法以一棵語(yǔ)義樹(shù)來(lái)表示一個(gè)語(yǔ)義完整的短文本,語(yǔ)義樹(shù)以短文本中的核心詞語(yǔ)為節(jié)點(diǎn),以節(jié)點(diǎn)間的語(yǔ)義依存關(guān)系作為樹(shù)節(jié)點(diǎn)間的權(quán)值。根據(jù)語(yǔ)義樹(shù)的特點(diǎn),綜合考慮了根節(jié)點(diǎn)核心詞語(yǔ)相似度,語(yǔ)義依存關(guān)系種類,具有相同語(yǔ)義依存關(guān)系的詞語(yǔ)相似度等因素來(lái)計(jì)算短文本相似度。在短文本相似度算法的基礎(chǔ)上提出了主觀題自動(dòng)評(píng)分算法,該算法將答案文本根據(jù)一定特征進(jìn)行切分,然后將切分后的短文本逐條計(jì)算相似度,得出一個(gè)得分矩陣,根據(jù)得分矩...
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于規(guī)則的自然語(yǔ)言處理基于規(guī)則的自然語(yǔ)言處理方法能從認(rèn)知科學(xué)和語(yǔ)言學(xué)的角度解釋該方法的
圖 2.1 基于規(guī)則的自然語(yǔ)言處理基于規(guī)則的自然語(yǔ)言處理方法能從認(rèn)知科學(xué)和語(yǔ)言學(xué)的角度解釋該方法的合理性,但從實(shí)際情況說(shuō),由于語(yǔ)言的歧義和指代等特性,而且隨著社會(huì)文化的演進(jìn)和改變會(huì)用俚語(yǔ)和網(wǎng)絡(luò)用語(yǔ)的出現(xiàn),這使得計(jì)算機(jī)無(wú)法窮盡所有語(yǔ)言規(guī)則。因此基于語(yǔ)言規(guī)則的自然語(yǔ)言處理方法的精度無(wú)法大幅度提升。(2)基于統(tǒng)計(jì)的自然語(yǔ)言處理方法:該方法是基于貝葉斯方法和香儂噪聲管道模型所提出的的方法。使用該方法前需要建立一個(gè)大規(guī)模完備的語(yǔ)料庫(kù),通過(guò)統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)分析語(yǔ)料庫(kù),計(jì)算出每一句話出現(xiàn)的頻率,通過(guò)計(jì)算機(jī)程序找到對(duì)應(yīng)環(huán)境中出現(xiàn)概率最大的語(yǔ)句,以達(dá)到使計(jì)算機(jī)理解自然語(yǔ)言的效果。
圖 2.3 規(guī)則和統(tǒng)計(jì)結(jié)合的自然語(yǔ)言處理2.2《知網(wǎng)》語(yǔ)言知識(shí)庫(kù)2.2.1《知網(wǎng)》簡(jiǎn)介《知網(wǎng)》(Hownet)是董振東先生等在 1988 年建立的一個(gè)語(yǔ)言知識(shí)庫(kù),該
【參考文獻(xiàn)】:
期刊論文
[1]基于相似度融合算法的主觀題自動(dòng)閱卷機(jī)制[J]. 李紀(jì)扣,韓建宇,王嫄. 天津科技大學(xué)學(xué)報(bào). 2019(01)
[2]文本相似度計(jì)算研究進(jìn)展綜述[J]. 王寒茹,張仰森. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[3]基于sentence2vec與半監(jiān)督算法的中文問(wèn)答提問(wèn)模式抽取[J]. 張金壬,章韻,王宇. 計(jì)算機(jī)應(yīng)用研究. 2019(07)
[4]基于醫(yī)療衛(wèi)生文本語(yǔ)義依存樹(shù)庫(kù)建設(shè)研究[J]. 于清,陳亞波,徐健,常樂(lè),侯云霞. 新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(01)
[5]基于改進(jìn)的Jaccard系數(shù)文檔相似度計(jì)算方法[J]. 俞婷婷,徐彭娜,江育娥,林劼. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(12)
[6]基于知網(wǎng)與詞林的詞語(yǔ)語(yǔ)義相似度計(jì)算[J]. 朱新華,馬潤(rùn)聰,孫柳,陳宏朝. 中文信息學(xué)報(bào). 2016(04)
[7]基于知網(wǎng)義原詞向量表示的無(wú)監(jiān)督詞義消歧方法[J]. 唐共波,于東,荀恩東. 中文信息學(xué)報(bào). 2015(06)
[8]基于知網(wǎng)語(yǔ)義相似度的中文文本分類研究[J]. 劉懷亮,杜坤,秦春秀. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2015(02)
[9]基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J]. 張滬寅,劉道波,溫春艷. 計(jì)算機(jī)工程. 2015(02)
[10]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍. 計(jì)算機(jī)科學(xué). 2013(12)
博士論文
[1]中文詞法句法語(yǔ)義聯(lián)合分析模型研究[D]. 張梅山.哈爾濱工業(yè)大學(xué) 2014
碩士論文
[1]文本相似度算法在自動(dòng)評(píng)分系統(tǒng)中的應(yīng)用研究[D]. 歐陽(yáng)經(jīng)綸.湘潭大學(xué) 2017
[2]基于語(yǔ)義依存樹(shù)的主觀題自動(dòng)評(píng)分算法研究[D]. 段威.湘潭大學(xué) 2016
[3]中文短文本主題分類方法研究[D]. 李洪圖.西北大學(xué) 2014
[4]基于HNC理論的文本語(yǔ)義相似度計(jì)算與應(yīng)用[D]. 吳佐衍.大連理工大學(xué) 2014
[5]基于關(guān)系向量模型的句子相似度計(jì)算及自動(dòng)文摘研究[D]. 殷耀明.廈門(mén)大學(xué) 2014
[6]文本情感分析在產(chǎn)品評(píng)論中的應(yīng)用研究[D]. 魏慧玲.北京交通大學(xué) 2014
[7]基于模糊理論的在線智能閱卷系統(tǒng)的研究與應(yīng)用[D]. 張翠萍.石家莊鐵道大學(xué) 2013
[8]基于漢語(yǔ)依存句法分析的主觀題自動(dòng)評(píng)分研究[D]. 趙白玉.湖南大學(xué) 2012
[9]基于領(lǐng)域本體和句框架的主觀題自動(dòng)閱卷算法研究[D]. 蘇方方.廣西師范大學(xué) 2012
[10]基于中文的主觀試題自動(dòng)批改技術(shù)的研究與系統(tǒng)實(shí)現(xiàn)[D]. 王亮.電子科技大學(xué) 2012
本文編號(hào):3476295
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于規(guī)則的自然語(yǔ)言處理基于規(guī)則的自然語(yǔ)言處理方法能從認(rèn)知科學(xué)和語(yǔ)言學(xué)的角度解釋該方法的
圖 2.1 基于規(guī)則的自然語(yǔ)言處理基于規(guī)則的自然語(yǔ)言處理方法能從認(rèn)知科學(xué)和語(yǔ)言學(xué)的角度解釋該方法的合理性,但從實(shí)際情況說(shuō),由于語(yǔ)言的歧義和指代等特性,而且隨著社會(huì)文化的演進(jìn)和改變會(huì)用俚語(yǔ)和網(wǎng)絡(luò)用語(yǔ)的出現(xiàn),這使得計(jì)算機(jī)無(wú)法窮盡所有語(yǔ)言規(guī)則。因此基于語(yǔ)言規(guī)則的自然語(yǔ)言處理方法的精度無(wú)法大幅度提升。(2)基于統(tǒng)計(jì)的自然語(yǔ)言處理方法:該方法是基于貝葉斯方法和香儂噪聲管道模型所提出的的方法。使用該方法前需要建立一個(gè)大規(guī)模完備的語(yǔ)料庫(kù),通過(guò)統(tǒng)計(jì)學(xué)原理統(tǒng)計(jì)分析語(yǔ)料庫(kù),計(jì)算出每一句話出現(xiàn)的頻率,通過(guò)計(jì)算機(jī)程序找到對(duì)應(yīng)環(huán)境中出現(xiàn)概率最大的語(yǔ)句,以達(dá)到使計(jì)算機(jī)理解自然語(yǔ)言的效果。
圖 2.3 規(guī)則和統(tǒng)計(jì)結(jié)合的自然語(yǔ)言處理2.2《知網(wǎng)》語(yǔ)言知識(shí)庫(kù)2.2.1《知網(wǎng)》簡(jiǎn)介《知網(wǎng)》(Hownet)是董振東先生等在 1988 年建立的一個(gè)語(yǔ)言知識(shí)庫(kù),該
【參考文獻(xiàn)】:
期刊論文
[1]基于相似度融合算法的主觀題自動(dòng)閱卷機(jī)制[J]. 李紀(jì)扣,韓建宇,王嫄. 天津科技大學(xué)學(xué)報(bào). 2019(01)
[2]文本相似度計(jì)算研究進(jìn)展綜述[J]. 王寒茹,張仰森. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[3]基于sentence2vec與半監(jiān)督算法的中文問(wèn)答提問(wèn)模式抽取[J]. 張金壬,章韻,王宇. 計(jì)算機(jī)應(yīng)用研究. 2019(07)
[4]基于醫(yī)療衛(wèi)生文本語(yǔ)義依存樹(shù)庫(kù)建設(shè)研究[J]. 于清,陳亞波,徐健,常樂(lè),侯云霞. 新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(01)
[5]基于改進(jìn)的Jaccard系數(shù)文檔相似度計(jì)算方法[J]. 俞婷婷,徐彭娜,江育娥,林劼. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(12)
[6]基于知網(wǎng)與詞林的詞語(yǔ)語(yǔ)義相似度計(jì)算[J]. 朱新華,馬潤(rùn)聰,孫柳,陳宏朝. 中文信息學(xué)報(bào). 2016(04)
[7]基于知網(wǎng)義原詞向量表示的無(wú)監(jiān)督詞義消歧方法[J]. 唐共波,于東,荀恩東. 中文信息學(xué)報(bào). 2015(06)
[8]基于知網(wǎng)語(yǔ)義相似度的中文文本分類研究[J]. 劉懷亮,杜坤,秦春秀. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2015(02)
[9]基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J]. 張滬寅,劉道波,溫春艷. 計(jì)算機(jī)工程. 2015(02)
[10]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍. 計(jì)算機(jī)科學(xué). 2013(12)
博士論文
[1]中文詞法句法語(yǔ)義聯(lián)合分析模型研究[D]. 張梅山.哈爾濱工業(yè)大學(xué) 2014
碩士論文
[1]文本相似度算法在自動(dòng)評(píng)分系統(tǒng)中的應(yīng)用研究[D]. 歐陽(yáng)經(jīng)綸.湘潭大學(xué) 2017
[2]基于語(yǔ)義依存樹(shù)的主觀題自動(dòng)評(píng)分算法研究[D]. 段威.湘潭大學(xué) 2016
[3]中文短文本主題分類方法研究[D]. 李洪圖.西北大學(xué) 2014
[4]基于HNC理論的文本語(yǔ)義相似度計(jì)算與應(yīng)用[D]. 吳佐衍.大連理工大學(xué) 2014
[5]基于關(guān)系向量模型的句子相似度計(jì)算及自動(dòng)文摘研究[D]. 殷耀明.廈門(mén)大學(xué) 2014
[6]文本情感分析在產(chǎn)品評(píng)論中的應(yīng)用研究[D]. 魏慧玲.北京交通大學(xué) 2014
[7]基于模糊理論的在線智能閱卷系統(tǒng)的研究與應(yīng)用[D]. 張翠萍.石家莊鐵道大學(xué) 2013
[8]基于漢語(yǔ)依存句法分析的主觀題自動(dòng)評(píng)分研究[D]. 趙白玉.湖南大學(xué) 2012
[9]基于領(lǐng)域本體和句框架的主觀題自動(dòng)閱卷算法研究[D]. 蘇方方.廣西師范大學(xué) 2012
[10]基于中文的主觀試題自動(dòng)批改技術(shù)的研究與系統(tǒng)實(shí)現(xiàn)[D]. 王亮.電子科技大學(xué) 2012
本文編號(hào):3476295
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3476295.html
最近更新
教材專著