基于語義的中文文本相似度的算法研究
發(fā)布時間:2021-04-04 06:03
在信息爆炸式增長的時代,個性化信息獲取需求愈加強烈,如何從龐大的信息庫中獲取所需要的有價值的個性化信息極其重要,應(yīng)運而生的信息分類及檢索技術(shù)需求增加。在文本分類挖掘處理方面,技術(shù)應(yīng)用成了關(guān)鍵問題。在中文的文本處理方面,計算文本相似度是一個很廣泛的研究熱點,經(jīng)常應(yīng)用于信息文本檢索、人工智能服務(wù)、相似性排查等方面,如何提高文本相似度檢測方法的準確性是一個值得深入研究且極具實用價值的問題。目前,解決這類問題有幾個很流行的算法:向量空間模型算法(VSM),這類算法沒有考慮文本數(shù)據(jù)中語義相似詞語的存在,也無法解決語義相似詞語對算法準確性干擾的問題,這樣使得文本相似度計算準確性不足;隱性語義索引(LSI)算法,主要使用奇異值分解(SVD)分解文本文件,也不能解決語義相關(guān)性的問題;KNN算法是一種非參數(shù)的文本分類方法,因其簡單、有效的特點被廣泛應(yīng)用于機器學(xué)習(xí)領(lǐng)域,但是其時間成本及運維效率相對較差;最大詞組組合算法能快速有效的進行分詞,但對于語義相近、文字差別較大的詞組無法做到精確分類,同樣無法解決語義相關(guān)性的問題。本文提出一個新的解決方案,將詞語的語義相似度加入到文本相似度算法中,并對算法復(fù)雜度進行...
【文章來源】: 劉祿艷 西安電子科技大學(xué)
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
中文文本預(yù)處理過程
西安電子科技大學(xué)碩士學(xué)位論文16圖3.1知網(wǎng)義原層次結(jié)構(gòu)可見,知網(wǎng)的自上而下的層次結(jié)構(gòu)相對復(fù)雜,它是使用知網(wǎng)計算語義相似度的基礎(chǔ)[39]。3.5基于知網(wǎng)的語義相似度算法基于知網(wǎng)的語義相似度計算已經(jīng)應(yīng)用非常廣泛。相比于經(jīng)典且傳統(tǒng)的詞典,在知網(wǎng)的體系結(jié)構(gòu)中,并非所有的概念都會存在于體系節(jié)點上。一般來講,這些概念是通過義原的方式,通過知識描述語言的形式表現(xiàn)兩個中文單詞的詞語相似度,上文已經(jīng)介紹了知網(wǎng)中的兩個最基本的元素“概念”、“義原”。下面是知網(wǎng)語言描述的一些介紹,及基于知網(wǎng)的語義相似度算法。(1)知網(wǎng)將其收錄的單詞分成兩種類型,即虛詞和實詞。(2)相對來講,實詞的語言描述相比于虛詞來說要稍微復(fù)雜一些。(3)實詞中,基本義原描述,主要是使用基本義原來實現(xiàn)的。(4)實詞中,關(guān)系義原描述,主要是使用關(guān)系義原(具體詞)來實現(xiàn)的。(5)實詞中,關(guān)系符號描述,主要是通過關(guān)系符號(具體詞)來實現(xiàn)的。(6)對于描述實詞,首要的描述必須是基本義原的描述,這也是核心的描述。比較兩個W1和W2兩個中文單詞,假設(shè)W1有n個義項11121,,...,nSSS,W2有m個異項21222,,...,mSSS,W1、W2相似度的計算值就是每個異項相似度中的最大值。在知網(wǎng)中的實詞描述,定義一個結(jié)構(gòu),該結(jié)構(gòu)將兩個實詞的相似度定義如公式(3-5)所示:12Sim(c,c)d(3-5)公式中c1,c2代表實詞,d代表著兩個實詞在義原體系中的路徑長度。在知網(wǎng)的語言結(jié)構(gòu)中,存在一些義原的位置上出現(xiàn)一個概念,這些概念通常與義原的語義極為相似,把它當(dāng)作極小的常數(shù),越接近,越貼近0。第一義原通常描述為112Sim(c,c),其他的獨立義原描述為212Sim(c,c),關(guān)系義原表
西安電子科技大學(xué)碩士學(xué)位論文20分詞之后,去除掉名詞、形容詞量詞等等虛詞,本文采用的是去除停用詞表中信息語義相似度的研究上使用以實詞為主的文本分析。先進性文本分詞,使用的是漢語分詞LCTCLAS,并且去除名詞、形容詞量詞等等詞,將語義相似度加入文本相似度計算使用的是知網(wǎng)語義相似度。通過計算得到最大詞語組合,使用最大詞語組合進行運算。采用如下步驟方法:1.將文本用過漢語分詞系統(tǒng)LCTCLAS進行分詞。得到新的詞語向量。2.對得到的詞語數(shù)組進行篩選,去除其中的名詞、形容詞、量詞等虛詞信息,僅僅保留實詞信息,最后得到文本向量設(shè)置為12{,,...}nMMMM。3.引入語義相似度的計算,使用知網(wǎng)語義相似度,將語義相似度信息應(yīng)用到文本向量中,得到新文本向量12,...nN{NN,,N}。并且設(shè)置最大詞語組合為P。4.取文本向量N中數(shù)據(jù)(,)ijNN,其中(ji并且1jn)。設(shè)iN為被比較的單條向量,將jN劃分為10個子集,采用KMP模式匹配算法對,ijNN進行比較。5.在jN中尋找與iN文本相似度高的單條向量加入最大詞語組合P。6.NNP,將P從N中移除,并繼續(xù)返回步驟4。直到N為空。最后得到最大詞語組合P。7.將兩片文本向量處理得到的最大詞語組合P取出設(shè)置為1P,2P,計算兩者的余弦值即為最終文本相似度的評判。具體流程如圖4.1所示:圖4.1文本相似度計算流程
【參考文獻】:
期刊論文
[1]基于句法結(jié)構(gòu)分析的中文文本聚類方法研究[J]. 尹積棟,謝茶花,彭崧,劉紅,曾昭虎. 計算機與數(shù)字工程. 2018(05)
[2]關(guān)于期刊編輯培養(yǎng)研究的概況及啟示——基于中國知網(wǎng)2000—2016年收錄文獻的量化分析[J]. 李文玉. 出版廣角. 2018(08)
[3]基于知網(wǎng)與搜索引擎的詞匯語義相似度計算[J]. 吳克介,王家偉. 計算機與現(xiàn)代化. 2018(04)
[4]基于多謂詞語義框架的長短語文本相似度計算[J]. 王景中,楊彬彬,何云華. 計算機工程與設(shè)計. 2018(04)
[5]基于上下文信息的中文命名實體消歧方法研究[J]. 王旭陽,姜喜秋. 計算機應(yīng)用研究. 2018(04)
[6]利用深度學(xué)習(xí)的文本相似度計算方法[J]. 汪一百,陳實,葉劍鋒. 湘潭大學(xué)自然科學(xué)學(xué)報. 2018(02)
[7]基于文本屬性的微博用戶相似度研究[J]. 李夢潔,邵曦. 計算機技術(shù)與發(fā)展. 2018(05)
[8]基于語義詞典和詞頻信息的文本相似度計算[J]. 董苑,錢麗萍. 計算機科學(xué). 2017(S2)
[9]基于中國知網(wǎng)的我國人文護理學(xué)文獻計量學(xué)研究[J]. 劉成媛,盧根娣,羅夢丹. 護理研究. 2017(25)
[10]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
碩士論文
[1]科技文檔的分類與查重[D]. 呂青普.天津財經(jīng)大學(xué) 2007
本文編號:3117865
【文章來源】: 劉祿艷 西安電子科技大學(xué)
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
中文文本預(yù)處理過程
西安電子科技大學(xué)碩士學(xué)位論文16圖3.1知網(wǎng)義原層次結(jié)構(gòu)可見,知網(wǎng)的自上而下的層次結(jié)構(gòu)相對復(fù)雜,它是使用知網(wǎng)計算語義相似度的基礎(chǔ)[39]。3.5基于知網(wǎng)的語義相似度算法基于知網(wǎng)的語義相似度計算已經(jīng)應(yīng)用非常廣泛。相比于經(jīng)典且傳統(tǒng)的詞典,在知網(wǎng)的體系結(jié)構(gòu)中,并非所有的概念都會存在于體系節(jié)點上。一般來講,這些概念是通過義原的方式,通過知識描述語言的形式表現(xiàn)兩個中文單詞的詞語相似度,上文已經(jīng)介紹了知網(wǎng)中的兩個最基本的元素“概念”、“義原”。下面是知網(wǎng)語言描述的一些介紹,及基于知網(wǎng)的語義相似度算法。(1)知網(wǎng)將其收錄的單詞分成兩種類型,即虛詞和實詞。(2)相對來講,實詞的語言描述相比于虛詞來說要稍微復(fù)雜一些。(3)實詞中,基本義原描述,主要是使用基本義原來實現(xiàn)的。(4)實詞中,關(guān)系義原描述,主要是使用關(guān)系義原(具體詞)來實現(xiàn)的。(5)實詞中,關(guān)系符號描述,主要是通過關(guān)系符號(具體詞)來實現(xiàn)的。(6)對于描述實詞,首要的描述必須是基本義原的描述,這也是核心的描述。比較兩個W1和W2兩個中文單詞,假設(shè)W1有n個義項11121,,...,nSSS,W2有m個異項21222,,...,mSSS,W1、W2相似度的計算值就是每個異項相似度中的最大值。在知網(wǎng)中的實詞描述,定義一個結(jié)構(gòu),該結(jié)構(gòu)將兩個實詞的相似度定義如公式(3-5)所示:12Sim(c,c)d(3-5)公式中c1,c2代表實詞,d代表著兩個實詞在義原體系中的路徑長度。在知網(wǎng)的語言結(jié)構(gòu)中,存在一些義原的位置上出現(xiàn)一個概念,這些概念通常與義原的語義極為相似,把它當(dāng)作極小的常數(shù),越接近,越貼近0。第一義原通常描述為112Sim(c,c),其他的獨立義原描述為212Sim(c,c),關(guān)系義原表
西安電子科技大學(xué)碩士學(xué)位論文20分詞之后,去除掉名詞、形容詞量詞等等虛詞,本文采用的是去除停用詞表中信息語義相似度的研究上使用以實詞為主的文本分析。先進性文本分詞,使用的是漢語分詞LCTCLAS,并且去除名詞、形容詞量詞等等詞,將語義相似度加入文本相似度計算使用的是知網(wǎng)語義相似度。通過計算得到最大詞語組合,使用最大詞語組合進行運算。采用如下步驟方法:1.將文本用過漢語分詞系統(tǒng)LCTCLAS進行分詞。得到新的詞語向量。2.對得到的詞語數(shù)組進行篩選,去除其中的名詞、形容詞、量詞等虛詞信息,僅僅保留實詞信息,最后得到文本向量設(shè)置為12{,,...}nMMMM。3.引入語義相似度的計算,使用知網(wǎng)語義相似度,將語義相似度信息應(yīng)用到文本向量中,得到新文本向量12,...nN{NN,,N}。并且設(shè)置最大詞語組合為P。4.取文本向量N中數(shù)據(jù)(,)ijNN,其中(ji并且1jn)。設(shè)iN為被比較的單條向量,將jN劃分為10個子集,采用KMP模式匹配算法對,ijNN進行比較。5.在jN中尋找與iN文本相似度高的單條向量加入最大詞語組合P。6.NNP,將P從N中移除,并繼續(xù)返回步驟4。直到N為空。最后得到最大詞語組合P。7.將兩片文本向量處理得到的最大詞語組合P取出設(shè)置為1P,2P,計算兩者的余弦值即為最終文本相似度的評判。具體流程如圖4.1所示:圖4.1文本相似度計算流程
【參考文獻】:
期刊論文
[1]基于句法結(jié)構(gòu)分析的中文文本聚類方法研究[J]. 尹積棟,謝茶花,彭崧,劉紅,曾昭虎. 計算機與數(shù)字工程. 2018(05)
[2]關(guān)于期刊編輯培養(yǎng)研究的概況及啟示——基于中國知網(wǎng)2000—2016年收錄文獻的量化分析[J]. 李文玉. 出版廣角. 2018(08)
[3]基于知網(wǎng)與搜索引擎的詞匯語義相似度計算[J]. 吳克介,王家偉. 計算機與現(xiàn)代化. 2018(04)
[4]基于多謂詞語義框架的長短語文本相似度計算[J]. 王景中,楊彬彬,何云華. 計算機工程與設(shè)計. 2018(04)
[5]基于上下文信息的中文命名實體消歧方法研究[J]. 王旭陽,姜喜秋. 計算機應(yīng)用研究. 2018(04)
[6]利用深度學(xué)習(xí)的文本相似度計算方法[J]. 汪一百,陳實,葉劍鋒. 湘潭大學(xué)自然科學(xué)學(xué)報. 2018(02)
[7]基于文本屬性的微博用戶相似度研究[J]. 李夢潔,邵曦. 計算機技術(shù)與發(fā)展. 2018(05)
[8]基于語義詞典和詞頻信息的文本相似度計算[J]. 董苑,錢麗萍. 計算機科學(xué). 2017(S2)
[9]基于中國知網(wǎng)的我國人文護理學(xué)文獻計量學(xué)研究[J]. 劉成媛,盧根娣,羅夢丹. 護理研究. 2017(25)
[10]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
碩士論文
[1]科技文檔的分類與查重[D]. 呂青普.天津財經(jīng)大學(xué) 2007
本文編號:3117865
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3117865.html
最近更新
教材專著