基于語(yǔ)義耦合的短文本相似度計(jì)算研究
發(fā)布時(shí)間:2021-06-15 10:58
隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展和網(wǎng)絡(luò)信息爆炸式增長(zhǎng),社交工具智能化和便攜化,導(dǎo)致大量信息以短文本形式出現(xiàn)。例如微博評(píng)論、手機(jī)短信、聊天軟件和自動(dòng)問(wèn)答系統(tǒng)。短文本相似度的計(jì)算對(duì)于挖掘和處理超大規(guī)模短文本數(shù)據(jù)有著不可或缺的作用,被大量用于文本分類、文本聚類、信息檢索和微博用戶推薦等多個(gè)領(lǐng)域,而算法的優(yōu)劣決定著這些應(yīng)用的性能。短文本相似度計(jì)算是一個(gè)復(fù)雜,多技術(shù)交叉的問(wèn)題,會(huì)受諸多條件影響,例如文本表示,詞項(xiàng)加權(quán)策略,語(yǔ)義關(guān)系建模和相似度算法等。通過(guò)分析傳統(tǒng)的短文本相似度算法的缺陷,本文設(shè)計(jì)了基于距離的詞項(xiàng)關(guān)聯(lián)權(quán)重計(jì)算方法,并改進(jìn)了詞項(xiàng)間內(nèi)聯(lián)和外聯(lián)關(guān)系,結(jié)合內(nèi)外聯(lián)關(guān)系得到耦合關(guān)系來(lái)建模詞項(xiàng)間更加復(fù)雜的語(yǔ)義關(guān)系。此外考慮到詞項(xiàng)強(qiáng)類別特征對(duì)于文章的區(qū)分性和指示性,設(shè)計(jì)了相對(duì)應(yīng)的強(qiáng)類別特征相似度計(jì)算方法。最后綜合詞項(xiàng)耦合語(yǔ)義信息和強(qiáng)類別特征,構(gòu)建了一種更加全面和合理的相似度計(jì)算方法。論文的主要工作總結(jié)如下:(1)設(shè)計(jì)了基于耦合關(guān)系的短文本相似度算法。首先考慮詞項(xiàng)共現(xiàn)信息和詞項(xiàng)間距離得到共現(xiàn)相關(guān)度,并以此計(jì)算詞項(xiàng)的關(guān)聯(lián)權(quán)重,然后利用詞項(xiàng)的關(guān)聯(lián)權(quán)重計(jì)算詞項(xiàng)內(nèi)聯(lián)關(guān)系和外聯(lián)關(guān)系。其中內(nèi)聯(lián)關(guān)系由詞項(xiàng)的關(guān)聯(lián)權(quán)重和廣義J...
【文章來(lái)源】:西北師范大學(xué)甘肅省
【文章頁(yè)數(shù)】:44 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1論文整體框架圖??論文結(jié)構(gòu)如圖1-1所示
圖3-1?^改變?cè)诓煌瑪?shù)據(jù)集上對(duì)聚類性能的影響??3.4.2.2算法性能對(duì)比??a二0.5
圖3-2四種短文本相似度方法性能對(duì)比??
【參考文獻(xiàn)】:
期刊論文
[1]融合詞語(yǔ)共現(xiàn)距離和類別信息的短文本特征提取方法[J]. 馬慧芳,邢玉瑩,王雙,張旭鵬. 計(jì)算機(jī)工程與科學(xué). 2018(09)
[2]融合共現(xiàn)距離和區(qū)分度的短文本相似度計(jì)算方法[J]. 劉文,馬慧芳,脫婷,陳海波. 計(jì)算機(jī)工程與科學(xué). 2018(07)
[3]一種多特征融合的場(chǎng)景分類方法[J]. 李志欣,李艷紅,張燦龍. 小型微型計(jì)算機(jī)系統(tǒng). 2018(05)
[4]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[5]融合詞語(yǔ)類別特征和語(yǔ)義的短文本分類方法[J]. 馬慧芳,周汝南,吉余崗,魯小勇. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[6]基于強(qiáng)類別特征近鄰傳播的半監(jiān)督文本聚類[J]. 文翰,肖南峰. 模式識(shí)別與人工智能. 2014(07)
[7]基于概率主題模型的文檔聚類[J]. 王李冬,魏寶剛,袁杰. 電子學(xué)報(bào). 2012(11)
[8]基于加權(quán)語(yǔ)義網(wǎng)的文本相似度計(jì)算的研究[J]. 廖開(kāi)際,楊彬彬. 情報(bào)雜志. 2012(07)
[9]一種基于WordNet的短文本語(yǔ)義相似性算法[J]. 翟延冬,王康平,張東娜,黃嵐,周春光. 電子學(xué)報(bào). 2012(03)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):3230930
【文章來(lái)源】:西北師范大學(xué)甘肅省
【文章頁(yè)數(shù)】:44 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1論文整體框架圖??論文結(jié)構(gòu)如圖1-1所示
圖3-1?^改變?cè)诓煌瑪?shù)據(jù)集上對(duì)聚類性能的影響??3.4.2.2算法性能對(duì)比??a二0.5
圖3-2四種短文本相似度方法性能對(duì)比??
【參考文獻(xiàn)】:
期刊論文
[1]融合詞語(yǔ)共現(xiàn)距離和類別信息的短文本特征提取方法[J]. 馬慧芳,邢玉瑩,王雙,張旭鵬. 計(jì)算機(jī)工程與科學(xué). 2018(09)
[2]融合共現(xiàn)距離和區(qū)分度的短文本相似度計(jì)算方法[J]. 劉文,馬慧芳,脫婷,陳海波. 計(jì)算機(jī)工程與科學(xué). 2018(07)
[3]一種多特征融合的場(chǎng)景分類方法[J]. 李志欣,李艷紅,張燦龍. 小型微型計(jì)算機(jī)系統(tǒng). 2018(05)
[4]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[5]融合詞語(yǔ)類別特征和語(yǔ)義的短文本分類方法[J]. 馬慧芳,周汝南,吉余崗,魯小勇. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[6]基于強(qiáng)類別特征近鄰傳播的半監(jiān)督文本聚類[J]. 文翰,肖南峰. 模式識(shí)別與人工智能. 2014(07)
[7]基于概率主題模型的文檔聚類[J]. 王李冬,魏寶剛,袁杰. 電子學(xué)報(bào). 2012(11)
[8]基于加權(quán)語(yǔ)義網(wǎng)的文本相似度計(jì)算的研究[J]. 廖開(kāi)際,楊彬彬. 情報(bào)雜志. 2012(07)
[9]一種基于WordNet的短文本語(yǔ)義相似性算法[J]. 翟延冬,王康平,張東娜,黃嵐,周春光. 電子學(xué)報(bào). 2012(03)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):3230930
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3230930.html
最近更新
教材專著