基于語義耦合的短文本相似度計算研究
發(fā)布時間:2021-06-15 10:58
隨著互聯(lián)網技術飛速發(fā)展和網絡信息爆炸式增長,社交工具智能化和便攜化,導致大量信息以短文本形式出現(xiàn)。例如微博評論、手機短信、聊天軟件和自動問答系統(tǒng)。短文本相似度的計算對于挖掘和處理超大規(guī)模短文本數(shù)據(jù)有著不可或缺的作用,被大量用于文本分類、文本聚類、信息檢索和微博用戶推薦等多個領域,而算法的優(yōu)劣決定著這些應用的性能。短文本相似度計算是一個復雜,多技術交叉的問題,會受諸多條件影響,例如文本表示,詞項加權策略,語義關系建模和相似度算法等。通過分析傳統(tǒng)的短文本相似度算法的缺陷,本文設計了基于距離的詞項關聯(lián)權重計算方法,并改進了詞項間內聯(lián)和外聯(lián)關系,結合內外聯(lián)關系得到耦合關系來建模詞項間更加復雜的語義關系。此外考慮到詞項強類別特征對于文章的區(qū)分性和指示性,設計了相對應的強類別特征相似度計算方法。最后綜合詞項耦合語義信息和強類別特征,構建了一種更加全面和合理的相似度計算方法。論文的主要工作總結如下:(1)設計了基于耦合關系的短文本相似度算法。首先考慮詞項共現(xiàn)信息和詞項間距離得到共現(xiàn)相關度,并以此計算詞項的關聯(lián)權重,然后利用詞項的關聯(lián)權重計算詞項內聯(lián)關系和外聯(lián)關系。其中內聯(lián)關系由詞項的關聯(lián)權重和廣義J...
【文章來源】:西北師范大學甘肅省
【文章頁數(shù)】:44 頁
【學位級別】:碩士
【部分圖文】:
圖1-1論文整體框架圖??論文結構如圖1-1所示
圖3-1?^改變在不同數(shù)據(jù)集上對聚類性能的影響??3.4.2.2算法性能對比??a二0.5
圖3-2四種短文本相似度方法性能對比??
【參考文獻】:
期刊論文
[1]融合詞語共現(xiàn)距離和類別信息的短文本特征提取方法[J]. 馬慧芳,邢玉瑩,王雙,張旭鵬. 計算機工程與科學. 2018(09)
[2]融合共現(xiàn)距離和區(qū)分度的短文本相似度計算方法[J]. 劉文,馬慧芳,脫婷,陳海波. 計算機工程與科學. 2018(07)
[3]一種多特征融合的場景分類方法[J]. 李志欣,李艷紅,張燦龍. 小型微型計算機系統(tǒng). 2018(05)
[4]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[5]融合詞語類別特征和語義的短文本分類方法[J]. 馬慧芳,周汝南,吉余崗,魯小勇. 計算機工程與科學. 2017(02)
[6]基于強類別特征近鄰傳播的半監(jiān)督文本聚類[J]. 文翰,肖南峰. 模式識別與人工智能. 2014(07)
[7]基于概率主題模型的文檔聚類[J]. 王李冬,魏寶剛,袁杰. 電子學報. 2012(11)
[8]基于加權語義網的文本相似度計算的研究[J]. 廖開際,楊彬彬. 情報雜志. 2012(07)
[9]一種基于WordNet的短文本語義相似性算法[J]. 翟延冬,王康平,張東娜,黃嵐,周春光. 電子學報. 2012(03)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學技術大學 2017
本文編號:3230930
【文章來源】:西北師范大學甘肅省
【文章頁數(shù)】:44 頁
【學位級別】:碩士
【部分圖文】:
圖1-1論文整體框架圖??論文結構如圖1-1所示
圖3-1?^改變在不同數(shù)據(jù)集上對聚類性能的影響??3.4.2.2算法性能對比??a二0.5
圖3-2四種短文本相似度方法性能對比??
【參考文獻】:
期刊論文
[1]融合詞語共現(xiàn)距離和類別信息的短文本特征提取方法[J]. 馬慧芳,邢玉瑩,王雙,張旭鵬. 計算機工程與科學. 2018(09)
[2]融合共現(xiàn)距離和區(qū)分度的短文本相似度計算方法[J]. 劉文,馬慧芳,脫婷,陳海波. 計算機工程與科學. 2018(07)
[3]一種多特征融合的場景分類方法[J]. 李志欣,李艷紅,張燦龍. 小型微型計算機系統(tǒng). 2018(05)
[4]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[5]融合詞語類別特征和語義的短文本分類方法[J]. 馬慧芳,周汝南,吉余崗,魯小勇. 計算機工程與科學. 2017(02)
[6]基于強類別特征近鄰傳播的半監(jiān)督文本聚類[J]. 文翰,肖南峰. 模式識別與人工智能. 2014(07)
[7]基于概率主題模型的文檔聚類[J]. 王李冬,魏寶剛,袁杰. 電子學報. 2012(11)
[8]基于加權語義網的文本相似度計算的研究[J]. 廖開際,楊彬彬. 情報雜志. 2012(07)
[9]一種基于WordNet的短文本語義相似性算法[J]. 翟延冬,王康平,張東娜,黃嵐,周春光. 電子學報. 2012(03)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學技術大學 2017
本文編號:3230930
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3230930.html
最近更新
教材專著