天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于語義簇的中文文本聚類算法研究

發(fā)布時間:2021-08-06 11:38
  在文本信息處理中,文本信息檢索、文本聚類等方法的核心問題是對文本的語義表達。文本聚類是文本信息處理的主要方法,可以幫助人們發(fā)現(xiàn)數(shù)據(jù)中的統(tǒng)計規(guī)律。其中中文文本聚類分析是文本聚類分析中的重要組成部分。在中文文本聚類分析時,由于語義、語法、語境等因素的影響,使得文本向量對文本語義的表達不準確。而目前常使用的向量空間模型,在表征文本中的詞時,所表征出的詞向量是獨立的,會忽視詞之間以及文檔之間的語義相關(guān)性,從而使文本聚類的準確率得不到保障。而應用Word2vec文本表示方法時,雖然考慮到上下文的語義關(guān)系,但由于其在不同文檔中表征的文本向量不同,給文本聚類帶來局限性,聚類效果不佳。針對上述問題,本文提出一種新的基于語義簇的文本向量構(gòu)建方法,通過對所提取特征詞的搭配向量進行層次聚類,利用向量的共性原理和語義相關(guān)性,獲取語義簇。再對文本向量進行空間變換,計算搭配向量與所屬語義簇中心的相似度,求得文檔特征詞的語義信息,并嵌入到文檔特征詞向量中,利用空間變換后構(gòu)建的文本向量進行文本聚類。與傳統(tǒng)的文本表示方法和Word2vec文本表示方法進行對比實驗,測試結(jié)果表明本文方法能夠有效地提高特征詞向量對文本語義的... 

【文章來源】:遼寧工程技術(shù)大學遼寧省

【文章頁數(shù)】:64 頁

【學位級別】:碩士

【部分圖文】:

基于語義簇的中文文本聚類算法研究


停用詞過濾流程圖

原理圖,原理圖,方法,特征詞


遼寧工程技術(shù)大學碩士學位論文10圖2.2Word2vec方法原理圖Figure2.2Word2vecmethodschematic使用Word2vec訓練數(shù)據(jù),采用CBOW(ContinuousBag-of-WordsModel)或者Skip-gram(ContinuousSkip-gramModel)模型,這兩個模型可基于HierarchicalSoftmax模型實現(xiàn),這兩種模型都包含三層:輸入層、投影層和輸出層,CBOW模型如圖2.3所示,Skip-gram模型如圖2.4所示。CBOW模型[38]是在已知某個特征詞tw的上下文t2w、t1w、t1w、t2w的前提下,預測特征詞tw;而后者恰恰相反,是在已知當前詞tw的前提下,預測其上下文t2w、t1w、t1w、t2w,如圖2.3所示。V表示特征詞詞典的大小,C是上下文窗口的大校12,,...,kkckxxx表示預測特征詞上下文的向量,對于每個輸入的向量,經(jīng)過矩陣VNW的變換后對應到隱含層的分量上。隱含層是一個N維的向量h,輸出層是預測特征詞y的one-hot編碼向量。CBOW模型的公式如下:11(|,...,,,...,)ttktttkPWWWWW(2.2)在預測過程中,從Huffman的根節(jié)點出發(fā)到某個葉子節(jié)點的路徑上,通過二分類方法來決定路徑左分支還是右分支。其左分支是1()1TTXXe(2.3)

模型圖,模型,分支,概率


遼寧工程技術(shù)大學碩士學位論文11右分支是1()TX。其中,代表當前非葉節(jié)點的詞向量。對于Huffman中的任意一條路徑wp,存在有l(wèi)w1次分支,把每次分支看成一個二分類,每次分類對應在樹的分支上一個概率,那么最后預測特征詞的概率就是將這些概率連乘,即12(|())(|,)wlwwjwjjpwContextwpdX(2.4)其中111()0(|,)1()1TwwwjjjwjTwjjXdpdXXd(2.5)圖2.3CBOW模型Figure2.3CBOWmodel

【參考文獻】:
期刊論文
[1]基于word2vec與K-means算法食品安全事件自動聚類研究[J]. 沈思,梁曉靜.  信息通信. 2018(11)
[2]SVD優(yōu)化初始簇中心的K-means中文文本聚類算法[J]. 戴月明,王明慧,張明,王艷.  系統(tǒng)仿真學報. 2018(10)
[3]基于改進k-means算法的文本聚類[J]. 蔣麗,薛善良.  計算機與現(xiàn)代化. 2018(04)
[4]基于Word2vector的文本特征化表示方法[J]. 周順先,蔣勵,林霜巧,龔德良,王魯達.  重慶郵電大學學報(自然科學版). 2018(02)
[5]最小化誤差平方和k-means初始聚類中心優(yōu)化方法[J]. 周本金,陶以政,紀斌,謝永輝.  計算機工程與應用. 2018(15)
[6]融合集群度與距離均衡優(yōu)化的K-均值聚類算法[J]. 王日宏,崔興梅.  計算機應用. 2018(01)
[7]基于核心詞項平均劃分相似度的短文本聚類算法[J]. 馬慧芳,朱志強,成玉丹,賈俊杰.  計算機工程與科學. 2017(08)
[8]基于平均差異度優(yōu)選初始聚類中心的改進K-均值聚類算法[J]. 李武,趙嬌燕,嚴太山.  控制與決策. 2017(04)
[9]基于FCA和Word2vec的異構(gòu)資源本體構(gòu)建研究[J]. 韋煉,李端明,劉超超,王亞慧,王蘿娜.  情報科學. 2017(03)
[10]基于改進TF-IDF算法的文本分類方法研究[J]. 賀科達,朱錚濤,程昱.  廣東工業(yè)大學學報. 2016(05)

碩士論文
[1]基于Word2Vec的中文短文本聚類算法研究與應用[D]. 馬存.中國科學院大學(中國科學院沈陽計算技術(shù)研究所) 2018
[2]基于語義的文本相似度計算方法的研究[D]. 李瑞楠.北京工業(yè)大學 2018
[3]K-means算法的改進及其在文本聚類中的應用研究[D]. 李敏.江南大學 2018
[4]基于語義的文本聚類算法研究[D]. 馬瓊瓊.北京交通大學 2017
[5]社區(qū)問答服務中的問題分類方法研究[D]. 張棟.蘇州大學 2017
[6]中文文本分類中卡方統(tǒng)計特征選擇方法和TF-IDF權(quán)重計算方法的研究[D]. 姚海英.吉林大學 2016
[7]文本聚類中特征選擇方法研究[D]. 華珍.湖北工業(yè)大學 2016
[8]基于文本聚類的特征選擇算法研究[D]. 樊東輝.西北師范大學 2012
[9]基于概念的文本分類算法研究[D]. 李運龍.華南理工大學 2010
[10]基于免疫網(wǎng)絡的文本聚類算法及其應用[D]. 周洋.西安郵電學院 2009



本文編號:3325706

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3325706.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1b887***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com