天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于GloVe的文本聚類研究與改進

發(fā)布時間:2021-11-27 02:07
  隨著信息技術(shù)的不斷發(fā)展,電子網(wǎng)絡(luò)信息的數(shù)量也在急劇的增加。如何快速、準(zhǔn)確的從海量數(shù)據(jù)中挑選出所需要的信息,已經(jīng)成為當(dāng)前人們所面臨的一個重大的挑戰(zhàn)。文本聚類是解決這個問題的一種有效的方法。如何準(zhǔn)確的對文本進行表示是文本聚類過程中一個重要的步驟。向量空間模型廣泛的運用于文本表示中,然而,由于傳統(tǒng)的向量空間模型使用特征詞作為文本向量的維度,存在著維度過高、無法表示文本的語義信息等問題。因此,研究者們提出了通過詞向量來構(gòu)建文本向量的思想。經(jīng)過對常見的詞向量構(gòu)建文本向量的方法進行分析,發(fā)現(xiàn)其均存在一些缺點,因此本文提出了一種基于杰卡德相似度系數(shù)的聚類加權(quán)的文本向量構(gòu)建法(JSC-CW),該方法基于TF-IDF加權(quán)法及聚類法的思想,在利用詞語對文本的影響力信息的同時,使得文本向量的各個維度具有可解釋性,從而提高文本向量的準(zhǔn)確性,并將其運用于文本聚類中。近幾年,研究者們基于不同的原理提出了多種詞向量模型。其中,基于Word2vec的詞向量廣泛的應(yīng)用于自然語言處理中,但是其僅僅是通過單詞局部上下文窗口內(nèi)的詞語對模型進行訓(xùn)練,而未用到整個語料庫中的統(tǒng)計信息,而GloVe詞向量模型在Word2vec的思想... 

【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:90 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于GloVe的文本聚類研究與改進


文本聚類流程

神經(jīng)網(wǎng),模型,袋模,模型C


圖 2-2 神經(jīng)整個模型的大多數(shù)計算都集中于輸入Word2vec 的實現(xiàn)原理也是基于神經(jīng)網(wǎng)絡(luò)語言從而降低了計算的復(fù)雜度,大大提高了模型型:連續(xù)詞袋模型(ContinuousBagofWordsgram)[1,48]。2.4.3.2 CBOW 模型CBOW 模型主要是利用詞語的上下文(的時候,該模型如圖 2-3 所示。模型主要分為三個層:(1) 輸入層:輸入單詞 w(t)的前后各

流程圖,詞聚類,模型訓(xùn)練,文本


文本向量構(gòu)建流程圖

【參考文獻】:
期刊論文
[1]基于LDA改進的K-means算法在短文本聚類中的研究[J]. 馮靖,莫秀良,王春東.  天津理工大學(xué)學(xué)報. 2018(03)
[2]采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動抽取研究[J]. 姜霖,王東波.  現(xiàn)代圖書情報技術(shù). 2016(02)
[3]聚類算法綜述[J]. 伍育紅.  計算機科學(xué). 2015(S1)
[4]使用LSA降維的改進ART2神經(jīng)網(wǎng)絡(luò)文本聚類[J]. 徐晨凱,高茂庭.  計算機工程與應(yīng)用. 2014(24)
[5]基于近似Markov Blanket和動態(tài)互信息的特征選擇算法[J]. 姚旭,王曉丹,張玉璽,權(quán)文.  計算機科學(xué). 2012(08)
[6]基于加權(quán)相似性的BIRCH聚類算法[J]. 鄒杰濤,趙方霞,汪海燕.  數(shù)學(xué)的實踐與認識. 2011(16)
[7]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江.  計算機應(yīng)用. 2009(S1)
[8]基于近鄰傳播算法的半監(jiān)督聚類[J]. 肖宇,于劍.  軟件學(xué)報. 2008(11)
[9]自適應(yīng)仿射傳播聚類[J]. 王開軍,張軍英,李丹,張新娜,郭濤.  自動化學(xué)報. 2007(12)
[10]向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J]. 陸玉昌,魯明羽,李凡,周立柱.  計算機研究與發(fā)展. 2002(10)

碩士論文
[1]基于劃分的聚類算法研究與應(yīng)用[D]. 包穎.大連理工大學(xué) 2008



本文編號:3521380

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3521380.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶344eb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com