基于GloVe的文本聚類研究與改進
發(fā)布時間:2021-11-27 02:07
隨著信息技術(shù)的不斷發(fā)展,電子網(wǎng)絡(luò)信息的數(shù)量也在急劇的增加。如何快速、準(zhǔn)確的從海量數(shù)據(jù)中挑選出所需要的信息,已經(jīng)成為當(dāng)前人們所面臨的一個重大的挑戰(zhàn)。文本聚類是解決這個問題的一種有效的方法。如何準(zhǔn)確的對文本進行表示是文本聚類過程中一個重要的步驟。向量空間模型廣泛的運用于文本表示中,然而,由于傳統(tǒng)的向量空間模型使用特征詞作為文本向量的維度,存在著維度過高、無法表示文本的語義信息等問題。因此,研究者們提出了通過詞向量來構(gòu)建文本向量的思想。經(jīng)過對常見的詞向量構(gòu)建文本向量的方法進行分析,發(fā)現(xiàn)其均存在一些缺點,因此本文提出了一種基于杰卡德相似度系數(shù)的聚類加權(quán)的文本向量構(gòu)建法(JSC-CW),該方法基于TF-IDF加權(quán)法及聚類法的思想,在利用詞語對文本的影響力信息的同時,使得文本向量的各個維度具有可解釋性,從而提高文本向量的準(zhǔn)確性,并將其運用于文本聚類中。近幾年,研究者們基于不同的原理提出了多種詞向量模型。其中,基于Word2vec的詞向量廣泛的應(yīng)用于自然語言處理中,但是其僅僅是通過單詞局部上下文窗口內(nèi)的詞語對模型進行訓(xùn)練,而未用到整個語料庫中的統(tǒng)計信息,而GloVe詞向量模型在Word2vec的思想...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本聚類流程
圖 2-2 神經(jīng)整個模型的大多數(shù)計算都集中于輸入Word2vec 的實現(xiàn)原理也是基于神經(jīng)網(wǎng)絡(luò)語言從而降低了計算的復(fù)雜度,大大提高了模型型:連續(xù)詞袋模型(ContinuousBagofWordsgram)[1,48]。2.4.3.2 CBOW 模型CBOW 模型主要是利用詞語的上下文(的時候,該模型如圖 2-3 所示。模型主要分為三個層:(1) 輸入層:輸入單詞 w(t)的前后各
文本向量構(gòu)建流程圖
【參考文獻】:
期刊論文
[1]基于LDA改進的K-means算法在短文本聚類中的研究[J]. 馮靖,莫秀良,王春東. 天津理工大學(xué)學(xué)報. 2018(03)
[2]采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動抽取研究[J]. 姜霖,王東波. 現(xiàn)代圖書情報技術(shù). 2016(02)
[3]聚類算法綜述[J]. 伍育紅. 計算機科學(xué). 2015(S1)
[4]使用LSA降維的改進ART2神經(jīng)網(wǎng)絡(luò)文本聚類[J]. 徐晨凱,高茂庭. 計算機工程與應(yīng)用. 2014(24)
[5]基于近似Markov Blanket和動態(tài)互信息的特征選擇算法[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 計算機科學(xué). 2012(08)
[6]基于加權(quán)相似性的BIRCH聚類算法[J]. 鄒杰濤,趙方霞,汪海燕. 數(shù)學(xué)的實踐與認識. 2011(16)
[7]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計算機應(yīng)用. 2009(S1)
[8]基于近鄰傳播算法的半監(jiān)督聚類[J]. 肖宇,于劍. 軟件學(xué)報. 2008(11)
[9]自適應(yīng)仿射傳播聚類[J]. 王開軍,張軍英,李丹,張新娜,郭濤. 自動化學(xué)報. 2007(12)
[10]向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J]. 陸玉昌,魯明羽,李凡,周立柱. 計算機研究與發(fā)展. 2002(10)
碩士論文
[1]基于劃分的聚類算法研究與應(yīng)用[D]. 包穎.大連理工大學(xué) 2008
本文編號:3521380
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本聚類流程
圖 2-2 神經(jīng)整個模型的大多數(shù)計算都集中于輸入Word2vec 的實現(xiàn)原理也是基于神經(jīng)網(wǎng)絡(luò)語言從而降低了計算的復(fù)雜度,大大提高了模型型:連續(xù)詞袋模型(ContinuousBagofWordsgram)[1,48]。2.4.3.2 CBOW 模型CBOW 模型主要是利用詞語的上下文(的時候,該模型如圖 2-3 所示。模型主要分為三個層:(1) 輸入層:輸入單詞 w(t)的前后各
文本向量構(gòu)建流程圖
【參考文獻】:
期刊論文
[1]基于LDA改進的K-means算法在短文本聚類中的研究[J]. 馮靖,莫秀良,王春東. 天津理工大學(xué)學(xué)報. 2018(03)
[2]采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動抽取研究[J]. 姜霖,王東波. 現(xiàn)代圖書情報技術(shù). 2016(02)
[3]聚類算法綜述[J]. 伍育紅. 計算機科學(xué). 2015(S1)
[4]使用LSA降維的改進ART2神經(jīng)網(wǎng)絡(luò)文本聚類[J]. 徐晨凱,高茂庭. 計算機工程與應(yīng)用. 2014(24)
[5]基于近似Markov Blanket和動態(tài)互信息的特征選擇算法[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 計算機科學(xué). 2012(08)
[6]基于加權(quán)相似性的BIRCH聚類算法[J]. 鄒杰濤,趙方霞,汪海燕. 數(shù)學(xué)的實踐與認識. 2011(16)
[7]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計算機應(yīng)用. 2009(S1)
[8]基于近鄰傳播算法的半監(jiān)督聚類[J]. 肖宇,于劍. 軟件學(xué)報. 2008(11)
[9]自適應(yīng)仿射傳播聚類[J]. 王開軍,張軍英,李丹,張新娜,郭濤. 自動化學(xué)報. 2007(12)
[10]向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J]. 陸玉昌,魯明羽,李凡,周立柱. 計算機研究與發(fā)展. 2002(10)
碩士論文
[1]基于劃分的聚類算法研究與應(yīng)用[D]. 包穎.大連理工大學(xué) 2008
本文編號:3521380
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3521380.html
最近更新
教材專著