基于主題模型和句向量的文本語義挖掘研究
發(fā)布時間:2021-06-17 02:17
隨著互聯(lián)網(wǎng)的快速發(fā)展,各種信息數(shù)據(jù)以指數(shù)級別的速度增加,海量雜亂無章的文本數(shù)據(jù)分布在各行各業(yè),而文本挖掘中用戶特征分析、推薦系統(tǒng)、輿情監(jiān)控等任務(wù)的實(shí)現(xiàn)均依賴于高質(zhì)量文本數(shù)據(jù)的獲取。如何從這些復(fù)雜混亂的文本中快速有效地挖掘出有意義的語義信息成為自然語言領(lǐng)域內(nèi)的一項(xiàng)重要任務(wù)。主題模型是一種有效的文本主題挖掘方法,它將文本按照主題劃分成若干個有意義的簇,且同一類別內(nèi)的所有文檔能夠共享同一主題,該方法在文本挖掘領(lǐng)域取得了廣泛應(yīng)用。但是網(wǎng)絡(luò)中的短文本大多存在數(shù)據(jù)稀疏問題且在不同語境下的詞語擁有不同的含義。對于具有高稀疏性且非結(jié)構(gòu)化等特點(diǎn)的高維文本數(shù)據(jù),傳統(tǒng)的文本主題提取方法難免會造成上下文語義的缺失,進(jìn)而影響到文本語義挖掘的效果。因此,論文將句向量模型引入到主題模型,在LDA模型和Doc2vec模型的基礎(chǔ)上,從以下兩個方面展開了研究:1.針對主題模型中上下文語義缺失問題,論文提出了Doc-LDA算法。即將包含上下文特征信息的Doc2vec向量和具有文本全局信息的LDA模型相結(jié)合來處理文本。在Doc-LDA模型中,首先將語料庫中的文本通過Doc2vec訓(xùn)練得到文檔向量,再用LDA模型得到的每個主題...
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
空間向量模型向量生成過程
蘭州交通大學(xué)碩士學(xué)位論文-29-3.4實(shí)驗(yàn)與分析3.4.1實(shí)驗(yàn)方案本文通過python的requests庫爬取中國知網(wǎng)中“計(jì)算機(jī)技術(shù)”主題下的摘要文本,共7923條,采用Jieba分詞,去除停用詞后保存為文本文件,一行數(shù)據(jù)代表一份文檔。經(jīng)過預(yù)處理后得到的文檔如圖3.2所示。之后對語料庫DOC通過Doc2vec模型訓(xùn)練詞向量,向量模型參數(shù)如表3.1所示。圖3.2分詞后的部分?jǐn)?shù)據(jù)用LDA對語料庫DOC進(jìn)行主題采樣。LDA算法選用Gibbs采樣,算法過程如3.1.2節(jié)所示。設(shè)定LDA模型中=50/K,=0.01。經(jīng)過LDA、Doc-LDA模型分別得到主題分布、距離分布。最后,將本文提出的Doc-LDA模型與LDA、Word2vec以及LDA+Word2vec進(jìn)行聚類效果的比較。選用K-Means聚類算法驗(yàn)證模型的有效性。表3.1Doc2vec參數(shù)設(shè)置參數(shù)取值Size(句向量的維度)100Window(窗口長度)10min_count(最小出現(xiàn)的次數(shù))2Workers(線程數(shù))2Dm(模型類別)1
基于主題模型和句向量的文本語義挖掘研究-38-以上模型分為兩個部分,如圖4.2所示,第一部分采用LDA模型訓(xùn)練整個語料集,經(jīng)過多次迭代得到全局主題,該部分的數(shù)據(jù)輸入為經(jīng)過數(shù)據(jù)預(yù)處理的文本文件,一行數(shù)據(jù)代表一份評論信息,輸出結(jié)果為主題-詞矩陣。由于LDA模型是從所有語料庫中的詞語以Gibbs抽樣來得到主題分布的,因此此處得到的主題分布具有全局性;第二部分是子數(shù)據(jù)集的處理,先通過LDA模型得到每個子數(shù)據(jù)集的主題分布,主題分布表示為一組詞語及其概率大小組成,接著判斷是否出現(xiàn)了新的主題,判斷依據(jù)子數(shù)據(jù)集中出現(xiàn)的主題是否同LDA模型得到的一致,若一致,則繼續(xù)用新模型算法DBOW-LDA對預(yù)處理后的子數(shù)據(jù)集進(jìn)行文本相似性表示。4.3實(shí)驗(yàn)與分析微博熱門評論文本相對于知網(wǎng)中的摘要數(shù)據(jù)而言數(shù)據(jù)形式更為復(fù)雜,無關(guān)詞語數(shù)量更大,對于文本表示形式的要求更高。因此采用評論信息作為數(shù)據(jù)集,首先進(jìn)行LDA模型處理得到文檔主題,再通過前一節(jié)提出的DBOW-LDA模型對子數(shù)據(jù)集進(jìn)行句向量表示來得到局部主題,最后通過準(zhǔn)確率、召回率以及F值對實(shí)驗(yàn)方法進(jìn)行性能評價(jià)。4.3.1實(shí)驗(yàn)方案數(shù)據(jù)集來源于微博爬取的關(guān)于“滴滴丑聞”熱門事件的評論信息,用request庫爬取,爬取的原始數(shù)據(jù)如圖4.3所示。數(shù)據(jù)采集后,將數(shù)據(jù)分為全部數(shù)據(jù)集和子數(shù)據(jù)集,子數(shù)據(jù)集是以天數(shù)為時間節(jié)點(diǎn)劃分的每一天的評論信息。對這兩部分?jǐn)?shù)據(jù)分別進(jìn)行分詞和去停用詞等數(shù)據(jù)處理過程,處理后的數(shù)據(jù)共有78233條。之后將所有數(shù)據(jù)形成的語料庫通過LDA模型進(jìn)行主題建模,設(shè)定LDA的值、Doc2vec的取值與章節(jié)3.2一致,其中,超參數(shù)中=50/K,=0.01,LDA中主題個數(shù)N的值經(jīng)過主觀選取,最終得到每一個文本的主題分布。圖4.3爬取的原始數(shù)據(jù)
本文編號:3234256
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
空間向量模型向量生成過程
蘭州交通大學(xué)碩士學(xué)位論文-29-3.4實(shí)驗(yàn)與分析3.4.1實(shí)驗(yàn)方案本文通過python的requests庫爬取中國知網(wǎng)中“計(jì)算機(jī)技術(shù)”主題下的摘要文本,共7923條,采用Jieba分詞,去除停用詞后保存為文本文件,一行數(shù)據(jù)代表一份文檔。經(jīng)過預(yù)處理后得到的文檔如圖3.2所示。之后對語料庫DOC通過Doc2vec模型訓(xùn)練詞向量,向量模型參數(shù)如表3.1所示。圖3.2分詞后的部分?jǐn)?shù)據(jù)用LDA對語料庫DOC進(jìn)行主題采樣。LDA算法選用Gibbs采樣,算法過程如3.1.2節(jié)所示。設(shè)定LDA模型中=50/K,=0.01。經(jīng)過LDA、Doc-LDA模型分別得到主題分布、距離分布。最后,將本文提出的Doc-LDA模型與LDA、Word2vec以及LDA+Word2vec進(jìn)行聚類效果的比較。選用K-Means聚類算法驗(yàn)證模型的有效性。表3.1Doc2vec參數(shù)設(shè)置參數(shù)取值Size(句向量的維度)100Window(窗口長度)10min_count(最小出現(xiàn)的次數(shù))2Workers(線程數(shù))2Dm(模型類別)1
基于主題模型和句向量的文本語義挖掘研究-38-以上模型分為兩個部分,如圖4.2所示,第一部分采用LDA模型訓(xùn)練整個語料集,經(jīng)過多次迭代得到全局主題,該部分的數(shù)據(jù)輸入為經(jīng)過數(shù)據(jù)預(yù)處理的文本文件,一行數(shù)據(jù)代表一份評論信息,輸出結(jié)果為主題-詞矩陣。由于LDA模型是從所有語料庫中的詞語以Gibbs抽樣來得到主題分布的,因此此處得到的主題分布具有全局性;第二部分是子數(shù)據(jù)集的處理,先通過LDA模型得到每個子數(shù)據(jù)集的主題分布,主題分布表示為一組詞語及其概率大小組成,接著判斷是否出現(xiàn)了新的主題,判斷依據(jù)子數(shù)據(jù)集中出現(xiàn)的主題是否同LDA模型得到的一致,若一致,則繼續(xù)用新模型算法DBOW-LDA對預(yù)處理后的子數(shù)據(jù)集進(jìn)行文本相似性表示。4.3實(shí)驗(yàn)與分析微博熱門評論文本相對于知網(wǎng)中的摘要數(shù)據(jù)而言數(shù)據(jù)形式更為復(fù)雜,無關(guān)詞語數(shù)量更大,對于文本表示形式的要求更高。因此采用評論信息作為數(shù)據(jù)集,首先進(jìn)行LDA模型處理得到文檔主題,再通過前一節(jié)提出的DBOW-LDA模型對子數(shù)據(jù)集進(jìn)行句向量表示來得到局部主題,最后通過準(zhǔn)確率、召回率以及F值對實(shí)驗(yàn)方法進(jìn)行性能評價(jià)。4.3.1實(shí)驗(yàn)方案數(shù)據(jù)集來源于微博爬取的關(guān)于“滴滴丑聞”熱門事件的評論信息,用request庫爬取,爬取的原始數(shù)據(jù)如圖4.3所示。數(shù)據(jù)采集后,將數(shù)據(jù)分為全部數(shù)據(jù)集和子數(shù)據(jù)集,子數(shù)據(jù)集是以天數(shù)為時間節(jié)點(diǎn)劃分的每一天的評論信息。對這兩部分?jǐn)?shù)據(jù)分別進(jìn)行分詞和去停用詞等數(shù)據(jù)處理過程,處理后的數(shù)據(jù)共有78233條。之后將所有數(shù)據(jù)形成的語料庫通過LDA模型進(jìn)行主題建模,設(shè)定LDA的值、Doc2vec的取值與章節(jié)3.2一致,其中,超參數(shù)中=50/K,=0.01,LDA中主題個數(shù)N的值經(jīng)過主觀選取,最終得到每一個文本的主題分布。圖4.3爬取的原始數(shù)據(jù)
本文編號:3234256
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3234256.html
最近更新
教材專著