基于主題模型和句向量的文本語(yǔ)義挖掘研究
發(fā)布時(shí)間:2021-06-17 02:17
隨著互聯(lián)網(wǎng)的快速發(fā)展,各種信息數(shù)據(jù)以指數(shù)級(jí)別的速度增加,海量雜亂無(wú)章的文本數(shù)據(jù)分布在各行各業(yè),而文本挖掘中用戶特征分析、推薦系統(tǒng)、輿情監(jiān)控等任務(wù)的實(shí)現(xiàn)均依賴于高質(zhì)量文本數(shù)據(jù)的獲取。如何從這些復(fù)雜混亂的文本中快速有效地挖掘出有意義的語(yǔ)義信息成為自然語(yǔ)言領(lǐng)域內(nèi)的一項(xiàng)重要任務(wù)。主題模型是一種有效的文本主題挖掘方法,它將文本按照主題劃分成若干個(gè)有意義的簇,且同一類別內(nèi)的所有文檔能夠共享同一主題,該方法在文本挖掘領(lǐng)域取得了廣泛應(yīng)用。但是網(wǎng)絡(luò)中的短文本大多存在數(shù)據(jù)稀疏問(wèn)題且在不同語(yǔ)境下的詞語(yǔ)擁有不同的含義。對(duì)于具有高稀疏性且非結(jié)構(gòu)化等特點(diǎn)的高維文本數(shù)據(jù),傳統(tǒng)的文本主題提取方法難免會(huì)造成上下文語(yǔ)義的缺失,進(jìn)而影響到文本語(yǔ)義挖掘的效果。因此,論文將句向量模型引入到主題模型,在LDA模型和Doc2vec模型的基礎(chǔ)上,從以下兩個(gè)方面展開(kāi)了研究:1.針對(duì)主題模型中上下文語(yǔ)義缺失問(wèn)題,論文提出了Doc-LDA算法。即將包含上下文特征信息的Doc2vec向量和具有文本全局信息的LDA模型相結(jié)合來(lái)處理文本。在Doc-LDA模型中,首先將語(yǔ)料庫(kù)中的文本通過(guò)Doc2vec訓(xùn)練得到文檔向量,再用LDA模型得到的每個(gè)主題...
【文章來(lái)源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
空間向量模型向量生成過(guò)程
蘭州交通大學(xué)碩士學(xué)位論文-29-3.4實(shí)驗(yàn)與分析3.4.1實(shí)驗(yàn)方案本文通過(guò)python的requests庫(kù)爬取中國(guó)知網(wǎng)中“計(jì)算機(jī)技術(shù)”主題下的摘要文本,共7923條,采用Jieba分詞,去除停用詞后保存為文本文件,一行數(shù)據(jù)代表一份文檔。經(jīng)過(guò)預(yù)處理后得到的文檔如圖3.2所示。之后對(duì)語(yǔ)料庫(kù)DOC通過(guò)Doc2vec模型訓(xùn)練詞向量,向量模型參數(shù)如表3.1所示。圖3.2分詞后的部分?jǐn)?shù)據(jù)用LDA對(duì)語(yǔ)料庫(kù)DOC進(jìn)行主題采樣。LDA算法選用Gibbs采樣,算法過(guò)程如3.1.2節(jié)所示。設(shè)定LDA模型中=50/K,=0.01。經(jīng)過(guò)LDA、Doc-LDA模型分別得到主題分布、距離分布。最后,將本文提出的Doc-LDA模型與LDA、Word2vec以及LDA+Word2vec進(jìn)行聚類效果的比較。選用K-Means聚類算法驗(yàn)證模型的有效性。表3.1Doc2vec參數(shù)設(shè)置參數(shù)取值Size(句向量的維度)100Window(窗口長(zhǎng)度)10min_count(最小出現(xiàn)的次數(shù))2Workers(線程數(shù))2Dm(模型類別)1
基于主題模型和句向量的文本語(yǔ)義挖掘研究-38-以上模型分為兩個(gè)部分,如圖4.2所示,第一部分采用LDA模型訓(xùn)練整個(gè)語(yǔ)料集,經(jīng)過(guò)多次迭代得到全局主題,該部分的數(shù)據(jù)輸入為經(jīng)過(guò)數(shù)據(jù)預(yù)處理的文本文件,一行數(shù)據(jù)代表一份評(píng)論信息,輸出結(jié)果為主題-詞矩陣。由于LDA模型是從所有語(yǔ)料庫(kù)中的詞語(yǔ)以Gibbs抽樣來(lái)得到主題分布的,因此此處得到的主題分布具有全局性;第二部分是子數(shù)據(jù)集的處理,先通過(guò)LDA模型得到每個(gè)子數(shù)據(jù)集的主題分布,主題分布表示為一組詞語(yǔ)及其概率大小組成,接著判斷是否出現(xiàn)了新的主題,判斷依據(jù)子數(shù)據(jù)集中出現(xiàn)的主題是否同LDA模型得到的一致,若一致,則繼續(xù)用新模型算法DBOW-LDA對(duì)預(yù)處理后的子數(shù)據(jù)集進(jìn)行文本相似性表示。4.3實(shí)驗(yàn)與分析微博熱門(mén)評(píng)論文本相對(duì)于知網(wǎng)中的摘要數(shù)據(jù)而言數(shù)據(jù)形式更為復(fù)雜,無(wú)關(guān)詞語(yǔ)數(shù)量更大,對(duì)于文本表示形式的要求更高。因此采用評(píng)論信息作為數(shù)據(jù)集,首先進(jìn)行LDA模型處理得到文檔主題,再通過(guò)前一節(jié)提出的DBOW-LDA模型對(duì)子數(shù)據(jù)集進(jìn)行句向量表示來(lái)得到局部主題,最后通過(guò)準(zhǔn)確率、召回率以及F值對(duì)實(shí)驗(yàn)方法進(jìn)行性能評(píng)價(jià)。4.3.1實(shí)驗(yàn)方案數(shù)據(jù)集來(lái)源于微博爬取的關(guān)于“滴滴丑聞”熱門(mén)事件的評(píng)論信息,用request庫(kù)爬取,爬取的原始數(shù)據(jù)如圖4.3所示。數(shù)據(jù)采集后,將數(shù)據(jù)分為全部數(shù)據(jù)集和子數(shù)據(jù)集,子數(shù)據(jù)集是以天數(shù)為時(shí)間節(jié)點(diǎn)劃分的每一天的評(píng)論信息。對(duì)這兩部分?jǐn)?shù)據(jù)分別進(jìn)行分詞和去停用詞等數(shù)據(jù)處理過(guò)程,處理后的數(shù)據(jù)共有78233條。之后將所有數(shù)據(jù)形成的語(yǔ)料庫(kù)通過(guò)LDA模型進(jìn)行主題建模,設(shè)定LDA的值、Doc2vec的取值與章節(jié)3.2一致,其中,超參數(shù)中=50/K,=0.01,LDA中主題個(gè)數(shù)N的值經(jīng)過(guò)主觀選取,最終得到每一個(gè)文本的主題分布。圖4.3爬取的原始數(shù)據(jù)
本文編號(hào):3234256
【文章來(lái)源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
空間向量模型向量生成過(guò)程
蘭州交通大學(xué)碩士學(xué)位論文-29-3.4實(shí)驗(yàn)與分析3.4.1實(shí)驗(yàn)方案本文通過(guò)python的requests庫(kù)爬取中國(guó)知網(wǎng)中“計(jì)算機(jī)技術(shù)”主題下的摘要文本,共7923條,采用Jieba分詞,去除停用詞后保存為文本文件,一行數(shù)據(jù)代表一份文檔。經(jīng)過(guò)預(yù)處理后得到的文檔如圖3.2所示。之后對(duì)語(yǔ)料庫(kù)DOC通過(guò)Doc2vec模型訓(xùn)練詞向量,向量模型參數(shù)如表3.1所示。圖3.2分詞后的部分?jǐn)?shù)據(jù)用LDA對(duì)語(yǔ)料庫(kù)DOC進(jìn)行主題采樣。LDA算法選用Gibbs采樣,算法過(guò)程如3.1.2節(jié)所示。設(shè)定LDA模型中=50/K,=0.01。經(jīng)過(guò)LDA、Doc-LDA模型分別得到主題分布、距離分布。最后,將本文提出的Doc-LDA模型與LDA、Word2vec以及LDA+Word2vec進(jìn)行聚類效果的比較。選用K-Means聚類算法驗(yàn)證模型的有效性。表3.1Doc2vec參數(shù)設(shè)置參數(shù)取值Size(句向量的維度)100Window(窗口長(zhǎng)度)10min_count(最小出現(xiàn)的次數(shù))2Workers(線程數(shù))2Dm(模型類別)1
基于主題模型和句向量的文本語(yǔ)義挖掘研究-38-以上模型分為兩個(gè)部分,如圖4.2所示,第一部分采用LDA模型訓(xùn)練整個(gè)語(yǔ)料集,經(jīng)過(guò)多次迭代得到全局主題,該部分的數(shù)據(jù)輸入為經(jīng)過(guò)數(shù)據(jù)預(yù)處理的文本文件,一行數(shù)據(jù)代表一份評(píng)論信息,輸出結(jié)果為主題-詞矩陣。由于LDA模型是從所有語(yǔ)料庫(kù)中的詞語(yǔ)以Gibbs抽樣來(lái)得到主題分布的,因此此處得到的主題分布具有全局性;第二部分是子數(shù)據(jù)集的處理,先通過(guò)LDA模型得到每個(gè)子數(shù)據(jù)集的主題分布,主題分布表示為一組詞語(yǔ)及其概率大小組成,接著判斷是否出現(xiàn)了新的主題,判斷依據(jù)子數(shù)據(jù)集中出現(xiàn)的主題是否同LDA模型得到的一致,若一致,則繼續(xù)用新模型算法DBOW-LDA對(duì)預(yù)處理后的子數(shù)據(jù)集進(jìn)行文本相似性表示。4.3實(shí)驗(yàn)與分析微博熱門(mén)評(píng)論文本相對(duì)于知網(wǎng)中的摘要數(shù)據(jù)而言數(shù)據(jù)形式更為復(fù)雜,無(wú)關(guān)詞語(yǔ)數(shù)量更大,對(duì)于文本表示形式的要求更高。因此采用評(píng)論信息作為數(shù)據(jù)集,首先進(jìn)行LDA模型處理得到文檔主題,再通過(guò)前一節(jié)提出的DBOW-LDA模型對(duì)子數(shù)據(jù)集進(jìn)行句向量表示來(lái)得到局部主題,最后通過(guò)準(zhǔn)確率、召回率以及F值對(duì)實(shí)驗(yàn)方法進(jìn)行性能評(píng)價(jià)。4.3.1實(shí)驗(yàn)方案數(shù)據(jù)集來(lái)源于微博爬取的關(guān)于“滴滴丑聞”熱門(mén)事件的評(píng)論信息,用request庫(kù)爬取,爬取的原始數(shù)據(jù)如圖4.3所示。數(shù)據(jù)采集后,將數(shù)據(jù)分為全部數(shù)據(jù)集和子數(shù)據(jù)集,子數(shù)據(jù)集是以天數(shù)為時(shí)間節(jié)點(diǎn)劃分的每一天的評(píng)論信息。對(duì)這兩部分?jǐn)?shù)據(jù)分別進(jìn)行分詞和去停用詞等數(shù)據(jù)處理過(guò)程,處理后的數(shù)據(jù)共有78233條。之后將所有數(shù)據(jù)形成的語(yǔ)料庫(kù)通過(guò)LDA模型進(jìn)行主題建模,設(shè)定LDA的值、Doc2vec的取值與章節(jié)3.2一致,其中,超參數(shù)中=50/K,=0.01,LDA中主題個(gè)數(shù)N的值經(jīng)過(guò)主觀選取,最終得到每一個(gè)文本的主題分布。圖4.3爬取的原始數(shù)據(jù)
本文編號(hào):3234256
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3234256.html
最近更新
教材專著