天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題模型的快速吉布斯采樣主題推斷算法研究

發(fā)布時(shí)間:2020-03-25 02:01
【摘要】:隨著智能手機(jī)的逐漸普及以及互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上文本類型數(shù)據(jù)的數(shù)量呈現(xiàn)爆炸式地增長(zhǎng),政府、企業(yè)以及個(gè)人對(duì)智能文本挖掘方法的需求越來越強(qiáng)。為解決這些需求,學(xué)術(shù)界相繼提出了一系列智能文本挖掘方法。在已提出的眾多文本挖掘方法中,主題模型是一種能夠有效地挖掘和發(fā)現(xiàn)文本數(shù)據(jù)中潛在語義主題的非監(jiān)督學(xué)習(xí)方法。采用主題模型準(zhǔn)確地并快速地挖掘文本數(shù)據(jù)中的潛在主題能夠在較大程度上滿足我們?cè)谳^高概念層次上對(duì)大量文本進(jìn)行組織和管理的需求。因此,在主題模型研究領(lǐng)域中,提高挖掘主題的“準(zhǔn)確性”和“時(shí)效性”是兩個(gè)關(guān)鍵的基本問題。其中,在兼顧“準(zhǔn)確性”的前提下提高挖掘主題過程的“時(shí)效性”是一個(gè)較為重要的研究方向。本文主要針對(duì)主題模型挖掘過程的“時(shí)效性”進(jìn)行研究,在不改變算法結(jié)果“準(zhǔn)確性”的前提下提出時(shí)效性更高的快速吉布斯采樣主題推斷算法:~1)針對(duì)潛在狄利克雷分配(~(Latent Dirichlet Allocation,LDA))這種較具有代表性和一般性的主題模型,本文提出了一種更適用于長(zhǎng)文本數(shù)據(jù)集主題推斷的快速吉布斯采樣算法(~(ESparseLDA));~2)針對(duì)用于短文本數(shù)據(jù)集主題挖掘的雙詞主題模型(~(Biterm Topic Model,BTM)),本文提出了兩種快速吉布斯采樣主題推斷算法(~(SparseBTM)和~(ESparseBTM))。詳細(xì)地,本文的主要工作內(nèi)容如下:(1)針對(duì)~(LDA)模型的~(SparseLDA)算法在主題推斷過程中存在的“重用計(jì)算”問題,我們基于~(SparseLDA)算法提出了一種精確的和時(shí)效性更高的用于~(LDA)模型主題推斷的快速吉布斯采樣算法——~(ESparseLDA)算法。~(SparseLDA)算法是用于~(LDA)模型的一種精確的和快速的吉布斯采樣主題推斷算法。然而,由于在主題推斷過程中“相鄰詞項(xiàng)的詞型通常是不同的”導(dǎo)致它“不能重用更多的中間計(jì)算結(jié)果”。因此,它的時(shí)效性受到了限制而不能進(jìn)一步地得到提高。~(ESparseLDA)算法解決這個(gè)問題的核心想法是:首先根據(jù)詞型重排每個(gè)文本內(nèi)的詞項(xiàng),以使得文本內(nèi)詞型相同的詞項(xiàng)聚集在一起;然后采用緩存策略以重用更多的中間計(jì)算結(jié)果,并最終達(dá)到提高算法時(shí)效性的目的。~(ESparse LDA)算法完成和~(SparseLDA)算法同樣的任務(wù),并且保證結(jié)果的精確度不變。我們從理論分析和對(duì)比實(shí)驗(yàn)兩個(gè)方面驗(yàn)證了~(ESparse LDA)算法思路的正確性、結(jié)果的精確性和收斂速度的時(shí)效性。理論上,~(ESparse LDA)算法的時(shí)間復(fù)雜度低于~(SparseLDA)算法。相應(yīng)的對(duì)比實(shí)驗(yàn)結(jié)果表明,在實(shí)驗(yàn)使用的不同數(shù)據(jù)集上~(ESparseLDA)算法的時(shí)效性能夠高于SparseLDA算法~(31.85%)。從實(shí)際情況來看,~(ESparseLDA)算法更適用于文本內(nèi)詞型數(shù)相對(duì)較少且詞項(xiàng)數(shù)相對(duì)較多的長(zhǎng)文本數(shù)據(jù)集(比如小說、專利和學(xué)術(shù)論文等)。此外需要說明的是,~(ESparseLDA)算法中的核心想法具有一定的一般性,也可以用來為部分其他的主題模型提出相應(yīng)的快速吉布斯采樣主題推斷算法。(2)針對(duì)~(BTM)模型主題推斷過程中存在的“時(shí)間復(fù)雜度較高”、“收斂時(shí)間較長(zhǎng)”問題,我們提出了一種精確的用于~(BTM)模型主題推斷的快速吉布斯采樣算法——~(SparseBTM)算法。~(BTM)模型是一種有效地用于短文本數(shù)據(jù)集主題挖掘的主題模型,但是它的標(biāo)準(zhǔn)吉布斯采樣算法(~(StdBTM)算法)存在“時(shí)間復(fù)雜度較高”、“收斂時(shí)間較長(zhǎng)”問題。針對(duì)這個(gè)問題,我們基于~(StdBTM)算法提出了一種精確的用于~(BTM)模型主題推斷的快速吉布斯采樣算法——~(SparseBTM)算法。SparseBTM算法的主要想法是通過重用中間計(jì)算結(jié)果和利用~(BTM)模型中主題~-詞型計(jì)數(shù)矩陣~(NT)W的稀疏性來減少~(StdBTM)算法中不必要的計(jì)算,并最終達(dá)到降低推斷算法時(shí)間復(fù)雜度和減少模型收斂時(shí)間的目的。本質(zhì)上,~(SparseBTM)算法在時(shí)間開銷和空間開銷上進(jìn)行了權(quán)衡,即通過增加部分空間開銷來減少部分時(shí)間開銷。理論上,~(SparseBTM)算法的時(shí)間復(fù)雜度低于~(StdBTM)算法。相應(yīng)的對(duì)比實(shí)驗(yàn)結(jié)果表明,在較大的主題個(gè)數(shù)(~K為~(1000))設(shè)置下,~(SparseBTM)算法的收斂速度可以達(dá)到~(StdBTM)算法的~(18)倍。(3)為解決~(BTM)模型的~(SparseBTM)算法在短本文主題推斷過程中存在的“重用計(jì)算”問題,我們基于~(SparseBTM)算法提出了一種精確的和時(shí)效性更高的用于~(BTM)模型主題推斷的快速吉布斯采樣算法——~(ESparseBTM)算法。SparseBTM算法是~(BTM)模型的一種精確的和快速的吉布斯采樣主題推斷算法。然而,由于在主題推斷過程中“相鄰雙詞詞項(xiàng)的雙詞詞型通常是不同的”導(dǎo)致它“不能重用更多的中間計(jì)算結(jié)果”。因此,它的時(shí)效性受到了限制而不能進(jìn)一步地得到提高。~(ESparseBTM)算法解決這個(gè)問題的核心想法是:首先根據(jù)雙詞詞型重排整個(gè)雙詞數(shù)據(jù)集內(nèi)的所有雙詞詞項(xiàng),以使得數(shù)據(jù)集內(nèi)雙詞詞型相同的所有雙詞詞項(xiàng)聚集在一起;然后采用緩存策略以重用更多的中間計(jì)算結(jié)果,并最終達(dá)到提高算法時(shí)效性的目的。~(ESparseBTM)算法完成和~(SparseBTM)算法同樣的任務(wù),并且保證結(jié)果的精確度不變。我們從理論分析和對(duì)比實(shí)驗(yàn)兩個(gè)方面驗(yàn)證了ESparseBTM算法結(jié)果的精確性和收斂速度的時(shí)效性。理論上,~(ESparseBTM)算法的時(shí)間復(fù)雜度低于~(SparseBTM)算法。相應(yīng)的對(duì)比實(shí)驗(yàn)結(jié)果表明,~(ESparseBTM)算法的時(shí)效性高于~(SparseBTM)算法,尤其是在雙詞詞型個(gè)數(shù)與雙詞詞項(xiàng)個(gè)數(shù)比率較小的數(shù)據(jù)集上。具體地,在對(duì)比實(shí)驗(yàn)使用的不同數(shù)據(jù)集上,~(ESparseBTM)算法的時(shí)效性能夠高于~(SparseBTM)算法~(39.5%)。
【圖文】:

概率分布,圖模型,詞型,主題


)是表示主題t內(nèi)各詞型概率分布的參數(shù)。出現(xiàn)的概率。直觀地,從t可以看出主題示文本d內(nèi)的詞項(xiàng)個(gè)數(shù)。內(nèi)第n個(gè)詞項(xiàng)的主題標(biāo)識(shí);d內(nèi)第n個(gè)詞項(xiàng)的詞型標(biāo)識(shí)。說明的是wd,n是觀測(cè)量,d,t和zd,n非觀參數(shù),zd,n是需要推斷的變量。因此,,總的各文本內(nèi)詞項(xiàng)(wd,n)的情況下,計(jì)算各詞比重(d)以及各主題內(nèi)詞型概率分布(t)分布的一種有效方法,吉布斯采樣算法首先后對(duì)變量z進(jìn)行推斷,最后再由變量z得到詳細(xì)地介紹吉布斯采樣算法推斷LDA模型

混合模型,圖模型,模型,形式化描述


(b) LDA 模型,(c) 一元混合模型。BTM LDA根據(jù)BTM模型生成過程的形式化描述,它的圖模型表示如圖2.2所示。為了更好的理解BTM模型,從概率圖模型的角度它可以看作一元混合模型和LDA模型的組合。圖2.2展示了這三個(gè)模
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 熊蜀峰;姬東鴻;;面向產(chǎn)品評(píng)論分析的短文本情感主題模型[J];自動(dòng)化學(xué)報(bào);2016年08期

2 蔣銳瀅;崔磊;何晶;周明;潘志庚;;基于主題模型和統(tǒng)計(jì)機(jī)器翻譯方法的中文格律詩自動(dòng)生成[J];計(jì)算機(jī)學(xué)報(bào);2015年12期

3 懷寶興;寶騰飛;祝恒書;劉淇;;一種基于概率主題模型的命名實(shí)體鏈接方法[J];軟件學(xué)報(bào);2014年09期

4 魏強(qiáng);金芝;許焱;;基于概率主題模型的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)[J];軟件學(xué)報(bào);2014年08期



本文編號(hào):2599215

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2599215.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ac44b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com