天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于知識(shí)圖譜語(yǔ)義擴(kuò)展的短文本主題建模研究

發(fā)布時(shí)間:2022-01-26 12:01
  網(wǎng)絡(luò)是人們獲取信息的重要手段,手機(jī)、電腦等移動(dòng)設(shè)備已經(jīng)成為人們生活中不可分割的一部分,網(wǎng)絡(luò)文本開始成為人們獲取信息、傳播信息的主要途徑之一,這使得文本數(shù)據(jù)呈爆炸式增長(zhǎng)。如何挖掘出文本數(shù)據(jù)的規(guī)律和隱藏的主題結(jié)構(gòu),成為機(jī)器學(xué)習(xí)領(lǐng)域的熱門問題。主題模型在文本領(lǐng)域有著極為廣泛的應(yīng)用,通過建?梢杂行У耐诰虺鰯(shù)據(jù)中潛在的主題結(jié)構(gòu)。但是傳統(tǒng)的主題模型在面對(duì)極短的文本(如社交媒體帖子)時(shí),由于文本數(shù)據(jù)少、上下文信息缺失,會(huì)面臨嚴(yán)重的稀疏性問題,在短文本上的建模效果通常不佳。越來(lái)越多的研究者開始思考如何來(lái)彌補(bǔ)數(shù)據(jù)稀疏的問題。然而,大部分的模型雖然通過各種辦法來(lái)對(duì)文本內(nèi)容進(jìn)行擴(kuò)充,但往往認(rèn)為文中每個(gè)單詞之間都是獨(dú)立的關(guān)系,忽略了單詞之間的語(yǔ)義關(guān)聯(lián)。在實(shí)際的場(chǎng)景中,人們閱讀時(shí)除了文本中的內(nèi)容外,頭腦中已有的知識(shí)對(duì)于人類理解文本含義也十分重要,單詞的詞性、相關(guān)的單詞等語(yǔ)義知識(shí)都可以幫助人們進(jìn)行理解。因此,通過單詞間語(yǔ)義關(guān)系,可以發(fā)現(xiàn)哪些單詞有更高的概率屬于同一個(gè)主題。為它們?cè)黾釉~共現(xiàn)信息從而擴(kuò)充短文本表示,這更符合人類推理的模式,也能獲得更高質(zhì)量的主題表示。知識(shí)圖譜是現(xiàn)階段AI領(lǐng)域研究的熱門,在長(zhǎng)文本主題建... 

【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:56 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于知識(shí)圖譜語(yǔ)義擴(kuò)展的短文本主題建模研究


包含m篇文檔的語(yǔ)料集

模型圖,概率,模型,骰子


第2章相關(guān)理論基礎(chǔ)與研究技術(shù)8另外一組則是代表主題-單詞的骰子。首先從第二組骰子中抽取,得到K個(gè)主題-單詞的骰子并命名為1到K,然后在每次生成文檔時(shí)從第一組骰子中隨機(jī)地抽取一個(gè)文檔-主題骰子,并重復(fù)以下過程:投擲這個(gè)骰子,得到一個(gè)編號(hào)z;找到剛剛第二組中得到的編號(hào)為z的骰子;投擲并得到一個(gè)單詞,這樣就能生成出一篇文檔。人們觀察到的就是這些已經(jīng)生成了的文本,所以在統(tǒng)計(jì)文本建模中,我們的目的就是推測(cè)出一共有哪些種類的骰子,以及它們是如何投擲的。2.1.2LDA主題模型在2003年,Blei和Jordan等學(xué)者提出了隱狄利克雷分配(LDA)模型,被認(rèn)為是第一個(gè)標(biāo)準(zhǔn)意義上的主題模型,也是目前長(zhǎng)文本分類領(lǐng)域使用最廣泛的模型。通過對(duì)詞分布的學(xué)習(xí),LDA在非結(jié)構(gòu)化的集合中能夠有效學(xué)習(xí)出有價(jià)值的特征。作為文檔的概率主題模型,它能夠表示文檔集合的底層主題結(jié)構(gòu),整體上LDA模型就是一個(gè)文本-主題-單詞的三層貝葉斯概率模型。LDA主題模型的概率圖如圖2.2所示:圖2.2LDA概率圖模型

模型圖,概率,模型,主題


第2章相關(guān)理論基礎(chǔ)與研究技術(shù)11采樣得到該主題在詞典上的多項(xiàng)分布~();3.對(duì)于語(yǔ)料集中每個(gè)文檔,∈{1,……,}:a.采樣得到主題~();b.對(duì)每個(gè)單詞∈{,,,,……,,}:采樣得到單詞~()。假設(shè)短文本語(yǔ)料集中的全部文本數(shù)量為,詞匯表大小為。K是預(yù)定義的潛在主題的數(shù)目,每篇文檔都有一個(gè)對(duì)應(yīng)的主題。與LDA參數(shù)設(shè)定相似,是從文檔-主題多項(xiàng)分布中采樣出來(lái)的主題,服從以為參數(shù)的狄利克雷分布。文檔={,,,,……,,},其中是文檔中的單詞數(shù)。DMM模型也屬于詞袋模型,文本中每一個(gè)單詞之間相互獨(dú)立,通過對(duì)主題-詞分布(|=)采樣產(chǎn)生,其中多項(xiàng)分布服從以為參數(shù)的狄利克雷分布。主題DMM模型的概率圖如圖2.3所示:圖2.3DMM概率圖模型DMM模型依然使用吉布斯抽樣來(lái)近似計(jì)算模型的隱含變量。在每一輪迭代中,根據(jù)公式2.5的條件分布為每一篇文檔采樣一個(gè)主題z:(=|,)∝,×∏∏(,)∈∏(,)…………(2.5)


本文編號(hào):3610456

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3610456.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bcb82***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com