短文本主題模型的研究與系統(tǒng)實(shí)現(xiàn)
發(fā)布時(shí)間:2021-07-30 16:19
在移動(dòng)互聯(lián)網(wǎng)高速發(fā)展的今天,短文本以其便捷高效的傳播優(yōu)勢(shì),極大地滿足了人們隨時(shí)隨地參與網(wǎng)絡(luò)活動(dòng)的需求,日漸作為主流的信息載體。同時(shí)海量的短文本信息也是人們?cè)诂F(xiàn)實(shí)世界與網(wǎng)絡(luò)世界的真實(shí)映射,對(duì)這些短文本信息進(jìn)行分析和挖掘,能夠更好地引導(dǎo)真實(shí)世界的行為,也促使更多新的應(yīng)用落地,從而更好地服務(wù)于人類自身。主題挖掘作為一項(xiàng)基礎(chǔ)的文本分析任務(wù),可以從規(guī)模龐大的文本中挖掘出潛在的主題信息,傳統(tǒng)的主題模型在長(zhǎng)文本的主題挖掘中已經(jīng)有較為成熟穩(wěn)定的應(yīng)用,但是短文本受限于文本長(zhǎng)度,在信息的表達(dá)上非常簡(jiǎn)短隨意,具有嚴(yán)重的稀疏性和上下文信息匱乏的問(wèn)題,稀疏的詞共現(xiàn)信息使得模型推斷的準(zhǔn)確性遭受很大挑戰(zhàn)。針對(duì)短文本稀疏性、語(yǔ)義缺乏的特性,本文分析了現(xiàn)有的短文本主題模型,并提出了基于語(yǔ)義增強(qiáng)和詞頻逆文檔頻率的詞對(duì)主題模型(Semantic Enhancement-TFIDF based Biterm Topic Model,SEI-BTM),模型包括以下幾點(diǎn):(1)以詞對(duì)為建模對(duì)象,緩解統(tǒng)計(jì)推斷上的詞共現(xiàn)信息的匱乏;(2)使用詞嵌入技術(shù),在大規(guī)模短文本集合中訓(xùn)練得到詞表示,將詞對(duì)在詞表示上的相似性作為模型的上下文語(yǔ)義...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?
對(duì)模型中的多種參數(shù)進(jìn)行學(xué)習(xí)和修正,簡(jiǎn)化直接計(jì)算概率分布的復(fù)雜性,被??廣泛應(yīng)用到概率的自動(dòng)推斷。??貝葉斯網(wǎng)絡(luò)和馬爾科夫隨機(jī)場(chǎng)分別是無(wú)向概率圖和有向概率圖的代表,圖2-1和??2-2給出了兩種模型的表示形式,其中實(shí)心點(diǎn)表示可觀測(cè)變量,空心點(diǎn)表示隱藏變量,??節(jié)點(diǎn)之間的連線表示變量之間的依賴關(guān)系。??圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?圖2-2無(wú)向圖:馬爾科夫隨機(jī)場(chǎng)??大部分主題模型屬于有向圖模型中的貝葉斯網(wǎng)絡(luò),對(duì)圖2-1中的隨機(jī)變量??XKXpXhXiXJ,聯(lián)合概率計(jì)算方法如式2-1所示。??p(x1,x2,x3,x4)?=?pCXi)?*?pcx^xj?*PCX3IX。?*p(x4|x2,?x3)?(2-1)??7??
在貝葉斯網(wǎng)絡(luò)的圖形表示上,通常采用盤式記法,規(guī)定空心表示隱藏變量,實(shí)心??表示可觀測(cè)變量,有向邊表示兩個(gè)隨機(jī)變量的依賴關(guān)系,方框表示重復(fù)采樣,方框中??的數(shù)值表示重復(fù)采樣的次數(shù),具體表示方法如圖2-3所示。??擇含變置?可觀涵變置?變纛間條件依纊?重5過(guò)程??圖2-3盤子表示法??2.1.2常見(jiàn)概率分布及其關(guān)系??主題模型中主要涉及四個(gè)概率分布,分別是二項(xiàng)分布、多項(xiàng)分布、貝塔分布和狄??利克雷分布。本部分簡(jiǎn)要介紹這四個(gè)概率分布及其之間的關(guān)聯(lián)。??二項(xiàng)分布(Binomial?Distribution)是伯努利分布的推廣,伯努利分布也稱為0-1??分布,隨機(jī)變量的取值只有0和1兩類,二項(xiàng)分布是N次獨(dú)立的伯努利實(shí)驗(yàn)中,期望??結(jié)果出現(xiàn)次數(shù)的概率,假設(shè)某個(gè)事件出現(xiàn)的概率為P,不出現(xiàn)的概率為1-p,?k對(duì)應(yīng)不??同的實(shí)驗(yàn)結(jié)果出現(xiàn)的次數(shù),對(duì)應(yīng)的概率分布如公式2-3所示。??p(K?=?k)?=?〇pk(l?-?P)n ̄k?(2-3)??多項(xiàng)式分布(Multinomial?Distribution)是二項(xiàng)式分布拓展到多維情況下的概率分??布,在多項(xiàng)式分布中,每次實(shí)驗(yàn)的隨機(jī)變量不一定服從伯努利分布,對(duì)于隨機(jī)變量??(XpXh?...,Xk),各自出現(xiàn)的概率分別為(PhPh?...,pk),則多項(xiàng)式分布的概率分布如公式??2-4所示。??8??
【參考文獻(xiàn)】:
期刊論文
[1]中文文本聚類常用停用詞表對(duì)比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(03)
[2]知識(shí)圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報(bào). 2016(04)
[3]知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 劉知遠(yuǎn),孫茂松,林衍凱,謝若冰. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[4]網(wǎng)絡(luò)輿情觀點(diǎn)提取的LDA主題模型方法[J]. 陳曉美,高鋮,關(guān)心惠. 圖書情報(bào)工作. 2015(21)
[5]基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J]. 胡吉明,陳果. 圖書情報(bào)工作. 2014(02)
本文編號(hào):3311729
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?
對(duì)模型中的多種參數(shù)進(jìn)行學(xué)習(xí)和修正,簡(jiǎn)化直接計(jì)算概率分布的復(fù)雜性,被??廣泛應(yīng)用到概率的自動(dòng)推斷。??貝葉斯網(wǎng)絡(luò)和馬爾科夫隨機(jī)場(chǎng)分別是無(wú)向概率圖和有向概率圖的代表,圖2-1和??2-2給出了兩種模型的表示形式,其中實(shí)心點(diǎn)表示可觀測(cè)變量,空心點(diǎn)表示隱藏變量,??節(jié)點(diǎn)之間的連線表示變量之間的依賴關(guān)系。??圖2-1有向圖:貝葉斯網(wǎng)絡(luò)?圖2-2無(wú)向圖:馬爾科夫隨機(jī)場(chǎng)??大部分主題模型屬于有向圖模型中的貝葉斯網(wǎng)絡(luò),對(duì)圖2-1中的隨機(jī)變量??XKXpXhXiXJ,聯(lián)合概率計(jì)算方法如式2-1所示。??p(x1,x2,x3,x4)?=?pCXi)?*?pcx^xj?*PCX3IX。?*p(x4|x2,?x3)?(2-1)??7??
在貝葉斯網(wǎng)絡(luò)的圖形表示上,通常采用盤式記法,規(guī)定空心表示隱藏變量,實(shí)心??表示可觀測(cè)變量,有向邊表示兩個(gè)隨機(jī)變量的依賴關(guān)系,方框表示重復(fù)采樣,方框中??的數(shù)值表示重復(fù)采樣的次數(shù),具體表示方法如圖2-3所示。??擇含變置?可觀涵變置?變纛間條件依纊?重5過(guò)程??圖2-3盤子表示法??2.1.2常見(jiàn)概率分布及其關(guān)系??主題模型中主要涉及四個(gè)概率分布,分別是二項(xiàng)分布、多項(xiàng)分布、貝塔分布和狄??利克雷分布。本部分簡(jiǎn)要介紹這四個(gè)概率分布及其之間的關(guān)聯(lián)。??二項(xiàng)分布(Binomial?Distribution)是伯努利分布的推廣,伯努利分布也稱為0-1??分布,隨機(jī)變量的取值只有0和1兩類,二項(xiàng)分布是N次獨(dú)立的伯努利實(shí)驗(yàn)中,期望??結(jié)果出現(xiàn)次數(shù)的概率,假設(shè)某個(gè)事件出現(xiàn)的概率為P,不出現(xiàn)的概率為1-p,?k對(duì)應(yīng)不??同的實(shí)驗(yàn)結(jié)果出現(xiàn)的次數(shù),對(duì)應(yīng)的概率分布如公式2-3所示。??p(K?=?k)?=?〇pk(l?-?P)n ̄k?(2-3)??多項(xiàng)式分布(Multinomial?Distribution)是二項(xiàng)式分布拓展到多維情況下的概率分??布,在多項(xiàng)式分布中,每次實(shí)驗(yàn)的隨機(jī)變量不一定服從伯努利分布,對(duì)于隨機(jī)變量??(XpXh?...,Xk),各自出現(xiàn)的概率分別為(PhPh?...,pk),則多項(xiàng)式分布的概率分布如公式??2-4所示。??8??
【參考文獻(xiàn)】:
期刊論文
[1]中文文本聚類常用停用詞表對(duì)比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(03)
[2]知識(shí)圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報(bào). 2016(04)
[3]知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 劉知遠(yuǎn),孫茂松,林衍凱,謝若冰. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[4]網(wǎng)絡(luò)輿情觀點(diǎn)提取的LDA主題模型方法[J]. 陳曉美,高鋮,關(guān)心惠. 圖書情報(bào)工作. 2015(21)
[5]基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J]. 胡吉明,陳果. 圖書情報(bào)工作. 2014(02)
本文編號(hào):3311729
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3311729.html
最近更新
教材專著