天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多粒度主題模型的短文本分類算法研究

發(fā)布時間:2022-02-22 09:22
  隨著移動互聯(lián)網(wǎng)的快速發(fā)展和微博、微信等新媒體平臺的迅速普及,產(chǎn)生了大量的短文本數(shù)據(jù),對短文本的理解和處理變得越來越重要。文本分類是文本數(shù)據(jù)挖掘的重要方法之一,在信息檢索、情感分析和內(nèi)容推薦等領域都發(fā)揮重要作用。由于短文本的稀疏性,傳統(tǒng)的文本分類方法直接應用于短文本的效果并不十分理想。針對短文本稀疏性問題,提出了一種基于多粒度主題模型的特征擴展方法。利用LDA從背景語料庫中訓練出多個不同粒度的主題模型,從中挑選出一個最優(yōu)的組合構(gòu)成主題特征空間,然后將短文本在主題上的概率分布作為擴展特征,并與原始特征結(jié)合,從而實現(xiàn)短文本的特征擴展。最后,將擴展特征向量輸入到KNN和SVM等分類器中,實現(xiàn)短文本的分類過程。在騰訊新聞數(shù)據(jù)集和復旦大學文本分類數(shù)據(jù)集上,將提出的方法與其他經(jīng)典的短文本特征擴展或分類方法進行對比,驗證方法的有效性。與基于單粒度主題模型的傳統(tǒng)特征擴展方法相比,提出的基于多粒度主題模型的特征擴展方法在KNN和SVM兩個分類器上MicroF1值分別有1.81%和3.15%的提高,也比其他特征擴展方法取得了更優(yōu)的分類效果。實驗結(jié)果表明,提出的基于多粒度主題模型的特征擴展方法能有效解決短文本... 

【文章來源】:華中科技大學湖北省211工程院校985工程院校教育部直屬院校

【文章頁數(shù)】:63 頁

【學位級別】:碩士

【部分圖文】:

基于多粒度主題模型的短文本分類算法研究


LDA概率圖模型

決策圖,超平面,分類器


選擇過程如下:分布 選擇一個主題: z ~Multinomial( )布 選擇一個主題詞: w ~Multinomial( )有很多,比較常用的有樸素貝葉斯、決策樹、大熵分類器等,其中一般認為在文本分類上效在實驗部分也使用到了這兩種分類器,故此只本集 D{(,),(,),...,(,)}1 122nn xyxyxy,其中 iy 何在樣本空間中找到一個合適的超平面,能夠.2 所示:

支持向量


持向量的微小變動就會改變最佳超平面的位置。使數(shù)據(jù)正確劃分并且不同類別的支持向量之間間隔最大的超平面。,首先通過公式 2.8 來定義樣本空間中的劃分超平Wx b 0T面的法向量,b 為偏移量。當找到一個超平面能的訓練樣本都應滿足公式 2.9: 1111iiTiiTWxbyWxby 1iy 代表正例樣本, 1iy 代表負例樣本;式子了計算方便,也可以取其他任意值。該公式實

【參考文獻】:
期刊論文
[1]基于LDA特征擴展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛.  計算機工程與應用. 2015(04)
[2]基于卡方特征選擇和LDA主題模型的中文短文本分類[J]. 鄭誠,熊大康,劉倩倩.  電腦知識與技術. 2014(13)
[3]基于語義與最大匹配度的短文本分類研究[J]. 孫建旺,呂學強,張雷瀚.  計算機工程與設計. 2013(10)
[4]改進的基于《知網(wǎng)》的詞匯語義相似度計算[J]. 朱征宇,孫俊華.  計算機應用. 2013(08)
[5]基于LDA主題模型的短文本分類方法[J]. 張志飛,苗奪謙,高燦.  計算機應用. 2013(06)
[6]基于LDA的中文文本相似度計算[J]. 孫昌年,鄭誠,夏青松.  計算機技術與發(fā)展. 2013(01)
[7]基于維基百科的中文短文本分類研究[J]. 范云杰,劉懷亮.  現(xiàn)代圖書情報技術. 2012(03)
[8]一種基于WordNet的短文本語義相似性算法[J]. 翟延冬,王康平,張東娜,黃嵐,周春光.  電子學報. 2012(03)
[9]利用上下位關系的中文短文本分類[J]. 王盛,樊興華,陳現(xiàn)麟.  計算機應用. 2010(03)



本文編號:3639164

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3639164.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶57019***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com