基于Wikipedia語料擴展的短文本數(shù)據(jù)流分類方法研究

發(fā)布時間：2021-11-26 01:10

　　社交網(wǎng)絡(luò)等領(lǐng)域產(chǎn)生了海量的短文本數(shù)據(jù)流,一方面,由于短文本自身長度短,語義信息不足,帶來文本的高維稀疏問題,同時流環(huán)境下的短文本數(shù)據(jù)又隱含概念漂移等特點,導(dǎo)致傳統(tǒng)的文本分類方法難以直接應(yīng)用。另一方面,隨著短文本數(shù)據(jù)的快速產(chǎn)生,人工標注所有短文本數(shù)據(jù)不僅費時費力,且?guī)缀跏遣豢赡芡瓿?因此,如何在少量的有標簽短文本數(shù)據(jù)的情況下,充分利用豐富的無標簽短文本數(shù)據(jù)提升分類精度也是一大挑戰(zhàn)。針對以上問題,本文對短文本數(shù)據(jù)流分類算法進行了研究,其主要工作如下:（1）概述已有的短文本分類的相關(guān)工作,包括:有監(jiān)督短文本與短文本數(shù)據(jù)流分類方法、半監(jiān)督短文本分類方法以及半監(jiān)督數(shù)據(jù)流分類方法。（2）針對短文本數(shù)據(jù)流存在的特征高維稀疏以及概念漂移問題,提出一種基于文本擴展和概念漂移檢測的短文本數(shù)據(jù)流分類算法。該方法首先從Wikipedia獲取外部語料用于擴展短文本,同時借助在線BTM模型（Online Biterm Topic Model）選擇代表性主題表示短文本,從而解決短文本的高維稀疏問題;其次,為檢測短文本數(shù)據(jù)流中的概念漂移問題,提出一種基于主題的概念漂移檢測算法;最后,該方法基于數(shù)據(jù)塊構(gòu)建集成模型,同時...

【文章來源】：合肥工業(yè)大學(xué)安徽省 211工程院校教育部直屬院校

【文章頁數(shù)】：65 頁

【學(xué)位級別】：碩士

【部分圖文】：

ExpaNet模型結(jié)構(gòu)

主題,短文

圖 2.2 主題記憶網(wǎng)絡(luò)Figure 2.2 Topic Memory Network 有監(jiān)督的短文本數(shù)據(jù)流分類方法目前針對短文本數(shù)據(jù)流分類的研究工作還很少。比較具有代表性的工作有uaziz 等[25]提出 IGLM 模型，通過不斷更新分類器提高數(shù)據(jù)流分類。首先，根始訓(xùn)練集訓(xùn)練隨機森林分類器，其次，當(dāng)有數(shù)據(jù)到來時先利用初始分類器進類，同時結(jié)合主動學(xué)習(xí)的方法將錯分類的短文本加到訓(xùn)練集中，通過計算先練集與當(dāng)前錯分類短文本信息增益的差值決定是否更新分類模型。Ren 等[26]分層多標簽短文本數(shù)據(jù)流分類。首先，基于實體鏈接和查詢語句的排序方法短文本，然后，通過將主題分成動態(tài)全局主題和局部主題構(gòu)建動態(tài)概率主題，最后，使用基于塊的結(jié)構(gòu)優(yōu)化策略分類短文本。Li 等[27]提出一種增量式的模型適應(yīng)短文本數(shù)據(jù)流，首先，公開語義網(wǎng)絡(luò) Probase 被用于擴展特征空間，通過引入更多的基于短文本隱藏術(shù)語的語義上下文信息來彌補數(shù)據(jù)的稀疏性時為減少噪音影響，基于語義信息消除所有術(shù)語的歧義。然后基于概念簇的

【參考文獻】：
期刊論文
[1]基于詞項關(guān)聯(lián)的短文本分類研究[J]. 章昉,顏華駒,劉明君,趙中英. 集成技術(shù). 2015(03)
[2]利用圖結(jié)構(gòu)進行半監(jiān)督學(xué)習(xí)的短文本分類研究[J]. 張倩,劉懷亮. 圖書情報工作. 2013(21)

本文編號：3519131

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3519131.html

上一篇：面向少量標注數(shù)據(jù)的中文命名實體識別技術(shù)研究
下一篇：模擬砂箱3D打印技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Wikipedia語料擴展的短文本數(shù)據(jù)流分類方法研究