基于Wikipedia語料擴展的短文本數(shù)據(jù)流分類方法研究
發(fā)布時間:2021-11-26 01:10
社交網(wǎng)絡(luò)等領(lǐng)域產(chǎn)生了海量的短文本數(shù)據(jù)流,一方面,由于短文本自身長度短,語義信息不足,帶來文本的高維稀疏問題,同時流環(huán)境下的短文本數(shù)據(jù)又隱含概念漂移等特點,導(dǎo)致傳統(tǒng)的文本分類方法難以直接應(yīng)用。另一方面,隨著短文本數(shù)據(jù)的快速產(chǎn)生,人工標注所有短文本數(shù)據(jù)不僅費時費力,且?guī)缀跏遣豢赡芡瓿?因此,如何在少量的有標簽短文本數(shù)據(jù)的情況下,充分利用豐富的無標簽短文本數(shù)據(jù)提升分類精度也是一大挑戰(zhàn)。針對以上問題,本文對短文本數(shù)據(jù)流分類算法進行了研究,其主要工作如下:(1)概述已有的短文本分類的相關(guān)工作,包括:有監(jiān)督短文本與短文本數(shù)據(jù)流分類方法、半監(jiān)督短文本分類方法以及半監(jiān)督數(shù)據(jù)流分類方法。(2)針對短文本數(shù)據(jù)流存在的特征高維稀疏以及概念漂移問題,提出一種基于文本擴展和概念漂移檢測的短文本數(shù)據(jù)流分類算法。該方法首先從Wikipedia獲取外部語料用于擴展短文本,同時借助在線BTM模型(Online Biterm Topic Model)選擇代表性主題表示短文本,從而解決短文本的高維稀疏問題;其次,為檢測短文本數(shù)據(jù)流中的概念漂移問題,提出一種基于主題的概念漂移檢測算法;最后,該方法基于數(shù)據(jù)塊構(gòu)建集成模型,同時...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
ExpaNet模型結(jié)構(gòu)
圖 2.2 主題記憶網(wǎng)絡(luò)Figure 2.2 Topic Memory Network 有監(jiān)督的短文本數(shù)據(jù)流分類方法目前針對短文本數(shù)據(jù)流分類的研究工作還很少。比較具有代表性的工作有uaziz 等[25]提出 IGLM 模型,通過不斷更新分類器提高數(shù)據(jù)流分類。首先,根始訓(xùn)練集訓(xùn)練隨機森林分類器,其次,當(dāng)有數(shù)據(jù)到來時先利用初始分類器進類,同時結(jié)合主動學(xué)習(xí)的方法將錯分類的短文本加到訓(xùn)練集中,通過計算先練集與當(dāng)前錯分類短文本信息增益的差值決定是否更新分類模型。Ren 等[26]分層多標簽短文本數(shù)據(jù)流分類。首先,基于實體鏈接和查詢語句的排序方法短文本,然后,通過將主題分成動態(tài)全局主題和局部主題構(gòu)建動態(tài)概率主題,最后,使用基于塊的結(jié)構(gòu)優(yōu)化策略分類短文本。Li 等[27]提出一種增量式的模型適應(yīng)短文本數(shù)據(jù)流,首先,公開語義網(wǎng)絡(luò) Probase 被用于擴展特征空間,通過引入更多的基于短文本隱藏術(shù)語的語義上下文信息來彌補數(shù)據(jù)的稀疏性時為減少噪音影響,基于語義信息消除所有術(shù)語的歧義。然后基于概念簇的
【參考文獻】:
期刊論文
[1]基于詞項關(guān)聯(lián)的短文本分類研究[J]. 章昉,顏華駒,劉明君,趙中英. 集成技術(shù). 2015(03)
[2]利用圖結(jié)構(gòu)進行半監(jiān)督學(xué)習(xí)的短文本分類研究[J]. 張倩,劉懷亮. 圖書情報工作. 2013(21)
本文編號:3519131
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
ExpaNet模型結(jié)構(gòu)
圖 2.2 主題記憶網(wǎng)絡(luò)Figure 2.2 Topic Memory Network 有監(jiān)督的短文本數(shù)據(jù)流分類方法目前針對短文本數(shù)據(jù)流分類的研究工作還很少。比較具有代表性的工作有uaziz 等[25]提出 IGLM 模型,通過不斷更新分類器提高數(shù)據(jù)流分類。首先,根始訓(xùn)練集訓(xùn)練隨機森林分類器,其次,當(dāng)有數(shù)據(jù)到來時先利用初始分類器進類,同時結(jié)合主動學(xué)習(xí)的方法將錯分類的短文本加到訓(xùn)練集中,通過計算先練集與當(dāng)前錯分類短文本信息增益的差值決定是否更新分類模型。Ren 等[26]分層多標簽短文本數(shù)據(jù)流分類。首先,基于實體鏈接和查詢語句的排序方法短文本,然后,通過將主題分成動態(tài)全局主題和局部主題構(gòu)建動態(tài)概率主題,最后,使用基于塊的結(jié)構(gòu)優(yōu)化策略分類短文本。Li 等[27]提出一種增量式的模型適應(yīng)短文本數(shù)據(jù)流,首先,公開語義網(wǎng)絡(luò) Probase 被用于擴展特征空間,通過引入更多的基于短文本隱藏術(shù)語的語義上下文信息來彌補數(shù)據(jù)的稀疏性時為減少噪音影響,基于語義信息消除所有術(shù)語的歧義。然后基于概念簇的
【參考文獻】:
期刊論文
[1]基于詞項關(guān)聯(lián)的短文本分類研究[J]. 章昉,顏華駒,劉明君,趙中英. 集成技術(shù). 2015(03)
[2]利用圖結(jié)構(gòu)進行半監(jiān)督學(xué)習(xí)的短文本分類研究[J]. 張倩,劉懷亮. 圖書情報工作. 2013(21)
本文編號:3519131
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3519131.html
最近更新
教材專著