基于Wikipedia語料擴(kuò)展的短文本數(shù)據(jù)流分類方法研究
發(fā)布時(shí)間:2021-11-26 01:10
社交網(wǎng)絡(luò)等領(lǐng)域產(chǎn)生了海量的短文本數(shù)據(jù)流,一方面,由于短文本自身長(zhǎng)度短,語義信息不足,帶來文本的高維稀疏問題,同時(shí)流環(huán)境下的短文本數(shù)據(jù)又隱含概念漂移等特點(diǎn),導(dǎo)致傳統(tǒng)的文本分類方法難以直接應(yīng)用。另一方面,隨著短文本數(shù)據(jù)的快速產(chǎn)生,人工標(biāo)注所有短文本數(shù)據(jù)不僅費(fèi)時(shí)費(fèi)力,且?guī)缀跏遣豢赡芡瓿?因此,如何在少量的有標(biāo)簽短文本數(shù)據(jù)的情況下,充分利用豐富的無標(biāo)簽短文本數(shù)據(jù)提升分類精度也是一大挑戰(zhàn)。針對(duì)以上問題,本文對(duì)短文本數(shù)據(jù)流分類算法進(jìn)行了研究,其主要工作如下:(1)概述已有的短文本分類的相關(guān)工作,包括:有監(jiān)督短文本與短文本數(shù)據(jù)流分類方法、半監(jiān)督短文本分類方法以及半監(jiān)督數(shù)據(jù)流分類方法。(2)針對(duì)短文本數(shù)據(jù)流存在的特征高維稀疏以及概念漂移問題,提出一種基于文本擴(kuò)展和概念漂移檢測(cè)的短文本數(shù)據(jù)流分類算法。該方法首先從Wikipedia獲取外部語料用于擴(kuò)展短文本,同時(shí)借助在線BTM模型(Online Biterm Topic Model)選擇代表性主題表示短文本,從而解決短文本的高維稀疏問題;其次,為檢測(cè)短文本數(shù)據(jù)流中的概念漂移問題,提出一種基于主題的概念漂移檢測(cè)算法;最后,該方法基于數(shù)據(jù)塊構(gòu)建集成模型,同時(shí)...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ExpaNet模型結(jié)構(gòu)
圖 2.2 主題記憶網(wǎng)絡(luò)Figure 2.2 Topic Memory Network 有監(jiān)督的短文本數(shù)據(jù)流分類方法目前針對(duì)短文本數(shù)據(jù)流分類的研究工作還很少。比較具有代表性的工作有uaziz 等[25]提出 IGLM 模型,通過不斷更新分類器提高數(shù)據(jù)流分類。首先,根始訓(xùn)練集訓(xùn)練隨機(jī)森林分類器,其次,當(dāng)有數(shù)據(jù)到來時(shí)先利用初始分類器進(jìn)類,同時(shí)結(jié)合主動(dòng)學(xué)習(xí)的方法將錯(cuò)分類的短文本加到訓(xùn)練集中,通過計(jì)算先練集與當(dāng)前錯(cuò)分類短文本信息增益的差值決定是否更新分類模型。Ren 等[26]分層多標(biāo)簽短文本數(shù)據(jù)流分類。首先,基于實(shí)體鏈接和查詢語句的排序方法短文本,然后,通過將主題分成動(dòng)態(tài)全局主題和局部主題構(gòu)建動(dòng)態(tài)概率主題,最后,使用基于塊的結(jié)構(gòu)優(yōu)化策略分類短文本。Li 等[27]提出一種增量式的模型適應(yīng)短文本數(shù)據(jù)流,首先,公開語義網(wǎng)絡(luò) Probase 被用于擴(kuò)展特征空間,通過引入更多的基于短文本隱藏術(shù)語的語義上下文信息來彌補(bǔ)數(shù)據(jù)的稀疏性時(shí)為減少噪音影響,基于語義信息消除所有術(shù)語的歧義。然后基于概念簇的
【參考文獻(xiàn)】:
期刊論文
[1]基于詞項(xiàng)關(guān)聯(lián)的短文本分類研究[J]. 章昉,顏華駒,劉明君,趙中英. 集成技術(shù). 2015(03)
[2]利用圖結(jié)構(gòu)進(jìn)行半監(jiān)督學(xué)習(xí)的短文本分類研究[J]. 張倩,劉懷亮. 圖書情報(bào)工作. 2013(21)
本文編號(hào):3519131
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ExpaNet模型結(jié)構(gòu)
圖 2.2 主題記憶網(wǎng)絡(luò)Figure 2.2 Topic Memory Network 有監(jiān)督的短文本數(shù)據(jù)流分類方法目前針對(duì)短文本數(shù)據(jù)流分類的研究工作還很少。比較具有代表性的工作有uaziz 等[25]提出 IGLM 模型,通過不斷更新分類器提高數(shù)據(jù)流分類。首先,根始訓(xùn)練集訓(xùn)練隨機(jī)森林分類器,其次,當(dāng)有數(shù)據(jù)到來時(shí)先利用初始分類器進(jìn)類,同時(shí)結(jié)合主動(dòng)學(xué)習(xí)的方法將錯(cuò)分類的短文本加到訓(xùn)練集中,通過計(jì)算先練集與當(dāng)前錯(cuò)分類短文本信息增益的差值決定是否更新分類模型。Ren 等[26]分層多標(biāo)簽短文本數(shù)據(jù)流分類。首先,基于實(shí)體鏈接和查詢語句的排序方法短文本,然后,通過將主題分成動(dòng)態(tài)全局主題和局部主題構(gòu)建動(dòng)態(tài)概率主題,最后,使用基于塊的結(jié)構(gòu)優(yōu)化策略分類短文本。Li 等[27]提出一種增量式的模型適應(yīng)短文本數(shù)據(jù)流,首先,公開語義網(wǎng)絡(luò) Probase 被用于擴(kuò)展特征空間,通過引入更多的基于短文本隱藏術(shù)語的語義上下文信息來彌補(bǔ)數(shù)據(jù)的稀疏性時(shí)為減少噪音影響,基于語義信息消除所有術(shù)語的歧義。然后基于概念簇的
【參考文獻(xiàn)】:
期刊論文
[1]基于詞項(xiàng)關(guān)聯(lián)的短文本分類研究[J]. 章昉,顏華駒,劉明君,趙中英. 集成技術(shù). 2015(03)
[2]利用圖結(jié)構(gòu)進(jìn)行半監(jiān)督學(xué)習(xí)的短文本分類研究[J]. 張倩,劉懷亮. 圖書情報(bào)工作. 2013(21)
本文編號(hào):3519131
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3519131.html
最近更新
教材專著