天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于神經(jīng)網(wǎng)絡(luò)嵌入模型的中文文本分類(lèi)方法研究

發(fā)布時(shí)間:2022-01-07 02:09
  文本分類(lèi)是目前自然語(yǔ)言處理領(lǐng)域最基礎(chǔ)的任務(wù)之一,在信息檢索、推薦系統(tǒng)等領(lǐng)域都有著廣泛的研究和應(yīng)用。傳統(tǒng)的文本分類(lèi)方法通過(guò)人工特征工程等方法對(duì)文本進(jìn)行表示,再選擇合適的分類(lèi)器對(duì)文本表示進(jìn)行分類(lèi)。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,一些基于神經(jīng)網(wǎng)絡(luò)的嵌入模型也在文本分類(lèi)領(lǐng)域取得了出色的應(yīng)用效果,尤其在英文文本分類(lèi)領(lǐng)域。相較于英文文本分類(lèi),中文文本分類(lèi)近幾年才得到了廣泛的關(guān)注,然而,由于其應(yīng)用場(chǎng)景的差異和中文單詞沒(méi)有天然分隔符的特點(diǎn),給中文文本分類(lèi)帶來(lái)了巨大挑戰(zhàn)。因而進(jìn)一步研究適用于不同場(chǎng)景的中文文本分類(lèi)的算法具有重要意義和應(yīng)用價(jià)值。基于此,本文開(kāi)展了基于神經(jīng)網(wǎng)絡(luò)嵌入模型的中文文本分類(lèi)方法研究,主要研究工作如下:(1)實(shí)際應(yīng)用領(lǐng)域如稅收領(lǐng)域開(kāi)具的增值稅發(fā)票數(shù)據(jù)具有總體數(shù)據(jù)量大、每條文本信息量少、特征項(xiàng)模糊等特點(diǎn),這種海量極短中文文本數(shù)據(jù)的特點(diǎn)導(dǎo)致傳統(tǒng)表示學(xué)習(xí)算法難以處理向量稀疏和維度災(zāi)難的問(wèn)題。因此,本文提出一種基于詞句嵌入模型的中文極短文本分類(lèi)方法。首先,借助海量語(yǔ)料庫(kù)使用基于神經(jīng)網(wǎng)絡(luò)的詞句嵌入模型對(duì)文本進(jìn)行有效表示,進(jìn)而結(jié)合分類(lèi)器對(duì)文本進(jìn)行分類(lèi)。最后,在稅收編碼分類(lèi)任務(wù)的1600萬(wàn)真實(shí)數(shù)據(jù)集上... 

【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:67 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于神經(jīng)網(wǎng)絡(luò)嵌入模型的中文文本分類(lèi)方法研究


020年2月21日百度新聞的新聞分類(lèi)[27]

郵箱,智能,文本分類(lèi),短文


第二章文本分類(lèi)相關(guān)研究綜述9圖2.2網(wǎng)易郵箱的智能分類(lèi)設(shè)置Fig2.2IntelligentclassificationSettingsforNetEasemailbox.2.1.2文本分類(lèi)難點(diǎn)文本分類(lèi)作為一個(gè)基礎(chǔ)任務(wù)已經(jīng)研究了很多年,它和自然語(yǔ)言處理領(lǐng)域中的很多技術(shù)都密切相關(guān),如語(yǔ)言理解,語(yǔ)義相似度度量等等,這些技術(shù)的難點(diǎn)同時(shí)也是文本分類(lèi)問(wèn)題的難點(diǎn)。人類(lèi)語(yǔ)言形式結(jié)構(gòu)多樣,在不同的場(chǎng)景中有不一樣的運(yùn)用,如何讓機(jī)器理解人類(lèi)的語(yǔ)言一直都有著許多的困難,這些困難都會(huì)影響到文本分類(lèi)的效果。(1)短文本問(wèn)題短文本分類(lèi)問(wèn)題是文本分類(lèi)領(lǐng)域中一類(lèi)常見(jiàn)問(wèn)題。短文本一般指的是不超過(guò)160個(gè)字符的文本,常見(jiàn)的形式有微博、新聞標(biāo)題、觀點(diǎn)評(píng)論等。短文本特征詞一般較少,用傳統(tǒng)的向量空間模型表示時(shí)會(huì)造成特征稀疏的問(wèn)題;短文本中還會(huì)有不規(guī)則特征詞和未登錄詞;短文本如微博、評(píng)論等還有實(shí)時(shí)性、海量性的特點(diǎn),這些都給文本分類(lèi)帶來(lái)了困難。例如下面兩條新聞標(biāo)題分類(lèi):“伊達(dá)傳說(shuō)EDDAOnline”應(yīng)該屬于游戲類(lèi),從字面意思難以判斷,也容易分

模型圖,模型,詞句,短文


合肥工業(yè)大學(xué)碩士學(xué)位論文223.2基于詞句嵌入模型的中文極短文本分類(lèi)框架本節(jié)將介紹基于詞句嵌入模型的海量中文極短文本分類(lèi)框架,所用到的符號(hào)及相應(yīng)意義如表3.1所示。3.2.1詞嵌入模型圖3.1CBOW模型Fig3.1CBOWmodel圖3.2Skip-gram模型Fig3.2Skip-grammodel


本文編號(hào):3573596

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3573596.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e160c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com