細(xì)粒度的新聞文本分類方法
發(fā)布時間:2021-05-07 18:31
近年來,互聯(lián)網(wǎng)上充斥著越來越多的信息,各種媒體每天在網(wǎng)絡(luò)上發(fā)布大量的新聞。在金融領(lǐng)域當(dāng)中,由于人們對于企業(yè)信譽(yù)等更加看重,會更加關(guān)注網(wǎng)絡(luò)當(dāng)中的相關(guān)新聞。同時,大量金融新聞的廣告性、總結(jié)性較強(qiáng),不具有價值性,這類新聞的存在增添了人們在獲取相關(guān)資訊過程中的時間成本。此外,對含有潛在價值的金融新聞進(jìn)行分析往往可以迅速獲得信息的升值價值,有效鑒別該類新聞可以避免專業(yè)分析人員接觸大量不具有分析意義的新聞文本,從而大量節(jié)約該過程當(dāng)中的人工分析成本。因此,如何從大量的新聞數(shù)據(jù)當(dāng)中有效鑒別含有潛在價值的金融新聞?chuàng)碛兄匾难芯恳饬x。本文當(dāng)中,我們通過文本分類方法鑒別含有潛在價值的金融新聞。與傳統(tǒng)文本分類問題不同的是,待分類的文本具有較長的文本長度,且不同類別之間數(shù)據(jù)具有比較大的相似性,因而是一個細(xì)粒度的長文本分類問題。對于自然語言處理當(dāng)中的文本分類任務(wù),研究重點(diǎn)一般在于文本表示建模方法當(dāng)中,F(xiàn)有的文本建模方法一般在較短文本上能夠取得比較好的建模效果,對于長文本的建模嘗試相對較少。本文提出,在細(xì)粒度新聞文本分類問題的長文本建模過程當(dāng)中,層次化地建模長文本能夠更好地獲取文本特征。為此,本文基于預(yù)訓(xùn)練語言模型...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題來源
1.2 課題研究的背景及意義
1.3 國內(nèi)外相關(guān)技術(shù)研究現(xiàn)狀分析
1.3.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類
1.3.2 基于深度學(xué)習(xí)的文本分類
1.3.3 基于多任務(wù)學(xué)習(xí)的文本分類
1.4 本文主要研究內(nèi)容
1.5 論文的組織與結(jié)構(gòu)
第2章 新聞文本分類方法簡介
2.1 引言
2.2 目標(biāo)類別新聞鑒別的整體流程
2.3 基于深度學(xué)習(xí)的文本分類方法
2.3.1 基于深度學(xué)習(xí)的文本分類框架
2.3.2 基于深度學(xué)習(xí)的文本分類模型
2.3.3 基于預(yù)訓(xùn)練語言模型的文本分類方法
2.3.4 基于深度學(xué)習(xí)的文本分類器
2.4 基于多任務(wù)學(xué)習(xí)的文本分類方法
2.4.1 多任務(wù)學(xué)習(xí)的基本概念
2.4.2 多任務(wù)學(xué)習(xí)下的兩種學(xué)習(xí)模式
2.4.3 多任務(wù)學(xué)習(xí)在文本分類當(dāng)中的應(yīng)用
2.5 本章小結(jié)
第3章 層次化文本表示的長文本分類
3.1 引言
3.2 層次化的長文本表示方法
3.2.1 嵌入層的設(shè)計方法
3.2.2 基于BERT的句子編碼方法
3.2.3 篇章編碼方法
3.2.4 篇章分類方法
3.3 數(shù)據(jù)集介紹
3.3.1 細(xì)粒度新聞文本分類數(shù)據(jù)集
3.3.2 公開數(shù)據(jù)集簡介
3.4 評價指標(biāo)介紹
3.5 實(shí)驗(yàn)與結(jié)果分析
3.5.1 實(shí)驗(yàn)環(huán)境與配置
3.5.2 實(shí)驗(yàn)結(jié)果
3.5.3 實(shí)驗(yàn)分析
3.6 本章小結(jié)
第4章 基于多任務(wù)學(xué)習(xí)的細(xì)粒度文本分類
4.1 引言
4.2 基于多任務(wù)學(xué)習(xí)的文本分類方法
4.2.1 輔助學(xué)習(xí)任務(wù)的構(gòu)建
4.2.2 多任務(wù)學(xué)習(xí)的文本分類實(shí)現(xiàn)方法
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 基于多任務(wù)學(xué)習(xí)的實(shí)驗(yàn)結(jié)果
4.3.2 加入目標(biāo)任務(wù)微調(diào)之后的實(shí)驗(yàn)結(jié)果
4.3.3 IMDb數(shù)據(jù)集上多任務(wù)學(xué)習(xí)實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
本文編號:3173868
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題來源
1.2 課題研究的背景及意義
1.3 國內(nèi)外相關(guān)技術(shù)研究現(xiàn)狀分析
1.3.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類
1.3.2 基于深度學(xué)習(xí)的文本分類
1.3.3 基于多任務(wù)學(xué)習(xí)的文本分類
1.4 本文主要研究內(nèi)容
1.5 論文的組織與結(jié)構(gòu)
第2章 新聞文本分類方法簡介
2.1 引言
2.2 目標(biāo)類別新聞鑒別的整體流程
2.3 基于深度學(xué)習(xí)的文本分類方法
2.3.1 基于深度學(xué)習(xí)的文本分類框架
2.3.2 基于深度學(xué)習(xí)的文本分類模型
2.3.3 基于預(yù)訓(xùn)練語言模型的文本分類方法
2.3.4 基于深度學(xué)習(xí)的文本分類器
2.4 基于多任務(wù)學(xué)習(xí)的文本分類方法
2.4.1 多任務(wù)學(xué)習(xí)的基本概念
2.4.2 多任務(wù)學(xué)習(xí)下的兩種學(xué)習(xí)模式
2.4.3 多任務(wù)學(xué)習(xí)在文本分類當(dāng)中的應(yīng)用
2.5 本章小結(jié)
第3章 層次化文本表示的長文本分類
3.1 引言
3.2 層次化的長文本表示方法
3.2.1 嵌入層的設(shè)計方法
3.2.2 基于BERT的句子編碼方法
3.2.3 篇章編碼方法
3.2.4 篇章分類方法
3.3 數(shù)據(jù)集介紹
3.3.1 細(xì)粒度新聞文本分類數(shù)據(jù)集
3.3.2 公開數(shù)據(jù)集簡介
3.4 評價指標(biāo)介紹
3.5 實(shí)驗(yàn)與結(jié)果分析
3.5.1 實(shí)驗(yàn)環(huán)境與配置
3.5.2 實(shí)驗(yàn)結(jié)果
3.5.3 實(shí)驗(yàn)分析
3.6 本章小結(jié)
第4章 基于多任務(wù)學(xué)習(xí)的細(xì)粒度文本分類
4.1 引言
4.2 基于多任務(wù)學(xué)習(xí)的文本分類方法
4.2.1 輔助學(xué)習(xí)任務(wù)的構(gòu)建
4.2.2 多任務(wù)學(xué)習(xí)的文本分類實(shí)現(xiàn)方法
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 基于多任務(wù)學(xué)習(xí)的實(shí)驗(yàn)結(jié)果
4.3.2 加入目標(biāo)任務(wù)微調(diào)之后的實(shí)驗(yàn)結(jié)果
4.3.3 IMDb數(shù)據(jù)集上多任務(wù)學(xué)習(xí)實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
本文編號:3173868
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3173868.html
最近更新
教材專著