基于fastText的新聞文本分類研究及在農(nóng)業(yè)新聞中的應(yīng)用
發(fā)布時(shí)間:2021-04-16 14:15
互聯(lián)網(wǎng)的飛速發(fā)展使得數(shù)據(jù)大量且迅速地增長,其中大量數(shù)據(jù)是以文本形式存儲(chǔ)的,文本分類作為最常見的文本挖掘技術(shù)對于在大量雜亂的文本數(shù)據(jù)中發(fā)現(xiàn)知識具有重要意義。目前文本分類的方法主要有基于語義規(guī)則的分類方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的分類方法以及基于深度學(xué)習(xí)的分類方法三種方法。其中,fastText快速文本分類模型是最近提出的能夠快速高效進(jìn)行文本分類的淺層神經(jīng)網(wǎng)絡(luò)模型,它可以在取得和深度學(xué)習(xí)相當(dāng)?shù)姆诸愋Ч耐瑫r(shí)擁有比深度學(xué)習(xí)更低的訓(xùn)練成本,所以在工業(yè)界應(yīng)用廣泛。fastText通過n-gram進(jìn)行特征增強(qiáng)來獲取局部的詞序信息,但是經(jīng)過n-gram特征增強(qiáng)后會(huì)產(chǎn)生一些無意義的低頻詞,干擾文本分類的效果。同時(shí),對于新聞文本的具體問題,新聞標(biāo)題往往是一篇新聞的高度概括,在fastText模型中是將整篇文章的詞向量進(jìn)行累加取平均值作為一篇文章的向量表示,沒有考慮到新聞標(biāo)題在表示一篇文章時(shí)應(yīng)占有更高的權(quán)重。所以,本文針對以上問題對fastText模型主要進(jìn)行了“對重要詞進(jìn)行加權(quán)篩選”和“融合新聞標(biāo)題”兩種改進(jìn)分別提出算法CF-fastText和算法Title-fastText,同時(shí)將這兩種改進(jìn)方法融合提出算法...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW和Skip-gram結(jié)構(gòu)
本分類的基準(zhǔn)是將句子用詞袋模型(BOW)表示,然后訓(xùn)練一個(gè)比如邏輯回歸或者支持向量機(jī)。但是,這些線性分類器在類和特其泛化性能減弱。常用解決這種問題的方法是分解為低秩矩陣或在神經(jīng)網(wǎng)絡(luò)中,參數(shù)可以通過隱藏層進(jìn)行共享。 2016 年由 Mikolov 提出,由 FaceBook 公司推出的快速文本分個(gè)只有一層隱藏層的簡單的 fastText 結(jié)構(gòu),它將單詞表示的平均,送入一個(gè)線性的分類器。這個(gè)結(jié)構(gòu)與 CBOW 架構(gòu)很相似,不像 CBOW 通過上下文的詞來預(yù)測中間詞而是預(yù)測標(biāo)簽,這個(gè)標(biāo)類中預(yù)定義的類別。fastText 將單詞序列作為輸入,并且用 softm這些類別的概率分布。fastText 與 word2vec 類似,都是使用隨機(jī)行模型訓(xùn)練。
圖 2.3 Django 的 MTV 模型組織結(jié)構(gòu)小結(jié)要對相關(guān)理論和技術(shù)進(jìn)行了介紹,包括文本預(yù)處理、文本特征速文本分類方法、文本分類評價(jià)指標(biāo)以及實(shí)現(xiàn)該文本分類系統(tǒng)的 D文本預(yù)處理技術(shù)主要包括分詞及去停用詞,文本特征提取介紹了以及分布式的詞向量表示。之后介紹了 fastText 快速文本分類算法最后對 DjangoWeb 框架的基礎(chǔ)知識和體系結(jié)構(gòu)進(jìn)行了簡要說明。紹了全文的理論基礎(chǔ)和技術(shù)框架,為后文的研究和系統(tǒng)實(shí)現(xiàn)提供了
本文編號:3141587
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW和Skip-gram結(jié)構(gòu)
本分類的基準(zhǔn)是將句子用詞袋模型(BOW)表示,然后訓(xùn)練一個(gè)比如邏輯回歸或者支持向量機(jī)。但是,這些線性分類器在類和特其泛化性能減弱。常用解決這種問題的方法是分解為低秩矩陣或在神經(jīng)網(wǎng)絡(luò)中,參數(shù)可以通過隱藏層進(jìn)行共享。 2016 年由 Mikolov 提出,由 FaceBook 公司推出的快速文本分個(gè)只有一層隱藏層的簡單的 fastText 結(jié)構(gòu),它將單詞表示的平均,送入一個(gè)線性的分類器。這個(gè)結(jié)構(gòu)與 CBOW 架構(gòu)很相似,不像 CBOW 通過上下文的詞來預(yù)測中間詞而是預(yù)測標(biāo)簽,這個(gè)標(biāo)類中預(yù)定義的類別。fastText 將單詞序列作為輸入,并且用 softm這些類別的概率分布。fastText 與 word2vec 類似,都是使用隨機(jī)行模型訓(xùn)練。
圖 2.3 Django 的 MTV 模型組織結(jié)構(gòu)小結(jié)要對相關(guān)理論和技術(shù)進(jìn)行了介紹,包括文本預(yù)處理、文本特征速文本分類方法、文本分類評價(jià)指標(biāo)以及實(shí)現(xiàn)該文本分類系統(tǒng)的 D文本預(yù)處理技術(shù)主要包括分詞及去停用詞,文本特征提取介紹了以及分布式的詞向量表示。之后介紹了 fastText 快速文本分類算法最后對 DjangoWeb 框架的基礎(chǔ)知識和體系結(jié)構(gòu)進(jìn)行了簡要說明。紹了全文的理論基礎(chǔ)和技術(shù)框架,為后文的研究和系統(tǒng)實(shí)現(xiàn)提供了
本文編號:3141587
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3141587.html
最近更新
教材專著