基于TF-IDF的FastText文本分類算法研究
發(fā)布時間:2021-08-14 01:48
隨著移動智能終端的蓬勃發(fā)展,我國已經(jīng)邁入全民互聯(lián)網(wǎng)時代。網(wǎng)民數(shù)量與日俱增,同時新聞、電子書等中文文本數(shù)據(jù)也在大規(guī)模增長。如何精確地將文本數(shù)據(jù)進行自動分類,成為了自然語言處理領域的熱點問題。將中文文本數(shù)據(jù)進行自動分類,對信息管理和文本挖掘等方向的研究也有著極其重要的意義。傳統(tǒng)的基于機器學習的文本分類算法一般使用TF-IDF算法來提取文本中的特征,但是這種方式會忽略詞在文本中的其他特征以及詞與詞之間的聯(lián)系,使最后提取的特征并不是很精確,從而導致分類效果不佳。所以現(xiàn)在自然語言處理領域中都會使用深度學習去處理文本分類問題,而基于深度學習的文本分類方法雖然在分類效果占有優(yōu)勢,但隨著隱層的增加,算法的計算量也在不斷增大,這樣會消耗大量的計算資源以及時間。FastText文本分類算法的出現(xiàn)完善的解決了上述中的問題,這種文本分類算法與其他分類算法相比在保證分類準確性的同時還降低了時間開銷,唯一不足的地方是FastText在輸入層并沒有對輸入數(shù)據(jù)進行特征提取,會對算法的分類效果有一定的影響。因此本文主要研究并改進了 TF-IDF特征提取算法和FastText文本分類算法。主要研究內容如下:(1)研究并改...
【文章來源】:揚州大學江蘇省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
圖1-1中國網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率??由于我國當前的互聯(lián)網(wǎng)用戶規(guī)模正在不斷擴大,互聯(lián)網(wǎng)中信息傳播的主要媒介一文本??
,該超平面的公式如下所示。??f{x)?=?wTx?+?b?=?0n維法向量,主要決定超平面的方向,6為偏置項,決定超平面與原可以滿足公式(2-14)的超平面有很多,所以如何在眾多符合條件的超超平面,成為了解決問題的關鍵。如圖2-3所示,是一個最合適的超類別的數(shù)據(jù)集£>進行分類后的示意圖,可以將這個超平面設為〇?,將訓練數(shù)據(jù)集D精準分類,則訓練數(shù)據(jù)集合D將滿足如公式(2-15)所|w^?+?fe>+l,yi?=?+lIw1?x?+?b?<?—l,yi?=?—1??數(shù)據(jù)的類別標簽,則可以得出超平面的表達式為sigi^v^x?+?Z))。若據(jù)能夠滿足公式(2-15)的等式條件,則這些數(shù)據(jù)點是離超平面最近的稱為“支持向量”,其中,分別在超平面兩邊的“支持向量”的距離就的本質就是尋找一組最優(yōu)參數(shù)(wj),這組參數(shù)可以使間隔最大化。??
一個對于循環(huán)神經(jīng)網(wǎng)絡的理解是,它會有一個記憶單元,這個記憶單元可以記住所有經(jīng)過??計算的信息。根據(jù)這個觀點,循環(huán)神經(jīng)網(wǎng)絡可以使用之前的任意計算信息,但是在實際中,??這種觀點是不對的,它只能使用有限的信息。圖2-4就是一個典型的循環(huán)神經(jīng)網(wǎng)絡。??6?°r-7?°,??A?t?t??^?V?V\?V??t?^?f?w?f?w?f?w??u?u?u?u??x?x, ̄,?x,?x,u??圖2-4循環(huán)神經(jīng)網(wǎng)絡模型結構??圖2-4展示的是一個循環(huán)神經(jīng)網(wǎng)絡展開后的模型結構。通過展開,可以得到模型的具??體執(zhí)行過程。例如,如果某一輸入數(shù)據(jù)是一個有5個詞的句子,那么這個網(wǎng)絡就會展開為??5層的神經(jīng)網(wǎng)絡,一層對應一個詞。其中,循環(huán)神經(jīng)網(wǎng)絡具體的計算過程如下所示:??(1
本文編號:3341520
【文章來源】:揚州大學江蘇省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
圖1-1中國網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率??由于我國當前的互聯(lián)網(wǎng)用戶規(guī)模正在不斷擴大,互聯(lián)網(wǎng)中信息傳播的主要媒介一文本??
,該超平面的公式如下所示。??f{x)?=?wTx?+?b?=?0n維法向量,主要決定超平面的方向,6為偏置項,決定超平面與原可以滿足公式(2-14)的超平面有很多,所以如何在眾多符合條件的超超平面,成為了解決問題的關鍵。如圖2-3所示,是一個最合適的超類別的數(shù)據(jù)集£>進行分類后的示意圖,可以將這個超平面設為〇?,將訓練數(shù)據(jù)集D精準分類,則訓練數(shù)據(jù)集合D將滿足如公式(2-15)所|w^?+?fe>+l,yi?=?+lIw1?x?+?b?<?—l,yi?=?—1??數(shù)據(jù)的類別標簽,則可以得出超平面的表達式為sigi^v^x?+?Z))。若據(jù)能夠滿足公式(2-15)的等式條件,則這些數(shù)據(jù)點是離超平面最近的稱為“支持向量”,其中,分別在超平面兩邊的“支持向量”的距離就的本質就是尋找一組最優(yōu)參數(shù)(wj),這組參數(shù)可以使間隔最大化。??
一個對于循環(huán)神經(jīng)網(wǎng)絡的理解是,它會有一個記憶單元,這個記憶單元可以記住所有經(jīng)過??計算的信息。根據(jù)這個觀點,循環(huán)神經(jīng)網(wǎng)絡可以使用之前的任意計算信息,但是在實際中,??這種觀點是不對的,它只能使用有限的信息。圖2-4就是一個典型的循環(huán)神經(jīng)網(wǎng)絡。??6?°r-7?°,??A?t?t??^?V?V\?V??t?^?f?w?f?w?f?w??u?u?u?u??x?x, ̄,?x,?x,u??圖2-4循環(huán)神經(jīng)網(wǎng)絡模型結構??圖2-4展示的是一個循環(huán)神經(jīng)網(wǎng)絡展開后的模型結構。通過展開,可以得到模型的具??體執(zhí)行過程。例如,如果某一輸入數(shù)據(jù)是一個有5個詞的句子,那么這個網(wǎng)絡就會展開為??5層的神經(jīng)網(wǎng)絡,一層對應一個詞。其中,循環(huán)神經(jīng)網(wǎng)絡具體的計算過程如下所示:??(1
本文編號:3341520
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3341520.html
最近更新
教材專著