天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于TF-IDF的FastText文本分類算法研究

發(fā)布時間:2021-08-14 01:48
  隨著移動智能終端的蓬勃發(fā)展,我國已經邁入全民互聯(lián)網時代。網民數(shù)量與日俱增,同時新聞、電子書等中文文本數(shù)據(jù)也在大規(guī)模增長。如何精確地將文本數(shù)據(jù)進行自動分類,成為了自然語言處理領域的熱點問題。將中文文本數(shù)據(jù)進行自動分類,對信息管理和文本挖掘等方向的研究也有著極其重要的意義。傳統(tǒng)的基于機器學習的文本分類算法一般使用TF-IDF算法來提取文本中的特征,但是這種方式會忽略詞在文本中的其他特征以及詞與詞之間的聯(lián)系,使最后提取的特征并不是很精確,從而導致分類效果不佳。所以現(xiàn)在自然語言處理領域中都會使用深度學習去處理文本分類問題,而基于深度學習的文本分類方法雖然在分類效果占有優(yōu)勢,但隨著隱層的增加,算法的計算量也在不斷增大,這樣會消耗大量的計算資源以及時間。FastText文本分類算法的出現(xiàn)完善的解決了上述中的問題,這種文本分類算法與其他分類算法相比在保證分類準確性的同時還降低了時間開銷,唯一不足的地方是FastText在輸入層并沒有對輸入數(shù)據(jù)進行特征提取,會對算法的分類效果有一定的影響。因此本文主要研究并改進了 TF-IDF特征提取算法和FastText文本分類算法。主要研究內容如下:(1)研究并改... 

【文章來源】:揚州大學江蘇省

【文章頁數(shù)】:73 頁

【學位級別】:碩士

【部分圖文】:

基于TF-IDF的FastText文本分類算法研究


圖1-1中國網民規(guī)模和互聯(lián)網普及率??由于我國當前的互聯(lián)網用戶規(guī)模正在不斷擴大,互聯(lián)網中信息傳播的主要媒介一文本??

示意圖,示例,超平面


,該超平面的公式如下所示。??f{x)?=?wTx?+?b?=?0n維法向量,主要決定超平面的方向,6為偏置項,決定超平面與原可以滿足公式(2-14)的超平面有很多,所以如何在眾多符合條件的超超平面,成為了解決問題的關鍵。如圖2-3所示,是一個最合適的超類別的數(shù)據(jù)集£>進行分類后的示意圖,可以將這個超平面設為〇?,將訓練數(shù)據(jù)集D精準分類,則訓練數(shù)據(jù)集合D將滿足如公式(2-15)所|w^?+?fe>+l,yi?=?+lIw1?x?+?b?<?—l,yi?=?—1??數(shù)據(jù)的類別標簽,則可以得出超平面的表達式為sigi^v^x?+?Z))。若據(jù)能夠滿足公式(2-15)的等式條件,則這些數(shù)據(jù)點是離超平面最近的稱為“支持向量”,其中,分別在超平面兩邊的“支持向量”的距離就的本質就是尋找一組最優(yōu)參數(shù)(wj),這組參數(shù)可以使間隔最大化。??

循環(huán)神經網絡,模型結構


一個對于循環(huán)神經網絡的理解是,它會有一個記憶單元,這個記憶單元可以記住所有經過??計算的信息。根據(jù)這個觀點,循環(huán)神經網絡可以使用之前的任意計算信息,但是在實際中,??這種觀點是不對的,它只能使用有限的信息。圖2-4就是一個典型的循環(huán)神經網絡。??6?°r-7?°,??A?t?t??^?V?V\?V??t?^?f?w?f?w?f?w??u?u?u?u??x?x, ̄,?x,?x,u??圖2-4循環(huán)神經網絡模型結構??圖2-4展示的是一個循環(huán)神經網絡展開后的模型結構。通過展開,可以得到模型的具??體執(zhí)行過程。例如,如果某一輸入數(shù)據(jù)是一個有5個詞的句子,那么這個網絡就會展開為??5層的神經網絡,一層對應一個詞。其中,循環(huán)神經網絡具體的計算過程如下所示:??(1


本文編號:3341520

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3341520.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶5bfe1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com