天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于機器學習算法的數據分類應用研究

發(fā)布時間:2021-08-06 23:10
  當下隨著互聯網的迅速發(fā)展,網絡產生的信息的數量在以前所未有的速度增長,如何更好的整合這些龐大的數據,解決信息混亂的問題,目前是信息產業(yè)方面重點研究的課題之一。隨著機器學習算法的不斷創(chuàng)新,特別是深度學習的快速發(fā)展和分布式計算的成熟,使得對數據的整合處理成為可能。在數據挖掘和機器學習領域中,研究如何對數據劃分種類具有非常重要的意義,一方面可以更有效地管理數據信息,另一方面也為后續(xù)的檢測、識別等研究奠定了非常堅實的基礎。本文的主要研究內容是:針對文本數據,以樸素貝葉斯方法為基礎,概述了中文文本分類的理論和步驟以及樸素貝葉斯分類器的理論思想。實驗階段,數據集選擇搜狗全網新聞數據集中的10個類別作為訓練集和測試集,進行分詞和刪除停用詞處理,然后使用TF-IDF進行特征降維處理,使用樸素貝葉斯分類器進行新聞數據分類,同時引入多個評價指標對模型最終的分類結果進行測評。最終樸素貝葉斯分類器在準確率、召回率和F1值這3個評價指標上都達到了 97%,取得了良好的效果。針對圖像數據,以卷積神經網絡的典型模型VGG-16為基礎,提出了一種改進的方法,然后檢驗改進模型的效果。首先搭建了基于Windows平臺的T... 

【文章來源】:寧夏大學寧夏回族自治區(qū) 211工程院校

【文章頁數】:66 頁

【學位級別】:碩士

【圖文】:

基于機器學習算法的數據分類應用研究


圖2.1機器學習類比人類學習??

模型圖,模型,正方形,距離圓


?圖2.?2?KNN模型??圖2.2形象的表示了?KNN實現分類的具體情形。圖中分別用三角形和正方形表示已知??類別的數據,待分類的目標用打問號的圓形來表示。在具體的操作中,最重要的超參數就是??K值,K值的不同會影響到最終的分類結果。在圖中的實線框內,即K值為3,在圖中的表??示就是距離圓形數據最近的3個樣本點,明顯可以看出包括有2個三角形和1個正方形,這??就可以判定圓形數據同三角形數據是同一個類別。在圖中的虛線框內,即K值為5,在圖中??的表示就是距離圓形數據最近的5個樣本點,明顯可以看出包括有2個三角形和3個正方形,??這就可以判定圓形數據同正方形數據是同一個類別。??因為KNN是監(jiān)督算法,所以需要加載打標好的數據集,可以是二分類也可以是多分類??數據,然后設定一個K值。在預測的過程中,需要針對每一個預測對象計算它與所有數據??集的距離

輸入數據,函數,數據集,區(qū)間


而且在參數設計上也比較有利于調參,同時,邏輯回歸還具備特征評估的作用124二”。??作為線性模型,邏輯回歸就是通過一條曲線來區(qū)分不同的數據集。以最直觀的二分類為??例,如圖2.3所示,數據是二維的,一種用圓形表示,一種用方形表示,通過邏輯回歸算法??進行訓練,生成一條直線對兩種不同的數據集進疔分類。??201???15?.??.V.?-??*??10?..?-????■?■?■?■?■?■??0?■?■■?■?_?■??■??-4?-3-2-10?1?2?3?4??XI??圖2.?3邏輯回歸二分類??邏輯回歸需要對輸入數據進行一些矩陣運算,所以入參矩陣的每個數據都是數值型的。??同時,因為邏輯回歸是一種監(jiān)督學習算法,所以輸入數據要打標,以二分類為例,通常目標??序列都是表示成0和1的形式。邏輯回歸生成的模型如公式2.2所示。??y?=?w]xj^w2xX2+c?(2-2)??其屮,W代表輸入數據的兩個特征,y代表輸出類別,Wl,w2.c是通過訓練得到的模型??參數。邏輯回歸從訓練到預測有關鍵的3個步驟,一個是如何將結果區(qū)間表示到[0.1],另一??個是如何求解每個特征的系數以及如何利用模型進行預測。??(1)?Sigmoid函數是一個成S型分布的函數,Sigmoid函數的公式表示為:??^(0?=-^7?(2.3)??\?+?e??Sigmoid函數可以把結果區(qū)間均勻地表示在[0.1]的范圍中。??(2)


本文編號:3326660

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3326660.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶4213b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com