大數(shù)據(jù)環(huán)境下的多分類邏輯回歸算法研究與應(yīng)用
發(fā)布時間:2023-02-26 14:26
隨著產(chǎn)業(yè)界數(shù)據(jù)量的爆炸式增長,大數(shù)據(jù)中蘊含的價值受到了越來越多的關(guān)注。如何從大數(shù)據(jù)中挖掘出有效的信息,成為了一個重要的研究課題。邏輯回歸算法是進行數(shù)據(jù)分類的常用方法之一,由于其模型簡單、訓練速度快而在醫(yī)療、金融等領(lǐng)域有著廣泛的應(yīng)用。在對邏輯回歸模型進行訓練時,由于訓練數(shù)據(jù)集的規(guī)模增大,對執(zhí)行計算的客戶端的內(nèi)存容量要求越來越高,傳統(tǒng)的邏輯回歸算法就顯得無能為力。本文基于HBase實現(xiàn)了多分類邏輯回歸,針對邏輯回歸模型在訓練數(shù)據(jù)集時可能遇到的內(nèi)存限制的問題對算法進行了改進,提出了塊批量梯度下降算法,用于計算回歸模型的系數(shù)。本論文主要完成的工作如下:首先,將訓練數(shù)據(jù)集存入HBase后,然后針對訓練數(shù)據(jù)集可能超出客戶端的內(nèi)存限制問題,塊批量梯度下降算法通過設(shè)置表掃描對象的起始行鍵參數(shù),取出大小合適的含訓練樣本及結(jié)果值的數(shù)據(jù)塊,同時避免了客戶端到服務(wù)端頻繁的RPC調(diào)用,每一次取出的數(shù)據(jù)塊可進行多次迭代計算,加快了系數(shù)的收斂速度。當取出的數(shù)據(jù)塊達到指定的迭代次數(shù)后,再按行鍵次序取出下一個數(shù)據(jù)塊,如此循環(huán),一直到系數(shù)收斂或者達到指定的循環(huán)控制閾值。多分類的邏輯回歸問題可轉(zhuǎn)換為二分類來解決,因此需要為...
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外相關(guān)技術(shù)的發(fā)展
1.2.1 大數(shù)據(jù)和機器學習的研究現(xiàn)狀
1.2.2 邏輯回歸算法的研究現(xiàn)狀
1.3 本文的研究內(nèi)容和章節(jié)安排
1.3.1 主要研究內(nèi)容
1.3.2 論文章節(jié)安排
第2章 邏輯回歸算法及大數(shù)據(jù)平臺相關(guān)技術(shù)
2.1 邏輯回歸模型
2.2 梯度下降法
2.2.1 批量梯度下降法
2.2.2 隨機梯度下降法
2.3 Hadoop平臺相關(guān)技術(shù)
2.3.1 Hadoop平臺簡介
2.3.2 HDFS分布式文件系統(tǒng)
2.3.3 HBase分布式列存儲數(shù)據(jù)庫
2.4 本章小結(jié)
第3章 基于HBase的多分類邏輯回歸算法研究
3.1 訓練數(shù)據(jù)表存儲結(jié)構(gòu)
3.2 塊批量梯度下降
3.3 系數(shù)收斂判斷
3.4 塊批量梯度下降法算法的實現(xiàn)
3.4.1 讀取訓練樣本
3.4.2 求結(jié)果值與預(yù)測值的偏差量數(shù)組
3.4.3 求分類系數(shù)
3.5 多分類邏輯回歸問題
3.6 多分類邏輯回歸模型評價
3.7 本章小結(jié)
第4章 實驗環(huán)境的搭建與測試結(jié)果
4.1 Hadoop平臺及HBase集群的搭建
4.1.1 Hadoop分布式平臺搭建
4.1.2 HBase分布式數(shù)據(jù)庫搭建
4.2 存儲訓練數(shù)據(jù)集
4.2.1 數(shù)據(jù)集預(yù)處理
4.2.2 存儲結(jié)構(gòu)的實現(xiàn)
4.2.3 導(dǎo)入訓練數(shù)據(jù)集
4.3 測試過程與結(jié)果分析
4.3.1 測試過程
4.3.2 對比測試結(jié)果
4.4 測試結(jié)果
4.5 實驗總結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
攻讀碩士期間已發(fā)表的論文和科研成果
致謝
本文編號:3750476
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外相關(guān)技術(shù)的發(fā)展
1.2.1 大數(shù)據(jù)和機器學習的研究現(xiàn)狀
1.2.2 邏輯回歸算法的研究現(xiàn)狀
1.3 本文的研究內(nèi)容和章節(jié)安排
1.3.1 主要研究內(nèi)容
1.3.2 論文章節(jié)安排
第2章 邏輯回歸算法及大數(shù)據(jù)平臺相關(guān)技術(shù)
2.1 邏輯回歸模型
2.2 梯度下降法
2.2.1 批量梯度下降法
2.2.2 隨機梯度下降法
2.3 Hadoop平臺相關(guān)技術(shù)
2.3.1 Hadoop平臺簡介
2.3.2 HDFS分布式文件系統(tǒng)
2.3.3 HBase分布式列存儲數(shù)據(jù)庫
2.4 本章小結(jié)
第3章 基于HBase的多分類邏輯回歸算法研究
3.1 訓練數(shù)據(jù)表存儲結(jié)構(gòu)
3.2 塊批量梯度下降
3.3 系數(shù)收斂判斷
3.4 塊批量梯度下降法算法的實現(xiàn)
3.4.1 讀取訓練樣本
3.4.2 求結(jié)果值與預(yù)測值的偏差量數(shù)組
3.4.3 求分類系數(shù)
3.5 多分類邏輯回歸問題
3.6 多分類邏輯回歸模型評價
3.7 本章小結(jié)
第4章 實驗環(huán)境的搭建與測試結(jié)果
4.1 Hadoop平臺及HBase集群的搭建
4.1.1 Hadoop分布式平臺搭建
4.1.2 HBase分布式數(shù)據(jù)庫搭建
4.2 存儲訓練數(shù)據(jù)集
4.2.1 數(shù)據(jù)集預(yù)處理
4.2.2 存儲結(jié)構(gòu)的實現(xiàn)
4.2.3 導(dǎo)入訓練數(shù)據(jù)集
4.3 測試過程與結(jié)果分析
4.3.1 測試過程
4.3.2 對比測試結(jié)果
4.4 測試結(jié)果
4.5 實驗總結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
攻讀碩士期間已發(fā)表的論文和科研成果
致謝
本文編號:3750476
本文鏈接:http://sikaile.net/shekelunwen/ljx/3750476.html
最近更新
教材專著