大數(shù)據(jù)環(huán)境下的多分類邏輯回歸算法研究與應(yīng)用
發(fā)布時(shí)間:2023-02-26 14:26
隨著產(chǎn)業(yè)界數(shù)據(jù)量的爆炸式增長(zhǎng),大數(shù)據(jù)中蘊(yùn)含的價(jià)值受到了越來(lái)越多的關(guān)注。如何從大數(shù)據(jù)中挖掘出有效的信息,成為了一個(gè)重要的研究課題。邏輯回歸算法是進(jìn)行數(shù)據(jù)分類的常用方法之一,由于其模型簡(jiǎn)單、訓(xùn)練速度快而在醫(yī)療、金融等領(lǐng)域有著廣泛的應(yīng)用。在對(duì)邏輯回歸模型進(jìn)行訓(xùn)練時(shí),由于訓(xùn)練數(shù)據(jù)集的規(guī)模增大,對(duì)執(zhí)行計(jì)算的客戶端的內(nèi)存容量要求越來(lái)越高,傳統(tǒng)的邏輯回歸算法就顯得無(wú)能為力。本文基于HBase實(shí)現(xiàn)了多分類邏輯回歸,針對(duì)邏輯回歸模型在訓(xùn)練數(shù)據(jù)集時(shí)可能遇到的內(nèi)存限制的問(wèn)題對(duì)算法進(jìn)行了改進(jìn),提出了塊批量梯度下降算法,用于計(jì)算回歸模型的系數(shù)。本論文主要完成的工作如下:首先,將訓(xùn)練數(shù)據(jù)集存入HBase后,然后針對(duì)訓(xùn)練數(shù)據(jù)集可能超出客戶端的內(nèi)存限制問(wèn)題,塊批量梯度下降算法通過(guò)設(shè)置表掃描對(duì)象的起始行鍵參數(shù),取出大小合適的含訓(xùn)練樣本及結(jié)果值的數(shù)據(jù)塊,同時(shí)避免了客戶端到服務(wù)端頻繁的RPC調(diào)用,每一次取出的數(shù)據(jù)塊可進(jìn)行多次迭代計(jì)算,加快了系數(shù)的收斂速度。當(dāng)取出的數(shù)據(jù)塊達(dá)到指定的迭代次數(shù)后,再按行鍵次序取出下一個(gè)數(shù)據(jù)塊,如此循環(huán),一直到系數(shù)收斂或者達(dá)到指定的循環(huán)控制閾值。多分類的邏輯回歸問(wèn)題可轉(zhuǎn)換為二分類來(lái)解決,因此需要為...
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外相關(guān)技術(shù)的發(fā)展
1.2.1 大數(shù)據(jù)和機(jī)器學(xué)習(xí)的研究現(xiàn)狀
1.2.2 邏輯回歸算法的研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容和章節(jié)安排
1.3.1 主要研究?jī)?nèi)容
1.3.2 論文章節(jié)安排
第2章 邏輯回歸算法及大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)
2.1 邏輯回歸模型
2.2 梯度下降法
2.2.1 批量梯度下降法
2.2.2 隨機(jī)梯度下降法
2.3 Hadoop平臺(tái)相關(guān)技術(shù)
2.3.1 Hadoop平臺(tái)簡(jiǎn)介
2.3.2 HDFS分布式文件系統(tǒng)
2.3.3 HBase分布式列存儲(chǔ)數(shù)據(jù)庫(kù)
2.4 本章小結(jié)
第3章 基于HBase的多分類邏輯回歸算法研究
3.1 訓(xùn)練數(shù)據(jù)表存儲(chǔ)結(jié)構(gòu)
3.2 塊批量梯度下降
3.3 系數(shù)收斂判斷
3.4 塊批量梯度下降法算法的實(shí)現(xiàn)
3.4.1 讀取訓(xùn)練樣本
3.4.2 求結(jié)果值與預(yù)測(cè)值的偏差量數(shù)組
3.4.3 求分類系數(shù)
3.5 多分類邏輯回歸問(wèn)題
3.6 多分類邏輯回歸模型評(píng)價(jià)
3.7 本章小結(jié)
第4章 實(shí)驗(yàn)環(huán)境的搭建與測(cè)試結(jié)果
4.1 Hadoop平臺(tái)及HBase集群的搭建
4.1.1 Hadoop分布式平臺(tái)搭建
4.1.2 HBase分布式數(shù)據(jù)庫(kù)搭建
4.2 存儲(chǔ)訓(xùn)練數(shù)據(jù)集
4.2.1 數(shù)據(jù)集預(yù)處理
4.2.2 存儲(chǔ)結(jié)構(gòu)的實(shí)現(xiàn)
4.2.3 導(dǎo)入訓(xùn)練數(shù)據(jù)集
4.3 測(cè)試過(guò)程與結(jié)果分析
4.3.1 測(cè)試過(guò)程
4.3.2 對(duì)比測(cè)試結(jié)果
4.4 測(cè)試結(jié)果
4.5 實(shí)驗(yàn)總結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
攻讀碩士期間已發(fā)表的論文和科研成果
致謝
本文編號(hào):3750476
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外相關(guān)技術(shù)的發(fā)展
1.2.1 大數(shù)據(jù)和機(jī)器學(xué)習(xí)的研究現(xiàn)狀
1.2.2 邏輯回歸算法的研究現(xiàn)狀
1.3 本文的研究?jī)?nèi)容和章節(jié)安排
1.3.1 主要研究?jī)?nèi)容
1.3.2 論文章節(jié)安排
第2章 邏輯回歸算法及大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)
2.1 邏輯回歸模型
2.2 梯度下降法
2.2.1 批量梯度下降法
2.2.2 隨機(jī)梯度下降法
2.3 Hadoop平臺(tái)相關(guān)技術(shù)
2.3.1 Hadoop平臺(tái)簡(jiǎn)介
2.3.2 HDFS分布式文件系統(tǒng)
2.3.3 HBase分布式列存儲(chǔ)數(shù)據(jù)庫(kù)
2.4 本章小結(jié)
第3章 基于HBase的多分類邏輯回歸算法研究
3.1 訓(xùn)練數(shù)據(jù)表存儲(chǔ)結(jié)構(gòu)
3.2 塊批量梯度下降
3.3 系數(shù)收斂判斷
3.4 塊批量梯度下降法算法的實(shí)現(xiàn)
3.4.1 讀取訓(xùn)練樣本
3.4.2 求結(jié)果值與預(yù)測(cè)值的偏差量數(shù)組
3.4.3 求分類系數(shù)
3.5 多分類邏輯回歸問(wèn)題
3.6 多分類邏輯回歸模型評(píng)價(jià)
3.7 本章小結(jié)
第4章 實(shí)驗(yàn)環(huán)境的搭建與測(cè)試結(jié)果
4.1 Hadoop平臺(tái)及HBase集群的搭建
4.1.1 Hadoop分布式平臺(tái)搭建
4.1.2 HBase分布式數(shù)據(jù)庫(kù)搭建
4.2 存儲(chǔ)訓(xùn)練數(shù)據(jù)集
4.2.1 數(shù)據(jù)集預(yù)處理
4.2.2 存儲(chǔ)結(jié)構(gòu)的實(shí)現(xiàn)
4.2.3 導(dǎo)入訓(xùn)練數(shù)據(jù)集
4.3 測(cè)試過(guò)程與結(jié)果分析
4.3.1 測(cè)試過(guò)程
4.3.2 對(duì)比測(cè)試結(jié)果
4.4 測(cè)試結(jié)果
4.5 實(shí)驗(yàn)總結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
攻讀碩士期間已發(fā)表的論文和科研成果
致謝
本文編號(hào):3750476
本文鏈接:http://sikaile.net/shekelunwen/ljx/3750476.html
最近更新
教材專著