數(shù)據(jù)缺失及相關因素對逐步回歸變量篩選的影響
發(fā)布時間:2021-07-13 01:58
目的:主要研究數(shù)據(jù)缺失對逐步回歸變量篩選的影響;探討不同缺失比例、不同缺失機制和缺失類型對逐步回歸篩選結果的影響。附帶驗證待選變量之間的相關系數(shù)、待選變量個數(shù)、所設定的模型擬合程度、樣本量(或者EPV)以及逐步回歸變量進入和移除的顯著性水平對逐步回歸變量篩選的作用。方法:通過SAS軟件進行蒙特卡洛數(shù)據(jù)模擬。設置真實模型(分為一般線性模型和probit模型),產(chǎn)生六種不同的數(shù)據(jù)集,包括:完整數(shù)據(jù)、完全隨機缺失數(shù)據(jù)、線性隨機缺失數(shù)據(jù)、曲線隨機缺失數(shù)據(jù)、線性非隨機缺失數(shù)據(jù)以及曲線非隨機缺失數(shù)據(jù)。隨后,在所產(chǎn)生的數(shù)據(jù)上進行逐步回歸篩選,并記錄篩選結果用于評估各個因素的作用。在線性的真實模型的情況下,我們設定了五個評價指標考察不同因素的影響,分別為:1)進入模型的真實變量平均個數(shù);2)進入模型的噪音變量平均個數(shù);3)綜合指標G,衡量真實變量和噪音變量進入模型的綜合情況,G=sensitivity*specificity,此處sensitivity=(被選入模型的真實變量個數(shù)/備選的真實變量的個數(shù)),specifcity=(1-被選入模型的噪音變量個數(shù)/備選噪音變量個數(shù));4)篩選得到真實模型的比...
【文章來源】:復旦大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 前言
第一節(jié) 案例
第二節(jié) 研究背景
1. 關于數(shù)據(jù)缺失
2. 關于變量篩選
3. 缺失情況下的變量篩選方法
第三節(jié) 研究出發(fā)點
第二章 原理和方法
第一節(jié) 關于逐步回歸
第二節(jié) 關于模擬研究
第三章 模擬研究
第一節(jié) 模擬研究一:因變量為連續(xù)型結局變量的線性模型
1. 模型及參數(shù)設定
2. 完整數(shù)據(jù)的產(chǎn)生方法
3. 缺失的產(chǎn)生
4. 評價指標
5. 變量篩選
6. 模擬結果
第二節(jié) 模擬研究二:因變量為二分類結局變量的PROBIT模型
1. 參數(shù)的設定
2. 模型設置以及完整數(shù)據(jù)的產(chǎn)生方法
3. 缺失數(shù)據(jù)產(chǎn)生方法
4. 評價指標
5. 變量篩選
6. 模擬結果
第四章 總結與討論
第一節(jié) 與以往研究的比較
第二節(jié) 對實際研究的建議
第三節(jié) 本文的創(chuàng)新之處與局限性
參考文獻
附錄一:綜述
參考文獻
附錄二:碩士期間發(fā)表文章
致謝
本文編號:3281102
【文章來源】:復旦大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 前言
第一節(jié) 案例
第二節(jié) 研究背景
1. 關于數(shù)據(jù)缺失
2. 關于變量篩選
3. 缺失情況下的變量篩選方法
第三節(jié) 研究出發(fā)點
第二章 原理和方法
第一節(jié) 關于逐步回歸
第二節(jié) 關于模擬研究
第三章 模擬研究
第一節(jié) 模擬研究一:因變量為連續(xù)型結局變量的線性模型
1. 模型及參數(shù)設定
2. 完整數(shù)據(jù)的產(chǎn)生方法
3. 缺失的產(chǎn)生
4. 評價指標
5. 變量篩選
6. 模擬結果
第二節(jié) 模擬研究二:因變量為二分類結局變量的PROBIT模型
1. 參數(shù)的設定
2. 模型設置以及完整數(shù)據(jù)的產(chǎn)生方法
3. 缺失數(shù)據(jù)產(chǎn)生方法
4. 評價指標
5. 變量篩選
6. 模擬結果
第四章 總結與討論
第一節(jié) 與以往研究的比較
第二節(jié) 對實際研究的建議
第三節(jié) 本文的創(chuàng)新之處與局限性
參考文獻
附錄一:綜述
參考文獻
附錄二:碩士期間發(fā)表文章
致謝
本文編號:3281102
本文鏈接:http://sikaile.net/yixuelunwen/liuxingb/3281102.html
最近更新
教材專著