回歸模型中的非局部相似性研究
發(fā)布時(shí)間:2021-07-14 23:39
線性模型是用來描述多個(gè)變量之間線性關(guān)系的模型,在成分研究中應(yīng)用得十分廣泛.模型選擇理論可以用于確定真實(shí)線性模型中的變量.目前,常用的模型選擇方法,如逐步回歸,AIC信息準(zhǔn)則,以及貝葉斯方法等,都是假設(shè)數(shù)據(jù)集的特征是局部的,即僅僅利用單個(gè)變量值來構(gòu)建模型.然而,在許多實(shí)際問題中,單個(gè)變量的變異性以及變量之間較大的相似性普遍存在,導(dǎo)致這些方法存在決策精度低,小系數(shù)變量和相似偽變量無法識(shí)別,甚至無法解決變量的決策.主要的原因是這些方法都是基于擬合優(yōu)度,沒有充分地挖掘數(shù)據(jù)的特征,受到變異性和相似性的嚴(yán)重干擾,從而使得在模型中確定合適的閾值達(dá)以到理想的目標(biāo)函數(shù)變得非常困難,甚至不可能.為了解決這一問題,在向前逐步回歸模型的基礎(chǔ)上,本文提出回歸自變量和殘差的非局部特征相似性分析模型.向前逐步回歸模型的一個(gè)重要原則是追求最優(yōu)的擬合優(yōu)度缺失(Lack of Fitness),簡稱為LOF原則.基于該原則,本文提出窗口調(diào)整的擬合優(yōu)度缺失原則(Window-Adjusted Lack of Fitness),簡稱為WALOF原則.在考慮回歸擬合優(yōu)度缺失的同時(shí),還考慮了回歸殘差在變量特征片段上的擬合優(yōu)度缺失...
【文章來源】:蘭州大學(xué)甘肅省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LOF方法流程圖
收到強(qiáng)度變異性的干擾比較大,所以利用特征的相似性去判斷成分的真實(shí)性就變得非常重要.圖(3-2)給出了錯(cuò)誤擬合曲線和正確擬合曲線的比較,以及錯(cuò)誤識(shí)別的第五種鎮(zhèn)靜劑頻譜.可以看到,復(fù)合物的絕大多數(shù)特征都被擬合出來了.然而,在第一個(gè)圖中,可以看到大約波長1240處,藍(lán)色曲線出現(xiàn)了一個(gè)明顯的突起,這一特征在復(fù)合物曲線上是不存在的.在第二個(gè)圖中,可以看到第五種鎮(zhèn)靜劑Lorazepam在該區(qū)域也存在一個(gè)明顯突起.盡管該鎮(zhèn)靜劑導(dǎo)致了最優(yōu)的相對(duì)誤差平方和,但是很大可能不是真實(shí)的成分.因?yàn)槠湓谶@個(gè)區(qū)域帶來了在復(fù)合物上不存在的特征.圖3-2錯(cuò)誤擬合曲線和正確擬合曲線的比較同樣的分析,一個(gè)真實(shí)成分必定能夠擬合復(fù)合物中的某些特征,因此在其獨(dú)特特征的區(qū)域,該成分與擬合前的誤差應(yīng)該存在相似度較高的性質(zhì).回歸系數(shù)小的變量,即使出現(xiàn)在復(fù)合物中,往往在LOF提升的貢獻(xiàn)不大.圖(3-3)給出了某復(fù)合物在最后一個(gè)出現(xiàn)的鎮(zhèn)靜劑的識(shí)別.該復(fù)合物包含五種鎮(zhèn)靜劑Estazolam,Oxazepam,Alprazolam,Triazolam和Lorazepam.除了第二種Oxazepam,其它均已正確識(shí)別.此鎮(zhèn)靜劑的擬合系數(shù)為0.1185,其它四種鎮(zhèn)靜劑回歸系數(shù)分別為(0.5142,0.3621,0.6940,0.4132),可見此鎮(zhèn)靜劑在復(fù)合物中的濃度較低.由它計(jì)算出來的LOF提升,最大LOF提升和平均LOF提升分別為(0.0799,0.2650,0.0786),均比較小,由優(yōu)度擬合原則,很容易因?yàn)閷?duì)LOF的提升不夠拒絕該鎮(zhèn)靜劑的出現(xiàn).然而,考察其頻譜和回歸前殘差,很明顯在許多特征區(qū)域中存在相似,有四個(gè)特征區(qū)域的相關(guān)系數(shù)大于0.7,最大為0.8535.因此,該鎮(zhèn)靜劑很可能出現(xiàn)在復(fù)合物中.綜合以上分析,分析殘差和成分在特征區(qū)域的相似性是非常必要的.在成分變量存在大量相似特征的時(shí)候,以及變量存在變異性時(shí),僅僅依靠擬合優(yōu)度,很難13
蘭州大學(xué)碩士學(xué)位論文回歸模型中的非局部相似性研究圖3-3較小回歸系數(shù)變量的檢測(cè)原理示意圖給出一個(gè)合理的目標(biāo)來識(shí)別變量是否出現(xiàn)在真實(shí)模型中.而相似性分析能夠提取殘差中的特征,并且和待測(cè)變量進(jìn)行比較,通過統(tǒng)計(jì)學(xué)習(xí)來判斷其是否出現(xiàn),這種原理極大地提高了復(fù)合物中出現(xiàn)變量的識(shí)別精度.在實(shí)驗(yàn)結(jié)果部分可以看到其優(yōu)秀的表現(xiàn).3.2.2窗口的確定WALOF方法的首要的任務(wù)是特征分離,這些特征在頻譜上往往有峰值和峰的形狀等因素來決定,這需要我們將各個(gè)成分光譜分成一個(gè)一個(gè)小的窗口,每個(gè)窗口都包含一個(gè)峰值,這里我們給出定義窗口的算法:1.識(shí)別波峰:對(duì)于每一條成分光譜,首先要將它的波峰都識(shí)別出來,這里我們認(rèn)為波譜上某一點(diǎn)比它左側(cè)N個(gè)點(diǎn)高并且比它右邊N個(gè)點(diǎn)也高時(shí),這個(gè)點(diǎn)就是波峰.我們需要找出每條光譜上符合這個(gè)條件的點(diǎn),將它的位置記錄下來,即P={p|Sp=max{SpN,SpN+1,...,Sp,Sp+1,Sp+2,...,Sp+N}},集合P表示的是波峰位置的集合,Si,i=pN,pN+1,...,p,p+1,...,p+N表示的是每條成分光譜上的點(diǎn).2.識(shí)別波谷:波谷的識(shí)別比較簡單,對(duì)于步驟一中尋找出來的波峰,每兩個(gè)相鄰波峰之間的最低點(diǎn)就是波谷,同樣把波谷的位置記錄下來,即B={b|Sb=min{SPi,SPi+1,SPi+2...,SPi+1}},集合B表示的是波谷的位置的集合.3.初始窗口:兩個(gè)相鄰的波谷及它們中間的點(diǎn)形成一個(gè)窗口,窗口的左,右端點(diǎn)都是波谷,分別記為B1...B2,B1...B2之間只包含一個(gè)波峰記為P,則窗口就被定義為WB1PB2,每個(gè)窗口只包含一個(gè)波峰,注意:對(duì)于每條成分光譜第一個(gè)窗口,它的左端點(diǎn)為整個(gè)成分光譜最左端的點(diǎn)與第一個(gè)峰值點(diǎn)之間的最低點(diǎn),即SB11=min{S1,S2,...,SP1},而對(duì)于每條成分光譜的最后一個(gè)窗口,它的右端點(diǎn)為最后一個(gè)波峰到整條光譜的最后一個(gè)點(diǎn)之間的最低點(diǎn),即14
本文編號(hào):3285125
【文章來源】:蘭州大學(xué)甘肅省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LOF方法流程圖
收到強(qiáng)度變異性的干擾比較大,所以利用特征的相似性去判斷成分的真實(shí)性就變得非常重要.圖(3-2)給出了錯(cuò)誤擬合曲線和正確擬合曲線的比較,以及錯(cuò)誤識(shí)別的第五種鎮(zhèn)靜劑頻譜.可以看到,復(fù)合物的絕大多數(shù)特征都被擬合出來了.然而,在第一個(gè)圖中,可以看到大約波長1240處,藍(lán)色曲線出現(xiàn)了一個(gè)明顯的突起,這一特征在復(fù)合物曲線上是不存在的.在第二個(gè)圖中,可以看到第五種鎮(zhèn)靜劑Lorazepam在該區(qū)域也存在一個(gè)明顯突起.盡管該鎮(zhèn)靜劑導(dǎo)致了最優(yōu)的相對(duì)誤差平方和,但是很大可能不是真實(shí)的成分.因?yàn)槠湓谶@個(gè)區(qū)域帶來了在復(fù)合物上不存在的特征.圖3-2錯(cuò)誤擬合曲線和正確擬合曲線的比較同樣的分析,一個(gè)真實(shí)成分必定能夠擬合復(fù)合物中的某些特征,因此在其獨(dú)特特征的區(qū)域,該成分與擬合前的誤差應(yīng)該存在相似度較高的性質(zhì).回歸系數(shù)小的變量,即使出現(xiàn)在復(fù)合物中,往往在LOF提升的貢獻(xiàn)不大.圖(3-3)給出了某復(fù)合物在最后一個(gè)出現(xiàn)的鎮(zhèn)靜劑的識(shí)別.該復(fù)合物包含五種鎮(zhèn)靜劑Estazolam,Oxazepam,Alprazolam,Triazolam和Lorazepam.除了第二種Oxazepam,其它均已正確識(shí)別.此鎮(zhèn)靜劑的擬合系數(shù)為0.1185,其它四種鎮(zhèn)靜劑回歸系數(shù)分別為(0.5142,0.3621,0.6940,0.4132),可見此鎮(zhèn)靜劑在復(fù)合物中的濃度較低.由它計(jì)算出來的LOF提升,最大LOF提升和平均LOF提升分別為(0.0799,0.2650,0.0786),均比較小,由優(yōu)度擬合原則,很容易因?yàn)閷?duì)LOF的提升不夠拒絕該鎮(zhèn)靜劑的出現(xiàn).然而,考察其頻譜和回歸前殘差,很明顯在許多特征區(qū)域中存在相似,有四個(gè)特征區(qū)域的相關(guān)系數(shù)大于0.7,最大為0.8535.因此,該鎮(zhèn)靜劑很可能出現(xiàn)在復(fù)合物中.綜合以上分析,分析殘差和成分在特征區(qū)域的相似性是非常必要的.在成分變量存在大量相似特征的時(shí)候,以及變量存在變異性時(shí),僅僅依靠擬合優(yōu)度,很難13
蘭州大學(xué)碩士學(xué)位論文回歸模型中的非局部相似性研究圖3-3較小回歸系數(shù)變量的檢測(cè)原理示意圖給出一個(gè)合理的目標(biāo)來識(shí)別變量是否出現(xiàn)在真實(shí)模型中.而相似性分析能夠提取殘差中的特征,并且和待測(cè)變量進(jìn)行比較,通過統(tǒng)計(jì)學(xué)習(xí)來判斷其是否出現(xiàn),這種原理極大地提高了復(fù)合物中出現(xiàn)變量的識(shí)別精度.在實(shí)驗(yàn)結(jié)果部分可以看到其優(yōu)秀的表現(xiàn).3.2.2窗口的確定WALOF方法的首要的任務(wù)是特征分離,這些特征在頻譜上往往有峰值和峰的形狀等因素來決定,這需要我們將各個(gè)成分光譜分成一個(gè)一個(gè)小的窗口,每個(gè)窗口都包含一個(gè)峰值,這里我們給出定義窗口的算法:1.識(shí)別波峰:對(duì)于每一條成分光譜,首先要將它的波峰都識(shí)別出來,這里我們認(rèn)為波譜上某一點(diǎn)比它左側(cè)N個(gè)點(diǎn)高并且比它右邊N個(gè)點(diǎn)也高時(shí),這個(gè)點(diǎn)就是波峰.我們需要找出每條光譜上符合這個(gè)條件的點(diǎn),將它的位置記錄下來,即P={p|Sp=max{SpN,SpN+1,...,Sp,Sp+1,Sp+2,...,Sp+N}},集合P表示的是波峰位置的集合,Si,i=pN,pN+1,...,p,p+1,...,p+N表示的是每條成分光譜上的點(diǎn).2.識(shí)別波谷:波谷的識(shí)別比較簡單,對(duì)于步驟一中尋找出來的波峰,每兩個(gè)相鄰波峰之間的最低點(diǎn)就是波谷,同樣把波谷的位置記錄下來,即B={b|Sb=min{SPi,SPi+1,SPi+2...,SPi+1}},集合B表示的是波谷的位置的集合.3.初始窗口:兩個(gè)相鄰的波谷及它們中間的點(diǎn)形成一個(gè)窗口,窗口的左,右端點(diǎn)都是波谷,分別記為B1...B2,B1...B2之間只包含一個(gè)波峰記為P,則窗口就被定義為WB1PB2,每個(gè)窗口只包含一個(gè)波峰,注意:對(duì)于每條成分光譜第一個(gè)窗口,它的左端點(diǎn)為整個(gè)成分光譜最左端的點(diǎn)與第一個(gè)峰值點(diǎn)之間的最低點(diǎn),即SB11=min{S1,S2,...,SP1},而對(duì)于每條成分光譜的最后一個(gè)窗口,它的右端點(diǎn)為最后一個(gè)波峰到整條光譜的最后一個(gè)點(diǎn)之間的最低點(diǎn),即14
本文編號(hào):3285125
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3285125.html
最近更新
教材專著