基于隨機(jī)森林的IP城市級(jí)定位方法研究
發(fā)布時(shí)間:2022-02-17 12:48
21世紀(jì)以來(lái),互聯(lián)網(wǎng)訊速發(fā)展,成為了人們?cè)谌粘I钪斜夭豢缮俚墓ぞ摺kS著互聯(lián)網(wǎng)的普及,線上服務(wù)和網(wǎng)絡(luò)通信成為一種趨勢(shì)。互聯(lián)網(wǎng)上的個(gè)性化推送服務(wù),如定向廣告投放、網(wǎng)頁(yè)語(yǔ)言自動(dòng)選擇、當(dāng)?shù)匦侣剬?shí)時(shí)推送,以及網(wǎng)絡(luò)安全問(wèn)題的溯源追蹤等都需要IP定位技術(shù),即根據(jù)每個(gè)網(wǎng)絡(luò)主機(jī)唯一的IP地址標(biāo)識(shí)確定其所在的地理位置。雖然現(xiàn)在已經(jīng)有許多優(yōu)秀的IP定位技術(shù),但或多或少都存在著一定的局限性,例如網(wǎng)絡(luò)測(cè)量的精確度不高,變量之間的關(guān)系無(wú)法準(zhǔn)確衡量等等。因此,本文主要提出了一種基于數(shù)據(jù)挖掘的IP城市級(jí)定位方法,該方法以IP地址本身作為特征,利用隨機(jī)森林算法訓(xùn)練得到分類器,得到了較好的預(yù)測(cè)效果。本文對(duì)現(xiàn)有的經(jīng)典的IP定位方法進(jìn)行了研究和分析,指出它們存在的不足,提出了基于隨機(jī)森林的IP城市級(jí)定位模型。首先,在模型設(shè)計(jì)中,為了獲取較高精確度的IP訓(xùn)練集,提出對(duì)不同的源數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)融合,并設(shè)計(jì)了一個(gè)引入堆結(jié)構(gòu)的數(shù)據(jù)庫(kù)融合算法,該算法主要是對(duì)各個(gè)庫(kù)的IP記錄進(jìn)行屬性融合。實(shí)驗(yàn)中選取了兩種不同的數(shù)據(jù)庫(kù)組合方式,通過(guò)對(duì)比分析發(fā)現(xiàn),第二組實(shí)驗(yàn)結(jié)果更好,具體表現(xiàn)在其中的省份信息能全部識(shí)別出來(lái),城市識(shí)別率也提升了19倍。其次,本...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
技術(shù)路線圖
第二章理論基礎(chǔ)和相關(guān)技術(shù)介紹9圖2.1CBG算法原理圖給定一些地理位置已知的探測(cè)點(diǎn)地標(biāo)L{A,B,C,…},測(cè)量從多個(gè)探測(cè)點(diǎn)到目標(biāo)IP節(jié)點(diǎn)X的時(shí)延向量T{T1,T2,T3…},根據(jù)時(shí)延與距離的關(guān)系可以的到距離向量D{D1,D2,D3…},以各個(gè)探測(cè)點(diǎn)為圓心,距離為半徑作圓,重合的區(qū)域即為目標(biāo)IP的區(qū)域范圍。該方法通過(guò)犧牲精度來(lái)縮小目標(biāo)IP所在地理位置的區(qū)域,通過(guò)給出一個(gè)區(qū)域范圍,將目標(biāo)IP縮小到一定的范圍,有效地降低了定位的方差。但以上兩種方法,也存在以下不足:由于存在時(shí)延抖動(dòng),傳送路徑不確定等問(wèn)題,時(shí)延測(cè)量不夠精準(zhǔn);而且定位的準(zhǔn)確性受限于探測(cè)點(diǎn)的數(shù)量,探測(cè)點(diǎn)數(shù)量越多,定位越精準(zhǔn);另外,實(shí)驗(yàn)中需要部署多個(gè)探測(cè)點(diǎn),在現(xiàn)實(shí)中部署難度比較大,可行性較差。2.2.2基于數(shù)據(jù)庫(kù)查詢的定位方法目前市面上存在的許多IP數(shù)據(jù)庫(kù),出于商業(yè)保護(hù)等原因,供應(yīng)商并未向外透露數(shù)據(jù)庫(kù)來(lái)源以及相關(guān)的定位技術(shù),因而這些數(shù)據(jù)庫(kù)的準(zhǔn)確性有待考量。對(duì)此,DanKomosny[20],JiangH[21],Shavitti[10],Siwpersad[9]等學(xué)者通過(guò)數(shù)據(jù)抽樣驗(yàn)證的方法評(píng)估數(shù)據(jù)庫(kù)的準(zhǔn)確度,綜合得到如下結(jié)論:(1)IP數(shù)據(jù)庫(kù)在國(guó)家級(jí)粒度的定位準(zhǔn)確性最高,接近100%,在省級(jí),市級(jí),街道級(jí)上的準(zhǔn)確度依次遞減,也就是說(shuō)粒度越高,定位準(zhǔn)確度越低;(2)不同IP數(shù)據(jù)庫(kù)中,定位信息相同的那部分IP地址在整個(gè)數(shù)據(jù)庫(kù)中定位準(zhǔn)確度更高,且對(duì)同一IP地址大部分IP數(shù)據(jù)庫(kù)定位結(jié)果是相同的;(3)基于數(shù)據(jù)庫(kù)查詢的定位準(zhǔn)確度沒(méi)有基于網(wǎng)絡(luò)測(cè)量的定位準(zhǔn)確度高。2.2.3基于數(shù)據(jù)挖掘的定位方法基于數(shù)據(jù)挖掘比較經(jīng)典的定位方法有Eriksson提出的Alearning-basedapproach
基于隨機(jī)森林的IP城市級(jí)定位方法研究10forIPgeolocation算法(簡(jiǎn)稱LBG)[16],與CBG算法等基于網(wǎng)絡(luò)測(cè)量的算法不同,該算法是一種基于數(shù)據(jù)挖掘的IP定位模型,其用到的模型是樸素貝葉斯模型,以網(wǎng)絡(luò)測(cè)量得到的時(shí)延和跳數(shù)作為特征,訓(xùn)練得到貝葉斯分類器,進(jìn)而用于預(yù)測(cè)目標(biāo)IP的地理位置。該方法不需要研究時(shí)延和距離之間的關(guān)系,只需要提供大量準(zhǔn)確度較高的訓(xùn)練樣本數(shù)據(jù),將IP城市級(jí)定位轉(zhuǎn)換為了一個(gè)基于特征聚類進(jìn)行預(yù)測(cè)的機(jī)器學(xué)習(xí)問(wèn)題。具體來(lái)說(shuō),LBG定位算法以大量探測(cè)源到地標(biāo)的時(shí)延和跳數(shù)作為訓(xùn)練數(shù)據(jù),在此基礎(chǔ)上構(gòu)建一個(gè)貝葉斯分類器,再輸入目標(biāo)IP的時(shí)延和跳數(shù)信息,對(duì)其地理位置進(jìn)行預(yù)測(cè)。其原理如下:已知城市集合C,c是IP地址所對(duì)應(yīng)的城市,其中,對(duì)目標(biāo)IP測(cè)量的特征集為F={f1,f2},其中f1表示時(shí)延,f2表示跳數(shù),若已知某個(gè)IP地址的特征集為F,則根據(jù)貝葉斯公式P(A|B)=(|)()()(2.1)該IP所在城市為c的概率為:P(c|F)=(|)()()∝(|)()(2.2)由于有大量的訓(xùn)練數(shù)據(jù)集,訓(xùn)練得到的貝葉斯分類器為:=argmax∈P(c|F)=argmax∈P(F|c)()(2.3)其中P(c)是根據(jù)人口密度計(jì)算得到,作者假設(shè)某城市的人口密度大小和目標(biāo)IP出現(xiàn)在城市c的概率是成正比。而P(F|c)可通過(guò)訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)得到。算法流程圖如下所示:圖2.2LBG算法流程圖
【參考文獻(xiàn)】:
期刊論文
[1]第43次CNNIC中國(guó)互聯(lián)網(wǎng)報(bào)告發(fā)布[J]. 中國(guó)廣播. 2019(04)
[2]大規(guī)模認(rèn)知無(wú)線電網(wǎng)絡(luò)的時(shí)延分析[J]. 陸佃杰,鄭向偉,張桂娟,洪爵,劉弘. 軟件學(xué)報(bào). 2014(10)
[3]基于決策樹(shù)的數(shù)據(jù)挖掘算法的應(yīng)用與研究[J]. 鄒媛. 科學(xué)技術(shù)與工程. 2010(18)
碩士論文
[1]基于網(wǎng)絡(luò)拓?fù)渚垲惖腎P城市級(jí)定位算法研究[D]. 李明月.解放軍信息工程大學(xué) 2017
本文編號(hào):3629431
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
技術(shù)路線圖
第二章理論基礎(chǔ)和相關(guān)技術(shù)介紹9圖2.1CBG算法原理圖給定一些地理位置已知的探測(cè)點(diǎn)地標(biāo)L{A,B,C,…},測(cè)量從多個(gè)探測(cè)點(diǎn)到目標(biāo)IP節(jié)點(diǎn)X的時(shí)延向量T{T1,T2,T3…},根據(jù)時(shí)延與距離的關(guān)系可以的到距離向量D{D1,D2,D3…},以各個(gè)探測(cè)點(diǎn)為圓心,距離為半徑作圓,重合的區(qū)域即為目標(biāo)IP的區(qū)域范圍。該方法通過(guò)犧牲精度來(lái)縮小目標(biāo)IP所在地理位置的區(qū)域,通過(guò)給出一個(gè)區(qū)域范圍,將目標(biāo)IP縮小到一定的范圍,有效地降低了定位的方差。但以上兩種方法,也存在以下不足:由于存在時(shí)延抖動(dòng),傳送路徑不確定等問(wèn)題,時(shí)延測(cè)量不夠精準(zhǔn);而且定位的準(zhǔn)確性受限于探測(cè)點(diǎn)的數(shù)量,探測(cè)點(diǎn)數(shù)量越多,定位越精準(zhǔn);另外,實(shí)驗(yàn)中需要部署多個(gè)探測(cè)點(diǎn),在現(xiàn)實(shí)中部署難度比較大,可行性較差。2.2.2基于數(shù)據(jù)庫(kù)查詢的定位方法目前市面上存在的許多IP數(shù)據(jù)庫(kù),出于商業(yè)保護(hù)等原因,供應(yīng)商并未向外透露數(shù)據(jù)庫(kù)來(lái)源以及相關(guān)的定位技術(shù),因而這些數(shù)據(jù)庫(kù)的準(zhǔn)確性有待考量。對(duì)此,DanKomosny[20],JiangH[21],Shavitti[10],Siwpersad[9]等學(xué)者通過(guò)數(shù)據(jù)抽樣驗(yàn)證的方法評(píng)估數(shù)據(jù)庫(kù)的準(zhǔn)確度,綜合得到如下結(jié)論:(1)IP數(shù)據(jù)庫(kù)在國(guó)家級(jí)粒度的定位準(zhǔn)確性最高,接近100%,在省級(jí),市級(jí),街道級(jí)上的準(zhǔn)確度依次遞減,也就是說(shuō)粒度越高,定位準(zhǔn)確度越低;(2)不同IP數(shù)據(jù)庫(kù)中,定位信息相同的那部分IP地址在整個(gè)數(shù)據(jù)庫(kù)中定位準(zhǔn)確度更高,且對(duì)同一IP地址大部分IP數(shù)據(jù)庫(kù)定位結(jié)果是相同的;(3)基于數(shù)據(jù)庫(kù)查詢的定位準(zhǔn)確度沒(méi)有基于網(wǎng)絡(luò)測(cè)量的定位準(zhǔn)確度高。2.2.3基于數(shù)據(jù)挖掘的定位方法基于數(shù)據(jù)挖掘比較經(jīng)典的定位方法有Eriksson提出的Alearning-basedapproach
基于隨機(jī)森林的IP城市級(jí)定位方法研究10forIPgeolocation算法(簡(jiǎn)稱LBG)[16],與CBG算法等基于網(wǎng)絡(luò)測(cè)量的算法不同,該算法是一種基于數(shù)據(jù)挖掘的IP定位模型,其用到的模型是樸素貝葉斯模型,以網(wǎng)絡(luò)測(cè)量得到的時(shí)延和跳數(shù)作為特征,訓(xùn)練得到貝葉斯分類器,進(jìn)而用于預(yù)測(cè)目標(biāo)IP的地理位置。該方法不需要研究時(shí)延和距離之間的關(guān)系,只需要提供大量準(zhǔn)確度較高的訓(xùn)練樣本數(shù)據(jù),將IP城市級(jí)定位轉(zhuǎn)換為了一個(gè)基于特征聚類進(jìn)行預(yù)測(cè)的機(jī)器學(xué)習(xí)問(wèn)題。具體來(lái)說(shuō),LBG定位算法以大量探測(cè)源到地標(biāo)的時(shí)延和跳數(shù)作為訓(xùn)練數(shù)據(jù),在此基礎(chǔ)上構(gòu)建一個(gè)貝葉斯分類器,再輸入目標(biāo)IP的時(shí)延和跳數(shù)信息,對(duì)其地理位置進(jìn)行預(yù)測(cè)。其原理如下:已知城市集合C,c是IP地址所對(duì)應(yīng)的城市,其中,對(duì)目標(biāo)IP測(cè)量的特征集為F={f1,f2},其中f1表示時(shí)延,f2表示跳數(shù),若已知某個(gè)IP地址的特征集為F,則根據(jù)貝葉斯公式P(A|B)=(|)()()(2.1)該IP所在城市為c的概率為:P(c|F)=(|)()()∝(|)()(2.2)由于有大量的訓(xùn)練數(shù)據(jù)集,訓(xùn)練得到的貝葉斯分類器為:=argmax∈P(c|F)=argmax∈P(F|c)()(2.3)其中P(c)是根據(jù)人口密度計(jì)算得到,作者假設(shè)某城市的人口密度大小和目標(biāo)IP出現(xiàn)在城市c的概率是成正比。而P(F|c)可通過(guò)訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)得到。算法流程圖如下所示:圖2.2LBG算法流程圖
【參考文獻(xiàn)】:
期刊論文
[1]第43次CNNIC中國(guó)互聯(lián)網(wǎng)報(bào)告發(fā)布[J]. 中國(guó)廣播. 2019(04)
[2]大規(guī)模認(rèn)知無(wú)線電網(wǎng)絡(luò)的時(shí)延分析[J]. 陸佃杰,鄭向偉,張桂娟,洪爵,劉弘. 軟件學(xué)報(bào). 2014(10)
[3]基于決策樹(shù)的數(shù)據(jù)挖掘算法的應(yīng)用與研究[J]. 鄒媛. 科學(xué)技術(shù)與工程. 2010(18)
碩士論文
[1]基于網(wǎng)絡(luò)拓?fù)渚垲惖腎P城市級(jí)定位算法研究[D]. 李明月.解放軍信息工程大學(xué) 2017
本文編號(hào):3629431
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3629431.html
最近更新
教材專著