空間數(shù)據(jù)正/負(fù)co-location模式挖掘算法研究
發(fā)布時間:2021-08-03 01:35
隨著空間數(shù)據(jù)和數(shù)據(jù)庫的迅速發(fā)展和廣泛應(yīng)用,空間數(shù)據(jù)挖掘越來越重要。在地理空間中,經(jīng)常位于一起的空間特征子集稱為空間(正)co-location模式。雖然全連接、部分連接以及無連接算法的提出,解決了co-location模式的挖掘問題,但是這三種算法都存在算法消耗時間過多的問題。負(fù)co-location模式挖掘是找出擁有負(fù)相關(guān)關(guān)系的空間特征子集,關(guān)于這種模式的研究較少,目前提出的算法必須要在找出所有co-location模式的情況下才能進(jìn)行負(fù)co-location模式挖掘,其挖掘過程復(fù)雜耗時。針對目前正、負(fù)co-location模式挖掘算法存在的問題,本文做了以下研究工作:(1)提出了極大實例算法。該算法引入了一種新的概念:極大實例,并提出了利用極大實例來生成co-location的所有行實例的方法,并證明這種生成行實例的方法的可行性及有效性。該算法生成行實例和co-location模式的過程都不需要連接操作,與全連接、部分連接和無連接算法相比可以節(jié)約大部分計算時間。(2)提出了改進(jìn)的負(fù)co-location模式算法。通過分析正、負(fù)co-location模式之間的關(guān)系,提出了空間鄰近關(guān)系...
【文章來源】:桂林理工大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
空間數(shù)據(jù)集示例
桂林理工大學(xué)碩士學(xué)位論文10接操作。雖然全連接算法能夠生成完整且正確的co-location模式,但是生成過程所需的連接操作會隨著空間特征類型及其實例的增多而增多,所消耗的計算時間也會增加。圖2.2實例連接過程(3)剪枝:候選co-location模式可以通過給定的興趣度量閾值來進(jìn)行剪枝。首先算法基于頻繁度進(jìn)行剪枝,即只有高于給定的興趣度量閾值的候選co-location模式才是頻繁的。所有候選co-location模式的參與度值計算出后,執(zhí)行基于頻繁度的剪枝,那些非頻繁的候選co-location模式將被刪除。而另一種剪枝策略是多分辨率剪枝。多分辨率剪枝是在使用不相交分區(qū)的粗略分辨率的空間數(shù)據(jù)數(shù)據(jù)上學(xué)習(xí)的。在全連接中主要以基于頻繁度的剪枝為主,這個剪枝策略可以確保找出完整正確的頻繁co-location模式。(4)生成頻繁的co-location模式:通過剪枝篩選出滿足頻繁閾值大于用戶設(shè)定值的co-location模式。關(guān)于全連接算法的具體描述如下:輸入:a)={,,}表示空間特征的實例的集合;b)ET表示空間特征類型的集合;c)R表示空間鄰近關(guān)系;d)θ表示最小頻繁度閾值,α表示最小條件概率閾值;輸出:頻繁度和條件概率均大于用戶設(shè)定的最小閾值的co-location規(guī)則集合。變量:k:co-location的階;
12location模式的實例,因此這種方法為有效的co-location模式挖掘提供一個框架。只生成事務(wù)中未標(biāo)識的團(tuán)間表實例的實例連接操作的計算成本要比查找所有co-location模式表實例的實例連接操作的計算成本相對便宜。部分連接算法的基本步驟介紹如下:(1)事務(wù)化空間數(shù)據(jù)集:給定一個空間數(shù)據(jù)集,部分連接算法首先進(jìn)行劃分來生成事務(wù)集。文獻(xiàn)[8]中介紹了一些生成事務(wù)集的劃分方法,例如網(wǎng)格劃分方法、最大團(tuán)法、最小分割劃分法等等。事務(wù)化空間數(shù)據(jù)集的理想情況是可以生成一組最大團(tuán),同時最大限度地減少由分區(qū)分割的邊數(shù)。圖2.3詳細(xì)地描述了部分連接算法中事務(wù)化空間數(shù)據(jù)集的方法。其中虛線圈表示團(tuán),每個虛線圈的直徑都是d(d為鄰近關(guān)系的距離閾值),實線表示兩實例滿足鄰近關(guān)系,虛線表示兩實例間為分割鄰近關(guān)系。例如A.1和C.2、A.5和B.2以及A.5和C.1之間都是分割鄰近關(guān)系。Co-location模式{,,}的行實例為{.1,.2,.1}、{.4,.3,.4}和{.5,.2,.1},其中,{.1,.2,.1}和{.4,.3,.4}是團(tuán)內(nèi)行實例,{.5,.2,.1}是團(tuán)間行實例,因為{.5,.2,.1}中有兩條分割鄰近關(guān)系。圖2.3事務(wù)化空間數(shù)據(jù)集(2)生成候選co-location模式:在部分連接算法中,這個步驟與全連接相同,也是利用Apriori思想,采用連接操作,從k階頻繁的co-location模式中生成k+1階候選co-location模式。(3)掃描事務(wù)集收集團(tuán)內(nèi)行實例:在每個迭代過程中掃描事務(wù)集并列舉出候選co-location模式的團(tuán)內(nèi)行實例。這個步驟類似于Apriori算法。需注意的是空間數(shù)據(jù)集的事務(wù)與市場購物籃數(shù)據(jù)的事務(wù)不同。傳統(tǒng)的市場籃子數(shù)據(jù)交易只有布爾項目類型,即項目只能存在于或不存在于交易中。相反,鄰域事務(wù)里的每一項都由一個空間特征類型及其實例組成。一個空間特征類型在事務(wù)中可以有多個實例。
本文編號:3318667
【文章來源】:桂林理工大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
空間數(shù)據(jù)集示例
桂林理工大學(xué)碩士學(xué)位論文10接操作。雖然全連接算法能夠生成完整且正確的co-location模式,但是生成過程所需的連接操作會隨著空間特征類型及其實例的增多而增多,所消耗的計算時間也會增加。圖2.2實例連接過程(3)剪枝:候選co-location模式可以通過給定的興趣度量閾值來進(jìn)行剪枝。首先算法基于頻繁度進(jìn)行剪枝,即只有高于給定的興趣度量閾值的候選co-location模式才是頻繁的。所有候選co-location模式的參與度值計算出后,執(zhí)行基于頻繁度的剪枝,那些非頻繁的候選co-location模式將被刪除。而另一種剪枝策略是多分辨率剪枝。多分辨率剪枝是在使用不相交分區(qū)的粗略分辨率的空間數(shù)據(jù)數(shù)據(jù)上學(xué)習(xí)的。在全連接中主要以基于頻繁度的剪枝為主,這個剪枝策略可以確保找出完整正確的頻繁co-location模式。(4)生成頻繁的co-location模式:通過剪枝篩選出滿足頻繁閾值大于用戶設(shè)定值的co-location模式。關(guān)于全連接算法的具體描述如下:輸入:a)={,,}表示空間特征的實例的集合;b)ET表示空間特征類型的集合;c)R表示空間鄰近關(guān)系;d)θ表示最小頻繁度閾值,α表示最小條件概率閾值;輸出:頻繁度和條件概率均大于用戶設(shè)定的最小閾值的co-location規(guī)則集合。變量:k:co-location的階;
12location模式的實例,因此這種方法為有效的co-location模式挖掘提供一個框架。只生成事務(wù)中未標(biāo)識的團(tuán)間表實例的實例連接操作的計算成本要比查找所有co-location模式表實例的實例連接操作的計算成本相對便宜。部分連接算法的基本步驟介紹如下:(1)事務(wù)化空間數(shù)據(jù)集:給定一個空間數(shù)據(jù)集,部分連接算法首先進(jìn)行劃分來生成事務(wù)集。文獻(xiàn)[8]中介紹了一些生成事務(wù)集的劃分方法,例如網(wǎng)格劃分方法、最大團(tuán)法、最小分割劃分法等等。事務(wù)化空間數(shù)據(jù)集的理想情況是可以生成一組最大團(tuán),同時最大限度地減少由分區(qū)分割的邊數(shù)。圖2.3詳細(xì)地描述了部分連接算法中事務(wù)化空間數(shù)據(jù)集的方法。其中虛線圈表示團(tuán),每個虛線圈的直徑都是d(d為鄰近關(guān)系的距離閾值),實線表示兩實例滿足鄰近關(guān)系,虛線表示兩實例間為分割鄰近關(guān)系。例如A.1和C.2、A.5和B.2以及A.5和C.1之間都是分割鄰近關(guān)系。Co-location模式{,,}的行實例為{.1,.2,.1}、{.4,.3,.4}和{.5,.2,.1},其中,{.1,.2,.1}和{.4,.3,.4}是團(tuán)內(nèi)行實例,{.5,.2,.1}是團(tuán)間行實例,因為{.5,.2,.1}中有兩條分割鄰近關(guān)系。圖2.3事務(wù)化空間數(shù)據(jù)集(2)生成候選co-location模式:在部分連接算法中,這個步驟與全連接相同,也是利用Apriori思想,采用連接操作,從k階頻繁的co-location模式中生成k+1階候選co-location模式。(3)掃描事務(wù)集收集團(tuán)內(nèi)行實例:在每個迭代過程中掃描事務(wù)集并列舉出候選co-location模式的團(tuán)內(nèi)行實例。這個步驟類似于Apriori算法。需注意的是空間數(shù)據(jù)集的事務(wù)與市場購物籃數(shù)據(jù)的事務(wù)不同。傳統(tǒng)的市場籃子數(shù)據(jù)交易只有布爾項目類型,即項目只能存在于或不存在于交易中。相反,鄰域事務(wù)里的每一項都由一個空間特征類型及其實例組成。一個空間特征類型在事務(wù)中可以有多個實例。
本文編號:3318667
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3318667.html
最近更新
教材專著