工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的實(shí)體識(shí)別方法研究
發(fā)布時(shí)間:2021-08-21 12:56
物聯(lián)網(wǎng)中的劣質(zhì)數(shù)據(jù)處理一直以來(lái)都是研究熱點(diǎn)之一,針對(duì)實(shí)體同一性問(wèn)題的實(shí)體識(shí)別方法更是受到廣泛關(guān)注。實(shí)體識(shí)別是指從數(shù)據(jù)集合中發(fā)現(xiàn)描述現(xiàn)實(shí)世界同一實(shí)體的不同數(shù)據(jù)。由于工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)具有浮動(dòng)性和實(shí)時(shí)性,現(xiàn)有實(shí)體識(shí)別方法不能實(shí)現(xiàn)高準(zhǔn)確性、高效率的工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)實(shí)體識(shí)別。因此,針對(duì)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù),本文首先提出了一種面向歷史數(shù)據(jù)的漸進(jìn)式實(shí)體識(shí)別方法,然后在該方法基礎(chǔ)上提出了一種面向?qū)崟r(shí)數(shù)據(jù)的增量實(shí)體識(shí)別方法。本文的主要成果如下:為提高工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)實(shí)體識(shí)別的準(zhǔn)確性,首先,針對(duì)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)中各屬性的數(shù)據(jù)類型不完全一致的問(wèn)題,提出利用哈希編碼實(shí)現(xiàn)數(shù)據(jù)類型不敏感的屬性判等方式,并基于該屬性判等方式形成一系列實(shí)體匹配條件,進(jìn)而構(gòu)建一套實(shí)體匹配規(guī)則,該匹配規(guī)則利用哈希編碼的唯一性實(shí)現(xiàn)高精度匹配。然后,針對(duì)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的數(shù)據(jù)浮動(dòng)性,以上述高精度匹配的實(shí)體匹配規(guī)則為理論基礎(chǔ),利用Merkle-tree的思想提出一種面向歷史數(shù)據(jù)的漸進(jìn)式實(shí)體識(shí)別算法(progressive entity resolution for historical data,以下簡(jiǎn)稱PER-H算法)。該算法首先提出了一種數(shù)據(jù)標(biāo)準(zhǔn)化方法,...
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
增量實(shí)體識(shí)別示意圖
第5章實(shí)驗(yàn)及分析42圖5-3F1值對(duì)比圖經(jīng)過(guò)上述分析可知,在總體上,本文提出的PER-H算法的識(shí)別效果要遠(yuǎn)好于其他兩種經(jīng)典的實(shí)體識(shí)別算法。5.2.4效率對(duì)比分析由表5-3所展示的數(shù)據(jù)可以看出,本文提出的PER-H算法在識(shí)別效率上并沒(méi)有優(yōu)勢(shì)。但是,由于PER-H算法采用漸進(jìn)式操作,因此,與其它兩種實(shí)體識(shí)別算法相比,在識(shí)別效率上的優(yōu)劣差距并不大。出現(xiàn)表5-3中結(jié)果的主要原因是:三種算法各自使用的主要技術(shù)手段有所不同。因此,所消耗的時(shí)間各不相同。Part算法的識(shí)別過(guò)程相對(duì)來(lái)說(shuō)比較簡(jiǎn)單,該算法首先進(jìn)行屬性相似度計(jì)算;然后,為各屬性分配權(quán)重,計(jì)算出每個(gè)元組對(duì)的帶權(quán)平均相似度;最后,通過(guò)判斷兩個(gè)元組的帶權(quán)平均相似度是否大于事先設(shè)定的閾值,進(jìn)行實(shí)體匹配,從而實(shí)現(xiàn)對(duì)給定數(shù)據(jù)的實(shí)體同一性問(wèn)題檢測(cè)。而ERC算法和本文提出的PER-H算法為提高識(shí)別準(zhǔn)確性分別結(jié)合了一些其他技術(shù),使識(shí)別過(guò)程變得相對(duì)復(fù)雜。因此,ERC算法和PER-H算法的時(shí)間消耗相比于Part算法略高。此外,由于本文提出的PER-H算法需要反復(fù)地構(gòu)建St-Chain結(jié)構(gòu),造成了一定的時(shí)間消耗,對(duì)識(shí)別效率產(chǎn)生了一定的影響,最終導(dǎo)致PER-H算法的識(shí)別效率是三者中最低的。
第5章實(shí)驗(yàn)及分析44圖5-4IER-RT與PER-H的效率對(duì)比圖如圖5-4所示,隨著數(shù)據(jù)量的不斷增加,IER-RT算法的時(shí)間消耗始終是呈現(xiàn)接近勻速的緩慢上升趨勢(shì),而PER-H算法的時(shí)間消耗曲線的上升趨勢(shì)逐漸加快。雖然二者的上升曲線都接近線性形式,但是,由3.2.4節(jié)和4.1.2節(jié)中的分析可知,PER-H算法由于排序和遞歸構(gòu)造St-Chain等操作造成了一定的時(shí)間消耗,其時(shí)間復(fù)雜度處于區(qū)間[n.,n.)內(nèi),而IER-RT算法由于利用前期實(shí)體識(shí)別算法所得的識(shí)別結(jié)果簡(jiǎn)化了識(shí)別過(guò)程,其時(shí)間復(fù)雜度為O(n)。因此,IER-RT算法的識(shí)別效率始終高于PER-H算法,并且,二者的識(shí)別效率會(huì)隨著數(shù)據(jù)量的增加而逐漸拉開(kāi)差距,且這個(gè)差距將會(huì)變得越來(lái)越明顯。綜上所述,針對(duì)工業(yè)物聯(lián)網(wǎng)中的實(shí)時(shí)增量數(shù)據(jù),隨著數(shù)據(jù)量的不斷增加,PER-H算法的識(shí)別效率越來(lái)越難以滿足增量數(shù)據(jù)處理的高實(shí)時(shí)性要求。而IER-RT算法的上升曲線十分接近線性,其運(yùn)行時(shí)間隨數(shù)據(jù)量的不斷增加而緩慢增長(zhǎng)。因此,相比之下,無(wú)論是從算法的時(shí)間復(fù)雜度這一理論角度,還是從圖5-4所展示的實(shí)驗(yàn)對(duì)比結(jié)果這一實(shí)際數(shù)據(jù)來(lái)談,第4章提出的IER-RT算法都更能滿足實(shí)時(shí)增量數(shù)據(jù)對(duì)實(shí)體識(shí)別過(guò)程的高實(shí)時(shí)性要求。5.4本章小結(jié)本章首先介紹并描述了實(shí)驗(yàn)所采用的數(shù)據(jù)集,主要包括一個(gè)合成數(shù)據(jù)集和兩個(gè)源自UCI的常用公共數(shù)據(jù)集,并說(shuō)明了實(shí)驗(yàn)數(shù)據(jù)集中所包含的屬性的數(shù)據(jù)特征。然后,通過(guò)與其他兩種經(jīng)典的實(shí)體識(shí)別算法進(jìn)行對(duì)比分析,測(cè)試并驗(yàn)證了第3章提出的PER-H算法在準(zhǔn)確率、召回率、F-測(cè)度和效率等方面的較高性
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)控機(jī)床設(shè)備故障領(lǐng)域的命名實(shí)體識(shí)別[J]. 王歡,朱文球,吳岳忠,何頻捷,萬(wàn)爛軍. 工程科學(xué)學(xué)報(bào). 2020(04)
[2]共指消解技術(shù)綜述[J]. 陳遠(yuǎn)哲,匡俊,劉婷婷,高明,周傲英. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(05)
[3]一種實(shí)體識(shí)別的后期處理優(yōu)化算法[J]. 蔣存鋒,趙川. 計(jì)算機(jī)應(yīng)用與軟件. 2019(06)
[4]基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法[J]. 孫琛琛,申德榮,寇月,聶鐵錚,于戈. 計(jì)算機(jī)學(xué)報(bào). 2019(08)
[5]基于眾包標(biāo)注的中文微博命名實(shí)體識(shí)別[J]. 房輝,湯文兵,桂海霞,張順香. 計(jì)算機(jī)應(yīng)用與軟件. 2019(03)
[6]面向文本命名實(shí)體識(shí)別的深層網(wǎng)絡(luò)模型[J]. 李慧林,柴玉梅,孫穆禎. 小型微型計(jì)算機(jī)系統(tǒng). 2019(01)
[7]基于細(xì)粒度詞表示的命名實(shí)體識(shí)別研究[J]. 林廣和,張紹武,林鴻飛. 中文信息學(xué)報(bào). 2018(11)
[8]面向大數(shù)據(jù)實(shí)體識(shí)別的超圖分割算法[J]. 胡志剛,劉佳. 小型微型計(jì)算機(jī)系統(tǒng). 2018(07)
[9]基于隨機(jī)森林的實(shí)體識(shí)別方法[J]. 楊萌,聶鐵錚,申德榮,寇月,于戈. 集成技術(shù). 2018(02)
[10]《工業(yè)物聯(lián)網(wǎng)白皮書》正式發(fā)布[J]. 杜玉河. 起重運(yùn)輸機(jī)械. 2017(10)
博士論文
[1]實(shí)體識(shí)別關(guān)鍵技術(shù)的研究[D]. 黎玲利.哈爾濱工業(yè)大學(xué) 2015
碩士論文
[1]基于超圖聚類的大數(shù)據(jù)實(shí)體識(shí)別算法研究[D]. 莎仁.東北師范大學(xué) 2019
[2]基于半監(jiān)督學(xué)習(xí)的藥品專利實(shí)體識(shí)別及應(yīng)用[D]. 王澤.大連理工大學(xué) 2019
本文編號(hào):3355643
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
增量實(shí)體識(shí)別示意圖
第5章實(shí)驗(yàn)及分析42圖5-3F1值對(duì)比圖經(jīng)過(guò)上述分析可知,在總體上,本文提出的PER-H算法的識(shí)別效果要遠(yuǎn)好于其他兩種經(jīng)典的實(shí)體識(shí)別算法。5.2.4效率對(duì)比分析由表5-3所展示的數(shù)據(jù)可以看出,本文提出的PER-H算法在識(shí)別效率上并沒(méi)有優(yōu)勢(shì)。但是,由于PER-H算法采用漸進(jìn)式操作,因此,與其它兩種實(shí)體識(shí)別算法相比,在識(shí)別效率上的優(yōu)劣差距并不大。出現(xiàn)表5-3中結(jié)果的主要原因是:三種算法各自使用的主要技術(shù)手段有所不同。因此,所消耗的時(shí)間各不相同。Part算法的識(shí)別過(guò)程相對(duì)來(lái)說(shuō)比較簡(jiǎn)單,該算法首先進(jìn)行屬性相似度計(jì)算;然后,為各屬性分配權(quán)重,計(jì)算出每個(gè)元組對(duì)的帶權(quán)平均相似度;最后,通過(guò)判斷兩個(gè)元組的帶權(quán)平均相似度是否大于事先設(shè)定的閾值,進(jìn)行實(shí)體匹配,從而實(shí)現(xiàn)對(duì)給定數(shù)據(jù)的實(shí)體同一性問(wèn)題檢測(cè)。而ERC算法和本文提出的PER-H算法為提高識(shí)別準(zhǔn)確性分別結(jié)合了一些其他技術(shù),使識(shí)別過(guò)程變得相對(duì)復(fù)雜。因此,ERC算法和PER-H算法的時(shí)間消耗相比于Part算法略高。此外,由于本文提出的PER-H算法需要反復(fù)地構(gòu)建St-Chain結(jié)構(gòu),造成了一定的時(shí)間消耗,對(duì)識(shí)別效率產(chǎn)生了一定的影響,最終導(dǎo)致PER-H算法的識(shí)別效率是三者中最低的。
第5章實(shí)驗(yàn)及分析44圖5-4IER-RT與PER-H的效率對(duì)比圖如圖5-4所示,隨著數(shù)據(jù)量的不斷增加,IER-RT算法的時(shí)間消耗始終是呈現(xiàn)接近勻速的緩慢上升趨勢(shì),而PER-H算法的時(shí)間消耗曲線的上升趨勢(shì)逐漸加快。雖然二者的上升曲線都接近線性形式,但是,由3.2.4節(jié)和4.1.2節(jié)中的分析可知,PER-H算法由于排序和遞歸構(gòu)造St-Chain等操作造成了一定的時(shí)間消耗,其時(shí)間復(fù)雜度處于區(qū)間[n.,n.)內(nèi),而IER-RT算法由于利用前期實(shí)體識(shí)別算法所得的識(shí)別結(jié)果簡(jiǎn)化了識(shí)別過(guò)程,其時(shí)間復(fù)雜度為O(n)。因此,IER-RT算法的識(shí)別效率始終高于PER-H算法,并且,二者的識(shí)別效率會(huì)隨著數(shù)據(jù)量的增加而逐漸拉開(kāi)差距,且這個(gè)差距將會(huì)變得越來(lái)越明顯。綜上所述,針對(duì)工業(yè)物聯(lián)網(wǎng)中的實(shí)時(shí)增量數(shù)據(jù),隨著數(shù)據(jù)量的不斷增加,PER-H算法的識(shí)別效率越來(lái)越難以滿足增量數(shù)據(jù)處理的高實(shí)時(shí)性要求。而IER-RT算法的上升曲線十分接近線性,其運(yùn)行時(shí)間隨數(shù)據(jù)量的不斷增加而緩慢增長(zhǎng)。因此,相比之下,無(wú)論是從算法的時(shí)間復(fù)雜度這一理論角度,還是從圖5-4所展示的實(shí)驗(yàn)對(duì)比結(jié)果這一實(shí)際數(shù)據(jù)來(lái)談,第4章提出的IER-RT算法都更能滿足實(shí)時(shí)增量數(shù)據(jù)對(duì)實(shí)體識(shí)別過(guò)程的高實(shí)時(shí)性要求。5.4本章小結(jié)本章首先介紹并描述了實(shí)驗(yàn)所采用的數(shù)據(jù)集,主要包括一個(gè)合成數(shù)據(jù)集和兩個(gè)源自UCI的常用公共數(shù)據(jù)集,并說(shuō)明了實(shí)驗(yàn)數(shù)據(jù)集中所包含的屬性的數(shù)據(jù)特征。然后,通過(guò)與其他兩種經(jīng)典的實(shí)體識(shí)別算法進(jìn)行對(duì)比分析,測(cè)試并驗(yàn)證了第3章提出的PER-H算法在準(zhǔn)確率、召回率、F-測(cè)度和效率等方面的較高性
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)控機(jī)床設(shè)備故障領(lǐng)域的命名實(shí)體識(shí)別[J]. 王歡,朱文球,吳岳忠,何頻捷,萬(wàn)爛軍. 工程科學(xué)學(xué)報(bào). 2020(04)
[2]共指消解技術(shù)綜述[J]. 陳遠(yuǎn)哲,匡俊,劉婷婷,高明,周傲英. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(05)
[3]一種實(shí)體識(shí)別的后期處理優(yōu)化算法[J]. 蔣存鋒,趙川. 計(jì)算機(jī)應(yīng)用與軟件. 2019(06)
[4]基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法[J]. 孫琛琛,申德榮,寇月,聶鐵錚,于戈. 計(jì)算機(jī)學(xué)報(bào). 2019(08)
[5]基于眾包標(biāo)注的中文微博命名實(shí)體識(shí)別[J]. 房輝,湯文兵,桂海霞,張順香. 計(jì)算機(jī)應(yīng)用與軟件. 2019(03)
[6]面向文本命名實(shí)體識(shí)別的深層網(wǎng)絡(luò)模型[J]. 李慧林,柴玉梅,孫穆禎. 小型微型計(jì)算機(jī)系統(tǒng). 2019(01)
[7]基于細(xì)粒度詞表示的命名實(shí)體識(shí)別研究[J]. 林廣和,張紹武,林鴻飛. 中文信息學(xué)報(bào). 2018(11)
[8]面向大數(shù)據(jù)實(shí)體識(shí)別的超圖分割算法[J]. 胡志剛,劉佳. 小型微型計(jì)算機(jī)系統(tǒng). 2018(07)
[9]基于隨機(jī)森林的實(shí)體識(shí)別方法[J]. 楊萌,聶鐵錚,申德榮,寇月,于戈. 集成技術(shù). 2018(02)
[10]《工業(yè)物聯(lián)網(wǎng)白皮書》正式發(fā)布[J]. 杜玉河. 起重運(yùn)輸機(jī)械. 2017(10)
博士論文
[1]實(shí)體識(shí)別關(guān)鍵技術(shù)的研究[D]. 黎玲利.哈爾濱工業(yè)大學(xué) 2015
碩士論文
[1]基于超圖聚類的大數(shù)據(jù)實(shí)體識(shí)別算法研究[D]. 莎仁.東北師范大學(xué) 2019
[2]基于半監(jiān)督學(xué)習(xí)的藥品專利實(shí)體識(shí)別及應(yīng)用[D]. 王澤.大連理工大學(xué) 2019
本文編號(hào):3355643
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3355643.html
最近更新
教材專著