天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的實(shí)體識(shí)別方法研究

發(fā)布時(shí)間:2021-08-21 12:56
  物聯(lián)網(wǎng)中的劣質(zhì)數(shù)據(jù)處理一直以來(lái)都是研究熱點(diǎn)之一,針對(duì)實(shí)體同一性問(wèn)題的實(shí)體識(shí)別方法更是受到廣泛關(guān)注。實(shí)體識(shí)別是指從數(shù)據(jù)集合中發(fā)現(xiàn)描述現(xiàn)實(shí)世界同一實(shí)體的不同數(shù)據(jù)。由于工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)具有浮動(dòng)性和實(shí)時(shí)性,現(xiàn)有實(shí)體識(shí)別方法不能實(shí)現(xiàn)高準(zhǔn)確性、高效率的工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)實(shí)體識(shí)別。因此,針對(duì)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù),本文首先提出了一種面向歷史數(shù)據(jù)的漸進(jìn)式實(shí)體識(shí)別方法,然后在該方法基礎(chǔ)上提出了一種面向?qū)崟r(shí)數(shù)據(jù)的增量實(shí)體識(shí)別方法。本文的主要成果如下:為提高工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)實(shí)體識(shí)別的準(zhǔn)確性,首先,針對(duì)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)中各屬性的數(shù)據(jù)類型不完全一致的問(wèn)題,提出利用哈希編碼實(shí)現(xiàn)數(shù)據(jù)類型不敏感的屬性判等方式,并基于該屬性判等方式形成一系列實(shí)體匹配條件,進(jìn)而構(gòu)建一套實(shí)體匹配規(guī)則,該匹配規(guī)則利用哈希編碼的唯一性實(shí)現(xiàn)高精度匹配。然后,針對(duì)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的數(shù)據(jù)浮動(dòng)性,以上述高精度匹配的實(shí)體匹配規(guī)則為理論基礎(chǔ),利用Merkle-tree的思想提出一種面向歷史數(shù)據(jù)的漸進(jìn)式實(shí)體識(shí)別算法(progressive entity resolution for historical data,以下簡(jiǎn)稱PER-H算法)。該算法首先提出了一種數(shù)據(jù)標(biāo)準(zhǔn)化方法,... 

【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校

【文章頁(yè)數(shù)】:62 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的實(shí)體識(shí)別方法研究


增量實(shí)體識(shí)別示意圖

對(duì)比圖,對(duì)比圖,算法


第5章實(shí)驗(yàn)及分析42圖5-3F1值對(duì)比圖經(jīng)過(guò)上述分析可知,在總體上,本文提出的PER-H算法的識(shí)別效果要遠(yuǎn)好于其他兩種經(jīng)典的實(shí)體識(shí)別算法。5.2.4效率對(duì)比分析由表5-3所展示的數(shù)據(jù)可以看出,本文提出的PER-H算法在識(shí)別效率上并沒(méi)有優(yōu)勢(shì)。但是,由于PER-H算法采用漸進(jìn)式操作,因此,與其它兩種實(shí)體識(shí)別算法相比,在識(shí)別效率上的優(yōu)劣差距并不大。出現(xiàn)表5-3中結(jié)果的主要原因是:三種算法各自使用的主要技術(shù)手段有所不同。因此,所消耗的時(shí)間各不相同。Part算法的識(shí)別過(guò)程相對(duì)來(lái)說(shuō)比較簡(jiǎn)單,該算法首先進(jìn)行屬性相似度計(jì)算;然后,為各屬性分配權(quán)重,計(jì)算出每個(gè)元組對(duì)的帶權(quán)平均相似度;最后,通過(guò)判斷兩個(gè)元組的帶權(quán)平均相似度是否大于事先設(shè)定的閾值,進(jìn)行實(shí)體匹配,從而實(shí)現(xiàn)對(duì)給定數(shù)據(jù)的實(shí)體同一性問(wèn)題檢測(cè)。而ERC算法和本文提出的PER-H算法為提高識(shí)別準(zhǔn)確性分別結(jié)合了一些其他技術(shù),使識(shí)別過(guò)程變得相對(duì)復(fù)雜。因此,ERC算法和PER-H算法的時(shí)間消耗相比于Part算法略高。此外,由于本文提出的PER-H算法需要反復(fù)地構(gòu)建St-Chain結(jié)構(gòu),造成了一定的時(shí)間消耗,對(duì)識(shí)別效率產(chǎn)生了一定的影響,最終導(dǎo)致PER-H算法的識(shí)別效率是三者中最低的。

對(duì)比圖,效率,對(duì)比圖,算法


第5章實(shí)驗(yàn)及分析44圖5-4IER-RT與PER-H的效率對(duì)比圖如圖5-4所示,隨著數(shù)據(jù)量的不斷增加,IER-RT算法的時(shí)間消耗始終是呈現(xiàn)接近勻速的緩慢上升趨勢(shì),而PER-H算法的時(shí)間消耗曲線的上升趨勢(shì)逐漸加快。雖然二者的上升曲線都接近線性形式,但是,由3.2.4節(jié)和4.1.2節(jié)中的分析可知,PER-H算法由于排序和遞歸構(gòu)造St-Chain等操作造成了一定的時(shí)間消耗,其時(shí)間復(fù)雜度處于區(qū)間[n.,n.)內(nèi),而IER-RT算法由于利用前期實(shí)體識(shí)別算法所得的識(shí)別結(jié)果簡(jiǎn)化了識(shí)別過(guò)程,其時(shí)間復(fù)雜度為O(n)。因此,IER-RT算法的識(shí)別效率始終高于PER-H算法,并且,二者的識(shí)別效率會(huì)隨著數(shù)據(jù)量的增加而逐漸拉開(kāi)差距,且這個(gè)差距將會(huì)變得越來(lái)越明顯。綜上所述,針對(duì)工業(yè)物聯(lián)網(wǎng)中的實(shí)時(shí)增量數(shù)據(jù),隨著數(shù)據(jù)量的不斷增加,PER-H算法的識(shí)別效率越來(lái)越難以滿足增量數(shù)據(jù)處理的高實(shí)時(shí)性要求。而IER-RT算法的上升曲線十分接近線性,其運(yùn)行時(shí)間隨數(shù)據(jù)量的不斷增加而緩慢增長(zhǎng)。因此,相比之下,無(wú)論是從算法的時(shí)間復(fù)雜度這一理論角度,還是從圖5-4所展示的實(shí)驗(yàn)對(duì)比結(jié)果這一實(shí)際數(shù)據(jù)來(lái)談,第4章提出的IER-RT算法都更能滿足實(shí)時(shí)增量數(shù)據(jù)對(duì)實(shí)體識(shí)別過(guò)程的高實(shí)時(shí)性要求。5.4本章小結(jié)本章首先介紹并描述了實(shí)驗(yàn)所采用的數(shù)據(jù)集,主要包括一個(gè)合成數(shù)據(jù)集和兩個(gè)源自UCI的常用公共數(shù)據(jù)集,并說(shuō)明了實(shí)驗(yàn)數(shù)據(jù)集中所包含的屬性的數(shù)據(jù)特征。然后,通過(guò)與其他兩種經(jīng)典的實(shí)體識(shí)別算法進(jìn)行對(duì)比分析,測(cè)試并驗(yàn)證了第3章提出的PER-H算法在準(zhǔn)確率、召回率、F-測(cè)度和效率等方面的較高性

【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)控機(jī)床設(shè)備故障領(lǐng)域的命名實(shí)體識(shí)別[J]. 王歡,朱文球,吳岳忠,何頻捷,萬(wàn)爛軍.  工程科學(xué)學(xué)報(bào). 2020(04)
[2]共指消解技術(shù)綜述[J]. 陳遠(yuǎn)哲,匡俊,劉婷婷,高明,周傲英.  華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(05)
[3]一種實(shí)體識(shí)別的后期處理優(yōu)化算法[J]. 蔣存鋒,趙川.  計(jì)算機(jī)應(yīng)用與軟件. 2019(06)
[4]基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法[J]. 孫琛琛,申德榮,寇月,聶鐵錚,于戈.  計(jì)算機(jī)學(xué)報(bào). 2019(08)
[5]基于眾包標(biāo)注的中文微博命名實(shí)體識(shí)別[J]. 房輝,湯文兵,桂海霞,張順香.  計(jì)算機(jī)應(yīng)用與軟件. 2019(03)
[6]面向文本命名實(shí)體識(shí)別的深層網(wǎng)絡(luò)模型[J]. 李慧林,柴玉梅,孫穆禎.  小型微型計(jì)算機(jī)系統(tǒng). 2019(01)
[7]基于細(xì)粒度詞表示的命名實(shí)體識(shí)別研究[J]. 林廣和,張紹武,林鴻飛.  中文信息學(xué)報(bào). 2018(11)
[8]面向大數(shù)據(jù)實(shí)體識(shí)別的超圖分割算法[J]. 胡志剛,劉佳.  小型微型計(jì)算機(jī)系統(tǒng). 2018(07)
[9]基于隨機(jī)森林的實(shí)體識(shí)別方法[J]. 楊萌,聶鐵錚,申德榮,寇月,于戈.  集成技術(shù). 2018(02)
[10]《工業(yè)物聯(lián)網(wǎng)白皮書》正式發(fā)布[J]. 杜玉河.  起重運(yùn)輸機(jī)械. 2017(10)

博士論文
[1]實(shí)體識(shí)別關(guān)鍵技術(shù)的研究[D]. 黎玲利.哈爾濱工業(yè)大學(xué) 2015

碩士論文
[1]基于超圖聚類的大數(shù)據(jù)實(shí)體識(shí)別算法研究[D]. 莎仁.東北師范大學(xué) 2019
[2]基于半監(jiān)督學(xué)習(xí)的藥品專利實(shí)體識(shí)別及應(yīng)用[D]. 王澤.大連理工大學(xué) 2019



本文編號(hào):3355643

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3355643.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶695d9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本高清二区视频久二区| 九九热九九热九九热九九热| 成人精品视频一区二区在线观看| 日韩精品中文字幕亚洲| 免费高清欧美一区二区视频| 国产亚洲午夜高清国产拍精品| 亚洲欧美天堂精品在线| 99热在线精品视频观看| 极品少妇嫩草视频在线观看| 四十女人口红哪个色好看| 久久99青青精品免费| 日韩精品在线观看完整版| 欧美日韩国内一区二区| 久久精品国产亚洲熟女| 91亚洲熟女少妇在线观看| 欧美韩国日本精品在线| 青青操在线视频精品视频| 日本一区不卡在线观看| 日本一区二区三区黄色| 中文字幕精品人妻一区| 色综合久久中文综合网| 日本女优一区二区三区免费| 午夜精品一区二区三区国产| 久久人人爽人人爽大片av| 欧美激情一区二区亚洲专区| 亚洲人妻av中文字幕| 日韩精品视频高清在线观看| 中文字幕精品少妇人妻| 欧美一级黄片欧美精品| 国产成人精品99在线观看| 亚洲欧美国产精品一区二区| 国产免费黄片一区二区| 中文字幕欧美精品人妻一区| 日韩丝袜诱惑一区二区| 中文字幕久热精品视频在线| 日韩精品一级一区二区| 亚洲国产精品久久琪琪| 午夜色午夜视频之日本| 久久热麻豆国产精品视频| 国产毛片av一区二区三区小说| 亚洲国产精品久久综合网|