天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多索引的實(shí)時(shí)實(shí)體解析與關(guān)鍵詞查詢處理

發(fā)布時(shí)間:2021-01-27 13:50
  傳統(tǒng)的關(guān)鍵詞Top-N查詢技術(shù)大多基于干凈數(shù)據(jù)集,難以直接用于臟數(shù)據(jù)集。臟數(shù)據(jù)集中可能存在大量包含拼寫(xiě)錯(cuò)誤、空值或重復(fù)的記錄,直接查詢難以得到可靠的結(jié)果,從而影響后續(xù)決策分析的準(zhǔn)確性甚至得到錯(cuò)誤的結(jié)論。傳統(tǒng)實(shí)體解析技術(shù)識(shí)別與合并臟數(shù)據(jù)集中的重復(fù)記錄,從而得到一個(gè)干凈數(shù)據(jù)集,但是其耗時(shí)大且難以直接與查詢算法相結(jié)合,所以有必要研究實(shí)時(shí)實(shí)體解析技術(shù)并且設(shè)計(jì)有效的分塊索引和算法,使其可以在亞秒級(jí)時(shí)間內(nèi)完成一條記錄的解析。針對(duì)包含重復(fù)、拼寫(xiě)錯(cuò)誤或空值等類(lèi)型的臟數(shù)據(jù),本文研究實(shí)時(shí)實(shí)體解析和關(guān)鍵詞Top-N查詢技術(shù)。本文的主要工作包括:(1)針對(duì)數(shù)據(jù)集中的多個(gè)屬性建立多個(gè)索引,每個(gè)索引根據(jù)相應(yīng)屬性值的特征使用不同的索引結(jié)構(gòu),包括哈希索引、跳躍表索引以及B+樹(shù)索引等,用來(lái)對(duì)數(shù)據(jù)集進(jìn)行劃分;诙鄠(gè)索引構(gòu)成全局索引來(lái)協(xié)同檢索候選元組。(2)設(shè)計(jì)基于多索引的實(shí)時(shí)實(shí)體解析相應(yīng)的排序函數(shù)與算法。排序函數(shù)以編輯距離為基礎(chǔ),利用元組間相同屬性值的數(shù)目以及屬性值長(zhǎng)度等因素來(lái)判斷兩元組是否指向同一實(shí)體。所設(shè)計(jì)的算法通過(guò)對(duì)數(shù)據(jù)集進(jìn)行分塊,減少候選元組的數(shù)目,從而提高實(shí)體解析效率。同時(shí)避免不必要的計(jì)... 

【文章來(lái)源】:河北大學(xué)河北省

【文章頁(yè)數(shù)】:95 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于多索引的實(shí)時(shí)實(shí)體解析與關(guān)鍵詞查詢處理


距離矩陣初始化過(guò)程

過(guò)程圖,距離矩陣,編輯距離,過(guò)程


河北大學(xué)碩士學(xué)位論文12(4)A與B均不為空字符串,且A與B最后一位不同,那么其編輯距離為min(d[|A|-1][|B|]+1,d[|A|][|B|-1]+1,d[|A|-1][|B|-1]+1)。由以上分析可以得到動(dòng)態(tài)規(guī)劃方程,如下所示:[][]={(,),(,)=0([1][]+1,[][1]+1,[1][1]+),其他(2.4)當(dāng)字符串A中的第i個(gè)字符與字符串B中的第j個(gè)字符不同時(shí),flag取值為1;否則,flag取0值。以計(jì)算字符串“ppt”與“cpp”為例,其計(jì)算過(guò)程如下:(1)首先,初始化距離矩陣d[][],對(duì)所有滿足min(i,j)=0條件的位置賦予初始值max(i,j),如下圖所示:(a)原始距離矩陣(b)初始化后的距離矩陣圖2-1距離矩陣初始化過(guò)程(2)隨后,按照min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+flag)推導(dǎo)出矩陣其他位置的值,流程如下所示:圖2-2通過(guò)距離矩陣計(jì)算編輯距離的過(guò)程(3)最后,根據(jù)矩陣即可得出字符串“ppt”與“cpp”的編輯距離為d[3][3]=2。

【參考文獻(xiàn)】:
期刊論文
[1]情境相關(guān)的室內(nèi)空間群組Top-k查詢[J]. 李敬雯,盧明許,劉彬彬.  計(jì)算技術(shù)與自動(dòng)化. 2019(04)
[2]時(shí)間約束的實(shí)體解析中記錄對(duì)排序研究[J]. 孫琛琛,申德榮,李玉坤,肖迎元,馬建紅.  軟件學(xué)報(bào). 2020(03)
[3]Hash索引算法綜述[J]. 顏文,陳征.  無(wú)線通信技術(shù). 2019(02)
[4]實(shí)體解析中基于相似性傳遞的增量分組研究[J]. 高廣尚.  系統(tǒng)工程理論與實(shí)踐. 2019(05)
[5]關(guān)于實(shí)體解析基本方法的研究和述評(píng)[J]. 高廣尚.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(05)
[6]大規(guī)模圖上的SimRank計(jì)算研究綜述[J]. 張良富,李翠平,陳紅.  計(jì)算機(jī)學(xué)報(bào). 2019(12)
[7]基于關(guān)鍵字密度的XML關(guān)鍵字檢索[J]. 覃遵躍,湯庸,徐洪智,黃云.  軟件學(xué)報(bào). 2019(04)
[8]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源.  情報(bào)科學(xué). 2019(03)
[9]WDS:基于詞向量的文本相似函數(shù)[J]. 王路琪,龍軍,袁鑫攀.  計(jì)算機(jī)科學(xué). 2018(S2)
[10]面向?qū)嶓w解析的無(wú)監(jiān)督聚類(lèi)方法綜述[J]. 高廣尚.  計(jì)算機(jī)工程與應(yīng)用. 2018(07)

碩士論文
[1]基于實(shí)時(shí)實(shí)體解析的關(guān)鍵詞查詢處理[D]. 杜旭.河北大學(xué) 2018



本文編號(hào):3003157

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3003157.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d6f88***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲欧美日韩综合在线成成| 亚洲中文字幕免费人妻| 中文字幕一区二区久久综合| 91亚洲国产日韩在线| 九七人妻一区二区三区| 久热在线视频这里只有精品| 国产成人午夜av一区二区| 国产精品亚洲综合色区韩国| 欧美国产日韩在线综合| 亚洲一区二区三区三州| 日韩不卡一区二区在线| 国产精品福利精品福利| 五月的丁香婷婷综合网| 日本免费一区二区三女| 欧美中文字幕一区在线| 人妻少妇系列中文字幕| 日韩精品区欧美在线一区| 亚洲精选91福利在线观看| 国产一区二区三区香蕉av| 日本东京热加勒比一区二区| 少妇人妻无一区二区三区| 91后入中出内射在线| 亚洲精品日韩欧美精品| av中文字幕一区二区三区在线 | 国产亚洲不卡一区二区| 99精品国产自在现线观看| 亚洲中文字幕亲近伦片| 在线免费不卡亚洲国产| 亚洲香艳网久久五月婷婷| 亚洲中文字幕在线综合视频| 男女午夜视频在线观看免费| 美日韩一区二区精品系列| 黄色片国产一区二区三区| 亚洲婷婷开心色四房播播| 成人午夜激情免费在线| 欧美精品二区中文乱码字幕高清| 日韩亚洲精品国产第二页| 日本东京热视频一区二区三区| 久久精品免费视看国产成人| 亚洲香艳网久久五月婷婷| 国产麻豆视频一二三区|