基于多索引的實(shí)時(shí)實(shí)體解析與關(guān)鍵詞查詢處理
發(fā)布時(shí)間:2021-01-27 13:50
傳統(tǒng)的關(guān)鍵詞Top-N查詢技術(shù)大多基于干凈數(shù)據(jù)集,難以直接用于臟數(shù)據(jù)集。臟數(shù)據(jù)集中可能存在大量包含拼寫(xiě)錯(cuò)誤、空值或重復(fù)的記錄,直接查詢難以得到可靠的結(jié)果,從而影響后續(xù)決策分析的準(zhǔn)確性甚至得到錯(cuò)誤的結(jié)論。傳統(tǒng)實(shí)體解析技術(shù)識(shí)別與合并臟數(shù)據(jù)集中的重復(fù)記錄,從而得到一個(gè)干凈數(shù)據(jù)集,但是其耗時(shí)大且難以直接與查詢算法相結(jié)合,所以有必要研究實(shí)時(shí)實(shí)體解析技術(shù)并且設(shè)計(jì)有效的分塊索引和算法,使其可以在亞秒級(jí)時(shí)間內(nèi)完成一條記錄的解析。針對(duì)包含重復(fù)、拼寫(xiě)錯(cuò)誤或空值等類(lèi)型的臟數(shù)據(jù),本文研究實(shí)時(shí)實(shí)體解析和關(guān)鍵詞Top-N查詢技術(shù)。本文的主要工作包括:(1)針對(duì)數(shù)據(jù)集中的多個(gè)屬性建立多個(gè)索引,每個(gè)索引根據(jù)相應(yīng)屬性值的特征使用不同的索引結(jié)構(gòu),包括哈希索引、跳躍表索引以及B+樹(shù)索引等,用來(lái)對(duì)數(shù)據(jù)集進(jìn)行劃分;诙鄠(gè)索引構(gòu)成全局索引來(lái)協(xié)同檢索候選元組。(2)設(shè)計(jì)基于多索引的實(shí)時(shí)實(shí)體解析相應(yīng)的排序函數(shù)與算法。排序函數(shù)以編輯距離為基礎(chǔ),利用元組間相同屬性值的數(shù)目以及屬性值長(zhǎng)度等因素來(lái)判斷兩元組是否指向同一實(shí)體。所設(shè)計(jì)的算法通過(guò)對(duì)數(shù)據(jù)集進(jìn)行分塊,減少候選元組的數(shù)目,從而提高實(shí)體解析效率。同時(shí)避免不必要的計(jì)...
【文章來(lái)源】:河北大學(xué)河北省
【文章頁(yè)數(shù)】:95 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
距離矩陣初始化過(guò)程
河北大學(xué)碩士學(xué)位論文12(4)A與B均不為空字符串,且A與B最后一位不同,那么其編輯距離為min(d[|A|-1][|B|]+1,d[|A|][|B|-1]+1,d[|A|-1][|B|-1]+1)。由以上分析可以得到動(dòng)態(tài)規(guī)劃方程,如下所示:[][]={(,),(,)=0([1][]+1,[][1]+1,[1][1]+),其他(2.4)當(dāng)字符串A中的第i個(gè)字符與字符串B中的第j個(gè)字符不同時(shí),flag取值為1;否則,flag取0值。以計(jì)算字符串“ppt”與“cpp”為例,其計(jì)算過(guò)程如下:(1)首先,初始化距離矩陣d[][],對(duì)所有滿足min(i,j)=0條件的位置賦予初始值max(i,j),如下圖所示:(a)原始距離矩陣(b)初始化后的距離矩陣圖2-1距離矩陣初始化過(guò)程(2)隨后,按照min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+flag)推導(dǎo)出矩陣其他位置的值,流程如下所示:圖2-2通過(guò)距離矩陣計(jì)算編輯距離的過(guò)程(3)最后,根據(jù)矩陣即可得出字符串“ppt”與“cpp”的編輯距離為d[3][3]=2。
【參考文獻(xiàn)】:
期刊論文
[1]情境相關(guān)的室內(nèi)空間群組Top-k查詢[J]. 李敬雯,盧明許,劉彬彬. 計(jì)算技術(shù)與自動(dòng)化. 2019(04)
[2]時(shí)間約束的實(shí)體解析中記錄對(duì)排序研究[J]. 孫琛琛,申德榮,李玉坤,肖迎元,馬建紅. 軟件學(xué)報(bào). 2020(03)
[3]Hash索引算法綜述[J]. 顏文,陳征. 無(wú)線通信技術(shù). 2019(02)
[4]實(shí)體解析中基于相似性傳遞的增量分組研究[J]. 高廣尚. 系統(tǒng)工程理論與實(shí)踐. 2019(05)
[5]關(guān)于實(shí)體解析基本方法的研究和述評(píng)[J]. 高廣尚. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(05)
[6]大規(guī)模圖上的SimRank計(jì)算研究綜述[J]. 張良富,李翠平,陳紅. 計(jì)算機(jī)學(xué)報(bào). 2019(12)
[7]基于關(guān)鍵字密度的XML關(guān)鍵字檢索[J]. 覃遵躍,湯庸,徐洪智,黃云. 軟件學(xué)報(bào). 2019(04)
[8]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報(bào)科學(xué). 2019(03)
[9]WDS:基于詞向量的文本相似函數(shù)[J]. 王路琪,龍軍,袁鑫攀. 計(jì)算機(jī)科學(xué). 2018(S2)
[10]面向?qū)嶓w解析的無(wú)監(jiān)督聚類(lèi)方法綜述[J]. 高廣尚. 計(jì)算機(jī)工程與應(yīng)用. 2018(07)
碩士論文
[1]基于實(shí)時(shí)實(shí)體解析的關(guān)鍵詞查詢處理[D]. 杜旭.河北大學(xué) 2018
本文編號(hào):3003157
【文章來(lái)源】:河北大學(xué)河北省
【文章頁(yè)數(shù)】:95 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
距離矩陣初始化過(guò)程
河北大學(xué)碩士學(xué)位論文12(4)A與B均不為空字符串,且A與B最后一位不同,那么其編輯距離為min(d[|A|-1][|B|]+1,d[|A|][|B|-1]+1,d[|A|-1][|B|-1]+1)。由以上分析可以得到動(dòng)態(tài)規(guī)劃方程,如下所示:[][]={(,),(,)=0([1][]+1,[][1]+1,[1][1]+),其他(2.4)當(dāng)字符串A中的第i個(gè)字符與字符串B中的第j個(gè)字符不同時(shí),flag取值為1;否則,flag取0值。以計(jì)算字符串“ppt”與“cpp”為例,其計(jì)算過(guò)程如下:(1)首先,初始化距離矩陣d[][],對(duì)所有滿足min(i,j)=0條件的位置賦予初始值max(i,j),如下圖所示:(a)原始距離矩陣(b)初始化后的距離矩陣圖2-1距離矩陣初始化過(guò)程(2)隨后,按照min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+flag)推導(dǎo)出矩陣其他位置的值,流程如下所示:圖2-2通過(guò)距離矩陣計(jì)算編輯距離的過(guò)程(3)最后,根據(jù)矩陣即可得出字符串“ppt”與“cpp”的編輯距離為d[3][3]=2。
【參考文獻(xiàn)】:
期刊論文
[1]情境相關(guān)的室內(nèi)空間群組Top-k查詢[J]. 李敬雯,盧明許,劉彬彬. 計(jì)算技術(shù)與自動(dòng)化. 2019(04)
[2]時(shí)間約束的實(shí)體解析中記錄對(duì)排序研究[J]. 孫琛琛,申德榮,李玉坤,肖迎元,馬建紅. 軟件學(xué)報(bào). 2020(03)
[3]Hash索引算法綜述[J]. 顏文,陳征. 無(wú)線通信技術(shù). 2019(02)
[4]實(shí)體解析中基于相似性傳遞的增量分組研究[J]. 高廣尚. 系統(tǒng)工程理論與實(shí)踐. 2019(05)
[5]關(guān)于實(shí)體解析基本方法的研究和述評(píng)[J]. 高廣尚. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(05)
[6]大規(guī)模圖上的SimRank計(jì)算研究綜述[J]. 張良富,李翠平,陳紅. 計(jì)算機(jī)學(xué)報(bào). 2019(12)
[7]基于關(guān)鍵字密度的XML關(guān)鍵字檢索[J]. 覃遵躍,湯庸,徐洪智,黃云. 軟件學(xué)報(bào). 2019(04)
[8]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報(bào)科學(xué). 2019(03)
[9]WDS:基于詞向量的文本相似函數(shù)[J]. 王路琪,龍軍,袁鑫攀. 計(jì)算機(jī)科學(xué). 2018(S2)
[10]面向?qū)嶓w解析的無(wú)監(jiān)督聚類(lèi)方法綜述[J]. 高廣尚. 計(jì)算機(jī)工程與應(yīng)用. 2018(07)
碩士論文
[1]基于實(shí)時(shí)實(shí)體解析的關(guān)鍵詞查詢處理[D]. 杜旭.河北大學(xué) 2018
本文編號(hào):3003157
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3003157.html
最近更新
教材專(zhuān)著