實體解析技術(shù)研究與應用
發(fā)布時間:2017-05-09 06:04
本文關(guān)鍵詞:實體解析技術(shù)研究與應用,由筆耕文化傳播整理發(fā)布。
【摘要】:傳統(tǒng)的實體解析是指,給定一個或多個描述現(xiàn)實世界的引用集合,識別其中對應于現(xiàn)實世界中同一實體的所有引用的過程。實體解析是數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)挖掘等技術(shù)中關(guān)鍵的一步,是數(shù)據(jù)質(zhì)量的保障。對于實體解析相關(guān)課題的研究其實早已起步,而由于近幾年網(wǎng)絡的迅速普及和數(shù)據(jù)規(guī)模的爆炸性增長,如何在海量數(shù)據(jù)中準確獲取所需的信息,如何消除相似數(shù)據(jù)的歧義,如何檢測出數(shù)據(jù)中的錯誤信息等已成為在生活生產(chǎn)中亟待解決的關(guān)鍵問題,實體解析也因此成為近幾年熱門的研究課題。隨著研究的深入,已經(jīng)有不少的研究成果被應用于各個領(lǐng)域,包括保險、銀行、醫(yī)療等。論文中介紹了實體解析含義,背景起源,以及算法基礎(chǔ)。列舉并解釋了實體解析發(fā)展過程中的經(jīng)典算法包括成對實體解析,集合實體解析,大數(shù)據(jù)的實體解析等,以及它們的特點和局限性,分享了在新的應用環(huán)境下衍生出來的針對不同需求的新的實體解析算法。由于電子商務的興起,對網(wǎng)絡產(chǎn)品的精確識別成了亟待解決的具有極高應用價值的課題。網(wǎng)絡數(shù)據(jù)具有無標準,無結(jié)構(gòu)的特性,這與傳統(tǒng)的實體解析問題的應用背景不同,是新的挑戰(zhàn)同時也是新的機遇,論文將對網(wǎng)絡產(chǎn)品的識別進行重點研究--分析現(xiàn)有的幾種識別算法,包括WHIRL和TMWM算法,并進行實驗分析比較,同時進行改進,加入更多的識別信息,如產(chǎn)品的屬性,然后提出了SSM算法,提高了產(chǎn)品識別的精度和準度,并從字符串相似度緩存,約束知識庫和分塊策略三個方面對SSM算法進行優(yōu)化,提高了算法的運行速度。
【關(guān)鍵詞】:實體解析 記錄鏈接 集合數(shù)據(jù) 復雜數(shù)據(jù) 大數(shù)據(jù) 網(wǎng)絡產(chǎn)品解析
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要3-4
- Abstract4-6
- 第一章 緒論6-9
- 1.1 引言6-7
- 1.2 研究背景7-8
- 1.3 論文的研究內(nèi)容與章節(jié)安排8-9
- 第二章 實體解析相關(guān)算法研究9-29
- 2.1 引言9-10
- 2.2 實體解析算法基礎(chǔ)10
- 2.3 結(jié)構(gòu)化數(shù)據(jù)實體解析算法10-28
- 2.4 本章小結(jié)28-29
- 第三章 網(wǎng)絡產(chǎn)品解析29-48
- 3.1 引言29-30
- 3.2 WHIRL算法30-31
- 3.3 TMWM算法31-36
- 3.4 層次聚類算法36-43
- 3.5 算法評估43-47
- 3.6 本章小結(jié)47-48
- 第四章 綜合相似度算法48-54
- 4.1 引言48-49
- 4.2 綜合相似度算法49-52
- 4.3 算法評估52-53
- 4.4 本章小結(jié)53-54
- 第五章 算法的性能優(yōu)化54-64
- 5.0 引言54
- 5.1 字符串預處理54-55
- 5.2 添加約束55-57
- 5.3 針對大數(shù)據(jù)的分塊策略57-63
- 5.4 本章小結(jié)63-64
- 第六章 總結(jié)與展望64-65
- 致謝65-66
- 參考文獻66-69
- 上海交通大學碩士學位論文答辯決議書69-71
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 劉駿豪;孫晶瑩;;2011年德國人口普查中的新技術(shù)——記錄鏈接[J];中國統(tǒng)計;2011年11期
2 王穎穎;黃杜英;許多頂;;向量空間中基于隱私保護的記錄鏈接協(xié)議[J];現(xiàn)代電子技術(shù);2009年14期
本文關(guān)鍵詞:實體解析技術(shù)研究與應用,,由筆耕文化傳播整理發(fā)布。
本文編號:351933
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/351933.html
最近更新
教材專著