基于Web的重復(fù)屬性自動識別方法
本文關(guān)鍵詞:基于Web的重復(fù)屬性自動識別方法
更多相關(guān)文章: 重復(fù)屬性識別 Web搜索 摘要 URL 查詢探針
【摘要】:在建立數(shù)據(jù)倉庫的過程中,需要從多個數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。這些數(shù)據(jù)存在大量相似重復(fù)記錄,嚴(yán)重影響了數(shù)據(jù)利用率和決策質(zhì)量。因此,相似重復(fù)記錄的檢測已經(jīng)成為數(shù)據(jù)倉庫等領(lǐng)域的熱點(diǎn)研究問題,而重復(fù)屬性的識別是完成相似重復(fù)記錄檢測的關(guān)鍵。提出一種高效的基于Web的重復(fù)屬性自動識別算法,該算法使用搜索引擎返回的摘要和URL信息計(jì)算屬性相似度,并使用查詢探針提高查詢準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明該算法有較高的查全率。
【作者單位】: 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 重復(fù)屬性識別 Web搜索 摘要 URL 查詢探針
【基金】:國家“973”重點(diǎn)基礎(chǔ)發(fā)展規(guī)劃基金(No.2012CB316203) 西北工業(yè)大學(xué)研究生種子基金(No.Z2013125,No.Z2013126)
【分類號】:TP311.13
【正文快照】: 1引言在數(shù)據(jù)倉庫、電子出版、數(shù)字圖書館等應(yīng)用中,需要集成來自多個信息源的數(shù)據(jù)[1]。同一個實(shí)體在不同信息源中用不完全相同的記錄來表示,由于它們在格式、拼寫上的差異,導(dǎo)致數(shù)據(jù)集成時不能被正確識別[2]。例如,在數(shù)字圖書館中,兩篇文章記錄在信息集成時除了會議屬性列其他屬
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 齊保元;曹存根;鄭宇飛;岳金朋;;領(lǐng)域知識文檔的語義檢索方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年03期
2 楊先娣;彭智勇;劉君強(qiáng);李旭輝;;信息集成研究綜述[J];計(jì)算機(jī)科學(xué);2006年07期
3 張玉芳;張泓博;熊忠陽;;語義相似度計(jì)算在語義標(biāo)注中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2013年04期
4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報(bào);2002年11期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王恩德;劉暢;;面向?qū)ο蠹夹g(shù)在構(gòu)建數(shù)據(jù)倉庫中的應(yīng)用研究[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2007年05期
2 孫鐵民;于杰;尚程;田大新;張麗華;;基于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)清洗算法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2008年06期
3 齊波;王成良;;現(xiàn)代漢語短語的機(jī)器識別[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年12期
4 周宏廣,周繼承,劉長生;基于策略模式的缺損數(shù)據(jù)處理方法[J];長沙航空職業(yè)技術(shù)學(xué)院學(xué)報(bào);2004年02期
5 占飛;劉挺;;面向英文輔助寫作的詞語相似度應(yīng)用研究[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
6 李志輝;;ETL實(shí)施的數(shù)據(jù)質(zhì)量問題研究[J];電腦知識與技術(shù);2006年26期
7 高軼;;以課程知識點(diǎn)為基礎(chǔ)的專家網(wǎng)絡(luò)考試系統(tǒng)設(shè)計(jì)[J];電腦知識與技術(shù);2011年05期
8 鄧莎莎;梁建利;;基于互聯(lián)網(wǎng)的異構(gòu)數(shù)據(jù)源集成的研究與實(shí)現(xiàn)[J];上海電力學(xué)院學(xué)報(bào);2005年04期
9 張靜;;共享數(shù)據(jù)庫平臺在校務(wù)管理系統(tǒng)中的規(guī)劃與實(shí)施[J];福建電腦;2008年07期
10 張勤慧;吳東洋;徐波;;EAI技術(shù)在數(shù)字化校園建設(shè)中的應(yīng)用研究[J];福建電腦;2011年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 劉琛璽;彭傳薇;;提高醫(yī)療指標(biāo)效能是新形勢下醫(yī)院管理的迫切需要[A];中國醫(yī)院協(xié)會病案管理專業(yè)委員會第十七屆學(xué)術(shù)會議論文集[C];2008年
2 高斯;徐德華;;保險(xiǎn)業(yè)CRM平臺ETL應(yīng)用研究[A];第十屆中國不確定系統(tǒng)年會、第十四屆中國青年信息與管理學(xué)者大會論文集[C];2012年
3 章成志;周冬敏;蘇新寧;;自動標(biāo)引通用評價(jià)模型研究[A];2007年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2007年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對信息檢索質(zhì)量的影響及清洗方法[A];2011年中國索引學(xué)會年會暨成立二十周年慶典論文集[C];2011年
5 陳X;李心科;;基于可擴(kuò)展數(shù)據(jù)清理框架的元數(shù)據(jù)的研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年
6 高建忠;;漢語動賓搭配的自動識別研究[A];自然語言理解與機(jī)器翻譯——全國第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
7 魯松;白碩;;詞距離的計(jì)算方法[A];自然語言理解與機(jī)器翻譯——全國第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
8 羅智勇;宋柔;;相似詞及其在計(jì)算機(jī)輔助校對系統(tǒng)中的應(yīng)用[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
9 宋柔;;自然語言處理中語言知識的基礎(chǔ)性地位[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
10 李曉榮;張偉斌;施伯樂;;一類數(shù)據(jù)實(shí)例質(zhì)量的量化研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉杰;面向數(shù)據(jù)集成的數(shù)據(jù)清理關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2010年
2 高遐;“軍民結(jié)合”戰(zhàn)略實(shí)施的制度環(huán)境與組織變革研究[D];電子科技大學(xué);2011年
3 黃莉;基于語義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學(xué);2011年
4 張崇明;無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)異常檢測和數(shù)據(jù)質(zhì)量問題研究[D];復(fù)旦大學(xué);2010年
5 張楊;語義Web服務(wù)組合的可信性度量研究[D];重慶大學(xué);2011年
6 郭鴻志;多源語義知識庫融合方法研究[D];哈爾濱工業(yè)大學(xué);2011年
7 朱倩;面向自由文本的細(xì)粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D];江蘇大學(xué);2011年
8 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
9 劉勇國;基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測研究[D];重慶大學(xué);2003年
10 許濤;電力系統(tǒng)安全穩(wěn)定的智能挖掘[D];華北電力大學(xué)(北京);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年
2 王君竹;工業(yè)控制數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與開發(fā)[D];大連理工大學(xué);2010年
3 高龍;天津港數(shù)據(jù)集成平臺關(guān)鍵技術(shù)應(yīng)用研究[D];大連海事大學(xué);2010年
4 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學(xué);2010年
5 劉金盼;新聞?wù)Z料庫中基于概念網(wǎng)絡(luò)的詞語相關(guān)度計(jì)算[D];華東師范大學(xué);2011年
6 王英翔;天津港數(shù)據(jù)集成處理平臺的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年
7 牛建平;基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的油田生產(chǎn)決策分析研究[D];電子科技大學(xué);2010年
8 章芝青;基于語義的單文檔自動摘要研究[D];浙江大學(xué);2010年
9 趙俊;ETL在數(shù)據(jù)中心中的設(shè)計(jì)與實(shí)現(xiàn)[D];東華大學(xué);2011年
10 丁方波;自然語言理解中副詞修飾作用的研究及其在產(chǎn)品設(shè)計(jì)領(lǐng)域的應(yīng)用[D];西安電子科技大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 俞榮華;田增平;周傲英;;一種檢測多語言文本相似重復(fù)記錄的綜合方法[J];計(jì)算機(jī)科學(xué);2002年01期
2 熊文新;宋柔;;信息檢索用戶查詢語句的停用詞過濾[J];計(jì)算機(jī)工程;2007年06期
3 邱越峰,田增平,季文,
本文編號:1108036
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1108036.html