基于Web的重復(fù)屬性自動(dòng)識(shí)別方法
本文關(guān)鍵詞:基于Web的重復(fù)屬性自動(dòng)識(shí)別方法
更多相關(guān)文章: 重復(fù)屬性識(shí)別 Web搜索 摘要 URL 查詢探針
【摘要】:在建立數(shù)據(jù)倉(cāng)庫的過程中,需要從多個(gè)數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。這些數(shù)據(jù)存在大量相似重復(fù)記錄,嚴(yán)重影響了數(shù)據(jù)利用率和決策質(zhì)量。因此,相似重復(fù)記錄的檢測(cè)已經(jīng)成為數(shù)據(jù)倉(cāng)庫等領(lǐng)域的熱點(diǎn)研究問題,而重復(fù)屬性的識(shí)別是完成相似重復(fù)記錄檢測(cè)的關(guān)鍵。提出一種高效的基于Web的重復(fù)屬性自動(dòng)識(shí)別算法,該算法使用搜索引擎返回的摘要和URL信息計(jì)算屬性相似度,并使用查詢探針提高查詢準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明該算法有較高的查全率。
【作者單位】: 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 重復(fù)屬性識(shí)別 Web搜索 摘要 URL 查詢探針
【基金】:國(guó)家“973”重點(diǎn)基礎(chǔ)發(fā)展規(guī)劃基金(No.2012CB316203) 西北工業(yè)大學(xué)研究生種子基金(No.Z2013125,No.Z2013126)
【分類號(hào)】:TP311.13
【正文快照】: 1引言在數(shù)據(jù)倉(cāng)庫、電子出版、數(shù)字圖書館等應(yīng)用中,需要集成來自多個(gè)信息源的數(shù)據(jù)[1]。同一個(gè)實(shí)體在不同信息源中用不完全相同的記錄來表示,由于它們?cè)诟袷健⑵磳懮系牟町?導(dǎo)致數(shù)據(jù)集成時(shí)不能被正確識(shí)別[2]。例如,在數(shù)字圖書館中,兩篇文章記錄在信息集成時(shí)除了會(huì)議屬性列其他屬
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前4條
1 齊保元;曹存根;鄭宇飛;岳金朋;;領(lǐng)域知識(shí)文檔的語義檢索方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年03期
2 楊先娣;彭智勇;劉君強(qiáng);李旭輝;;信息集成研究綜述[J];計(jì)算機(jī)科學(xué);2006年07期
3 張玉芳;張泓博;熊忠陽;;語義相似度計(jì)算在語義標(biāo)注中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2013年04期
4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報(bào);2002年11期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 王恩德;劉暢;;面向?qū)ο蠹夹g(shù)在構(gòu)建數(shù)據(jù)倉(cāng)庫中的應(yīng)用研究[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2007年05期
2 孫鐵民;于杰;尚程;田大新;張麗華;;基于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)清洗算法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2008年06期
3 齊波;王成良;;現(xiàn)代漢語短語的機(jī)器識(shí)別[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年12期
4 周宏廣,周繼承,劉長(zhǎng)生;基于策略模式的缺損數(shù)據(jù)處理方法[J];長(zhǎng)沙航空職業(yè)技術(shù)學(xué)院學(xué)報(bào);2004年02期
5 占飛;劉挺;;面向英文輔助寫作的詞語相似度應(yīng)用研究[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
6 李志輝;;ETL實(shí)施的數(shù)據(jù)質(zhì)量問題研究[J];電腦知識(shí)與技術(shù);2006年26期
7 高軼;;以課程知識(shí)點(diǎn)為基礎(chǔ)的專家網(wǎng)絡(luò)考試系統(tǒng)設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2011年05期
8 鄧莎莎;梁建利;;基于互聯(lián)網(wǎng)的異構(gòu)數(shù)據(jù)源集成的研究與實(shí)現(xiàn)[J];上海電力學(xué)院學(xué)報(bào);2005年04期
9 張靜;;共享數(shù)據(jù)庫平臺(tái)在校務(wù)管理系統(tǒng)中的規(guī)劃與實(shí)施[J];福建電腦;2008年07期
10 張勤慧;吳東洋;徐波;;EAI技術(shù)在數(shù)字化校園建設(shè)中的應(yīng)用研究[J];福建電腦;2011年12期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 劉琛璽;彭傳薇;;提高醫(yī)療指標(biāo)效能是新形勢(shì)下醫(yī)院管理的迫切需要[A];中國(guó)醫(yī)院協(xié)會(huì)病案管理專業(yè)委員會(huì)第十七屆學(xué)術(shù)會(huì)議論文集[C];2008年
2 高斯;徐德華;;保險(xiǎn)業(yè)CRM平臺(tái)ETL應(yīng)用研究[A];第十屆中國(guó)不確定系統(tǒng)年會(huì)、第十四屆中國(guó)青年信息與管理學(xué)者大會(huì)論文集[C];2012年
3 章成志;周冬敏;蘇新寧;;自動(dòng)標(biāo)引通用評(píng)價(jià)模型研究[A];2007年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2007年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對(duì)信息檢索質(zhì)量的影響及清洗方法[A];2011年中國(guó)索引學(xué)會(huì)年會(huì)暨成立二十周年慶典論文集[C];2011年
5 陳X;李心科;;基于可擴(kuò)展數(shù)據(jù)清理框架的元數(shù)據(jù)的研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
6 高建忠;;漢語動(dòng)賓搭配的自動(dòng)識(shí)別研究[A];自然語言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
7 魯松;白碩;;詞距離的計(jì)算方法[A];自然語言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
8 羅智勇;宋柔;;相似詞及其在計(jì)算機(jī)輔助校對(duì)系統(tǒng)中的應(yīng)用[A];全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
9 宋柔;;自然語言處理中語言知識(shí)的基礎(chǔ)性地位[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
10 李曉榮;張偉斌;施伯樂;;一類數(shù)據(jù)實(shí)例質(zhì)量的量化研究[A];第二十屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉杰;面向數(shù)據(jù)集成的數(shù)據(jù)清理關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
2 高遐;“軍民結(jié)合”戰(zhàn)略實(shí)施的制度環(huán)境與組織變革研究[D];電子科技大學(xué);2011年
3 黃莉;基于語義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學(xué);2011年
4 張崇明;無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)異常檢測(cè)和數(shù)據(jù)質(zhì)量問題研究[D];復(fù)旦大學(xué);2010年
5 張楊;語義Web服務(wù)組合的可信性度量研究[D];重慶大學(xué);2011年
6 郭鴻志;多源語義知識(shí)庫融合方法研究[D];哈爾濱工業(yè)大學(xué);2011年
7 朱倩;面向自由文本的細(xì)粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D];江蘇大學(xué);2011年
8 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
9 劉勇國(guó);基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)研究[D];重慶大學(xué);2003年
10 許濤;電力系統(tǒng)安全穩(wěn)定的智能挖掘[D];華北電力大學(xué)(北京);2004年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年
2 王君竹;工業(yè)控制數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與開發(fā)[D];大連理工大學(xué);2010年
3 高龍;天津港數(shù)據(jù)集成平臺(tái)關(guān)鍵技術(shù)應(yīng)用研究[D];大連海事大學(xué);2010年
4 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學(xué);2010年
5 劉金盼;新聞?wù)Z料庫中基于概念網(wǎng)絡(luò)的詞語相關(guān)度計(jì)算[D];華東師范大學(xué);2011年
6 王英翔;天津港數(shù)據(jù)集成處理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年
7 牛建平;基于數(shù)據(jù)倉(cāng)庫和數(shù)據(jù)挖掘技術(shù)的油田生產(chǎn)決策分析研究[D];電子科技大學(xué);2010年
8 章芝青;基于語義的單文檔自動(dòng)摘要研究[D];浙江大學(xué);2010年
9 趙俊;ETL在數(shù)據(jù)中心中的設(shè)計(jì)與實(shí)現(xiàn)[D];東華大學(xué);2011年
10 丁方波;自然語言理解中副詞修飾作用的研究及其在產(chǎn)品設(shè)計(jì)領(lǐng)域的應(yīng)用[D];西安電子科技大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前8條
1 俞榮華;田增平;周傲英;;一種檢測(cè)多語言文本相似重復(fù)記錄的綜合方法[J];計(jì)算機(jī)科學(xué);2002年01期
2 熊文新;宋柔;;信息檢索用戶查詢語句的停用詞過濾[J];計(jì)算機(jī)工程;2007年06期
3 邱越峰,田增平,季文,
本文編號(hào):1108036
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1108036.html