大數(shù)據(jù)環(huán)境下Web數(shù)據(jù)源質(zhì)量評估方法研究
本文關(guān)鍵詞: 大數(shù)據(jù) Web數(shù)據(jù)源 數(shù)據(jù)質(zhì)量評估 全樣本分析 MapReduce框架 出處:《計(jì)算機(jī)工程》2017年02期 論文類型:期刊論文
【摘要】:在大數(shù)據(jù)環(huán)境下Web數(shù)據(jù)資源的開放性和多源性使得不同互聯(lián)網(wǎng)平臺提供的數(shù)據(jù)質(zhì)量參差不齊,嚴(yán)重影響人們從互聯(lián)網(wǎng)中有效準(zhǔn)確地獲取信息。為此,提出一種Web數(shù)據(jù)源質(zhì)量評估方法。建立面向多源互聯(lián)網(wǎng)平臺的統(tǒng)一數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)模型,給出針對大數(shù)據(jù)全樣本數(shù)據(jù)分析的質(zhì)量標(biāo)準(zhǔn)度量和表示方法,并通過多維數(shù)據(jù)質(zhì)量的綜合評估實(shí)現(xiàn)Web數(shù)據(jù)源質(zhì)量的統(tǒng)一度量。實(shí)驗(yàn)結(jié)果表明,該方法能全面度量互聯(lián)網(wǎng)平臺的數(shù)據(jù)質(zhì)量,為用戶提供準(zhǔn)確高效的質(zhì)量評價結(jié)果。
[Abstract]:Under the environment of big data, the openness and multi-source of Web data resources make the data quality of different Internet platforms uneven, which seriously affects the effective and accurate access to information from the Internet. This paper presents a Web data source quality evaluation method, establishes a unified data model and a data quality standard model for multi-source Internet platform, and presents the measurement and representation of quality standards for big data's full-sample data analysis. The experimental results show that this method can comprehensively measure the data quality of Internet platform and provide users with accurate and efficient quality evaluation results.
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;紐約州立大學(xué)賓漢姆頓分校計(jì)算機(jī)科學(xué)系;
【基金】:國家自然科學(xué)基金(61502350,61672393,U1536114) 中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(2042014kf0057) 湖北省自然科學(xué)基金(2014CFB289)
【分類號】:TP311.13;TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 余偉;李石君;楊莎;胡亞慧;劉晶;丁永剛;王騫;;Web大數(shù)據(jù)環(huán)境下的不一致跨源數(shù)據(jù)發(fā)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;2015年02期
2 王欣;黃林鵬;章義;徐小輝;陳俊清;;A Solution of Data Inconsistencies in Data Integration——Designed for Pervasive Computing Environment[J];Journal of Computer Science & Technology;2010年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前7條
1 文孟飛;劉偉榮;胡超;;網(wǎng)絡(luò)媒體大數(shù)據(jù)流異構(gòu)多模態(tài)目標(biāo)識別策略[J];計(jì)算機(jī)研究與發(fā)展;2017年01期
2 胡亞慧;楊莎;劉晶;余偉;李石君;王俊;方其慶;;URTP:一種基于用戶-區(qū)域-時間-商品的因子分解推薦模型[J];計(jì)算機(jī)科學(xué);2016年09期
3 張華華;汪文義;;“互聯(lián)網(wǎng)+”測評:自適應(yīng)學(xué)習(xí)之路[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年05期
4 張春生;;大數(shù)據(jù)環(huán)境下相容數(shù)據(jù)集的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘[J];微電子學(xué)與計(jì)算機(jī);2016年08期
5 陳一芳;王順林;;借用數(shù)據(jù)挖掘,謀求智慧物流差異化服務(wù)創(chuàng)新發(fā)展[J];物流科技;2016年04期
6 侯東平;;基于函數(shù)依賴的數(shù)據(jù)一致性檢測方法[J];數(shù)字技術(shù)與應(yīng)用;2016年01期
7 胡亞慧;李石君;余偉;楊莎;甘琳;王凱;方其慶;;大數(shù)據(jù)環(huán)境下的電子商務(wù)商品實(shí)體同一性識別[J];計(jì)算機(jī)研究與發(fā)展;2015年08期
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 程學(xué)旗;靳小龍;王元卓;郭嘉豐;張鐵贏;李國杰;;大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J];軟件學(xué)報(bào);2014年09期
2 慈祥;馬友忠;孟小峰;;一種云環(huán)境下的大數(shù)據(jù)Top-K查詢方法[J];軟件學(xué)報(bào);2014年04期
3 黃冬梅;杜艷玲;賀琪;;混合云存儲中海洋大數(shù)據(jù)遷移算法的研究[J];計(jì)算機(jī)研究與發(fā)展;2014年01期
4 孟小峰;李勇;祝建華;;社會計(jì)算:大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn)[J];計(jì)算機(jī)研究與發(fā)展;2013年12期
5 楊靜;李文平;張健沛;;大數(shù)據(jù)典型相關(guān)分析的云模型方法[J];通信學(xué)報(bào);2013年10期
6 張奧千;宋韶旭;王建民;;基于數(shù)據(jù)質(zhì)量規(guī)則的缺失結(jié)果解釋約減[J];計(jì)算機(jī)研究與發(fā)展;2013年S1期
7 金連;王宏志;黃沈?yàn)I;高宏;;基于Map-Reduce的大數(shù)據(jù)缺失值填充算法[J];計(jì)算機(jī)研究與發(fā)展;2013年S1期
8 宋杰;李甜甜;朱志良;鮑玉斌;于戈;;云數(shù)據(jù)管理系統(tǒng)能耗基準(zhǔn)測試與分析[J];計(jì)算機(jī)學(xué)報(bào);2013年07期
9 王元卓;靳小龍;程學(xué)旗;;網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J];計(jì)算機(jī)學(xué)報(bào);2013年06期
10 李建中;劉顯敏;;大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J];計(jì)算機(jī)研究與發(fā)展;2013年06期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 左建青;王吉芳;徐小力;;虛擬儀器測試系統(tǒng)及其Web數(shù)據(jù)管理研究[J];自動化與儀表;2007年06期
2 耿建勇,魯士文;微軟.NET框架下提取在線Web數(shù)據(jù)的方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2004年04期
3 楊競菁;利用XML和ASP技術(shù)進(jìn)行Web數(shù)據(jù)動態(tài)顯示[J];福建電腦;2004年09期
4 王昭義;劉斌;蔡瑞英;;Web數(shù)據(jù)倉庫及其在辦公自動化系統(tǒng)中的應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年02期
5 王楠;;一種實(shí)現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報(bào);2010年03期
6 石翌軼;宋自林;尹康銀;;一種基于語義的Web數(shù)據(jù)搜索引擎方法研究[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
7 張永新;;基于Asp的Web數(shù)據(jù)有序輸出算法研究[J];中國科技信息;2007年01期
8 陳恩紅;徐涌;王煦法;;Web使用挖掘:從Web數(shù)據(jù)中發(fā)現(xiàn)用戶使用模式[J];計(jì)算機(jī)科學(xué);2001年05期
9 齊金剛;李滔;李晉軍;;Django框架Web數(shù)據(jù)查詢分頁技術(shù)研究[J];電子設(shè)計(jì)工程;2014年05期
10 安寧輝;;一種基于ADO Recordset技術(shù)的Web數(shù)據(jù)分頁方法的改進(jìn)[J];計(jì)算機(jī)時代;2007年03期
相關(guān)會議論文 前1條
1 胡東東;孟小峰;;一種基于樹結(jié)構(gòu)的Web數(shù)據(jù)自動抽取方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2004年
相關(guān)碩士學(xué)位論文 前3條
1 房小敏;基于Web數(shù)據(jù)的中小學(xué)網(wǎng)絡(luò)教學(xué)資源建設(shè)現(xiàn)狀調(diào)查[D];南京師范大學(xué);2016年
2 羅陽;基于Web數(shù)據(jù)的雙語資源挖掘技術(shù)研究[D];沈陽航空航天大學(xué);2011年
3 焦曉龍;基于Web數(shù)據(jù)表抽取的領(lǐng)域本體構(gòu)建方法研究[D];東北大學(xué);2012年
,本文編號:1537282
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1537282.html