互聯(lián)網(wǎng)商品匹配算法
發(fā)布時間:2019-09-18 00:05
【摘要】:實體解析是指識別同一實體的不同描述形式的過程,旨在保障數(shù)據(jù)質(zhì)量,是數(shù)據(jù)清理、數(shù)據(jù)集成及數(shù)據(jù)挖掘中的關(guān)鍵技術(shù).隨著電子商務(wù)的不斷發(fā)展和成熟,商品的多樣性和消費者靈活的購買方式,使得對網(wǎng)絡(luò)商品的精確識別和匹配成為大數(shù)據(jù)時代亟待解決的問題.與傳統(tǒng)實體解析主要針對結(jié)構(gòu)化數(shù)據(jù)不同,網(wǎng)絡(luò)數(shù)據(jù)具有非結(jié)構(gòu)化、異構(gòu)和海量的特性,為此設(shè)計了綜合相似度算法(synthesized similarity method,SSM)來計算網(wǎng)絡(luò)商品數(shù)據(jù)間的相似度,同時引入凝聚的層次聚類框架,以匹配來自不同數(shù)據(jù)源的異構(gòu)商品.此外,為了解決大數(shù)據(jù)環(huán)境下對執(zhí)行效率的要求,從字符串相似度緩存、約束知識庫和分塊策略三個方面對SSM進(jìn)行優(yōu)化,基于真實數(shù)據(jù)集的實驗結(jié)果驗證了SSM的執(zhí)行效率和有效性.
【作者單位】: 上海交通大學(xué)電子信息與電氣工程學(xué)院;南通大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(61272438,61472253,61300167) 上海市科委資助項目(15411952502,14511107702)
【分類號】:TP391.41
,
本文編號:2537164
【作者單位】: 上海交通大學(xué)電子信息與電氣工程學(xué)院;南通大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(61272438,61472253,61300167) 上海市科委資助項目(15411952502,14511107702)
【分類號】:TP391.41
,
本文編號:2537164
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2537164.html
最近更新
教材專著