基于層次語(yǔ)義的Web服裝圖像智能采集方法
發(fā)布時(shí)間:2021-11-24 07:08
以大規(guī)模智能采集互聯(lián)網(wǎng)中的服裝圖像為目的,研究如何利用互聯(lián)網(wǎng)上服裝圖像的伴隨文本與服裝圖像概念之間的關(guān)聯(lián),實(shí)現(xiàn)自動(dòng)采集各語(yǔ)義對(duì)應(yīng)的服裝圖像。在HITS(Hyperlink-Induced Topic Search)算法的基礎(chǔ)上提出一個(gè)基于層次語(yǔ)義的圖像采集算法SICR(Semantic-based Image Collection Robot)。該算法在層次語(yǔ)義庫(kù)的支持下,擴(kuò)充根集與去除鏈接工廠頁(yè)面同步進(jìn)行。在爬取鏈接網(wǎng)頁(yè)前,進(jìn)行錨文字的相似度計(jì)算和頁(yè)面內(nèi)容的概念分析,舍棄不符合語(yǔ)義的頁(yè)面,只下載滿足語(yǔ)義的服裝圖像。算法克服了基于文本分析或鏈接分析的圖像自動(dòng)提取算法的不足,具有較高的準(zhǔn)確率和召回率,實(shí)驗(yàn)結(jié)果證明了SICR算法的有效性。
【文章來(lái)源】:計(jì)算機(jī)科學(xué). 2016,43(S2)北大核心CSCD
【文章頁(yè)數(shù)】:4 頁(yè)
【部分圖文】:
圖2SICR算法流程圖實(shí)驗(yàn)及分析
:2377-2380[24]萬(wàn)玉釵,劉峽壁,韓菲霏,等.用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法[J].自動(dòng)化學(xué)報(bào),2014,40(8):1699-1708[25]ZhouN,FanJ.Automaticimage-textalignmentforlarge-scaleWebimageindexingandretrieval[J].PatternRecognition,2015,48(1):205-219(上接第241頁(yè))圖5壓縮后圖像的灰度圖圖4為原始圖像的灰度圖,圖5為圖像壓縮后的灰度圖?梢钥闯觯c圖4相比,圖5具有較少的信息,可以得到更均勻的圖像,壓縮后圖像的效果比較理想。結(jié)束語(yǔ)本文主要研究了利用DCT技術(shù)對(duì)圖像進(jìn)行壓縮,通過Matlab仿真分析了利用DCT技術(shù)進(jìn)行圖像的壓縮的優(yōu)點(diǎn)。隨著網(wǎng)絡(luò)媒體的發(fā)展,圖像壓縮技術(shù)將進(jìn)入快速發(fā)展時(shí)代,尤其是圖像壓縮標(biāo)準(zhǔn)的建立使它進(jìn)入實(shí)用化和產(chǎn)業(yè)化。使用DCT進(jìn)行圖像壓縮具有更高的性能,并且它易于實(shí)現(xiàn)。DCT具有算法簡(jiǎn)單、易于硬件實(shí)現(xiàn)等優(yōu)點(diǎn),從而廣泛應(yīng)用于圖像壓縮領(lǐng)域,尤其在較高比特率的傳輸條件下能取得令人滿意的壓縮效果。然而,它在低比特率條件下的“方塊效應(yīng)”成了不容忽視的“瓶頸”缺陷,其原因在于DCT處理圖像時(shí)是分塊進(jìn)行的,塊與塊邊界兩邊的像素相關(guān)性不能去掉,從而形成了明顯的方塊邊界。若將DCT變換與其它編碼方法(如小波變換、分形等)相結(jié)合將得到更好的效果。參考文獻(xiàn)[1]張愛華,江中勤,張華.基于粒子群優(yōu)化算法的分形圖像壓縮編碼[J].計(jì)算機(jī)技
。(3)在擴(kuò)充根集R的過程中,HITS直接將頁(yè)面包含的URL加入到基本集S中,這有可能將一些與主題無(wú)關(guān)的頁(yè)面也擴(kuò)充進(jìn)來(lái)了。算法首先剔除了LinkFarm頁(yè)面;然后對(duì)URL的AnchorText進(jìn)行了分析,若其與主題相關(guān),直接將其擴(kuò)充到S,否則再提取頁(yè)面概念并進(jìn)行相關(guān)度計(jì)算。雖然以時(shí)間付出為代價(jià),但是換來(lái)了整個(gè)提取頁(yè)面的質(zhì)量的提高。假設(shè)頁(yè)面長(zhǎng)度為n,對(duì)頁(yè)面文本的處理僅限于關(guān)鍵詞的提取,在關(guān)鍵詞集合不大的時(shí)候,算法的時(shí)間復(fù)雜度接近于O(n)。圖2SICR算法流程圖4實(shí)驗(yàn)及分析實(shí)踐中,對(duì)服裝圖像的采集方法一般是基于網(wǎng)頁(yè)中圖像的標(biāo)簽采集或利用Google等搜索引擎返回圖像[24,25],這樣采集的圖像召回率和準(zhǔn)確率會(huì)受到一定的影響。本文的實(shí)驗(yàn)主題是基于紡織服裝領(lǐng)域的,搜索深度為2,起始種子為20(與紡織服裝緊密相關(guān)的國(guó)內(nèi)外權(quán)威網(wǎng)站個(gè)數(shù)),閾值設(shè)為0.15。查詢關(guān)鍵詞包括30個(gè)中文關(guān)鍵字和10個(gè)英文關(guān)鍵字,實(shí)驗(yàn)結(jié)果只列出了6個(gè)關(guān)鍵字,分別是“燕尾服”、“連衣裙”、“真絲”、“開衫”、“Cardigan”、“Tuxedo”。考慮到Google搜索引擎被公認(rèn)為目前查詢精度最高的搜索引擎,所以把實(shí)驗(yàn)結(jié)果和Google、HITS算法進(jìn)行了比較(Google數(shù)據(jù)于2015年10月22日獲取)。由于SICR算法目前僅索引com和org網(wǎng)址,為了保證對(duì)比的公正性,在Google檢索中使用了域名限制為“site:com”和“site:org”,對(duì)所有圖像進(jìn)行了人工評(píng)判。實(shí)驗(yàn)數(shù)據(jù)由表1所列。
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘技術(shù)在中醫(yī)病證規(guī)律研究中的應(yīng)用進(jìn)展[J]. 孫穎偉,眭蘊(yùn)慧,張磊,陳亞光,殷海波. 北京中醫(yī)藥. 2015(01)
[2]基于SNA的網(wǎng)絡(luò)輿情演變分析方法[J]. 吳少華,崔鑫,胡勇. 四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2015(01)
[3]用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法(英文)[J]. 萬(wàn)玉釵,劉峽壁,韓菲霏,童坤琦,劉宇. 自動(dòng)化學(xué)報(bào). 2014(08)
[4]大規(guī);ヂ(lián)網(wǎng)圖像檢索與模式挖掘[J]. 張磊. 中國(guó)科學(xué):信息科學(xué). 2013(12)
[5]基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲研究[J]. 黃仁,王良偉. 計(jì)算機(jī)應(yīng)用研究. 2013(08)
本文編號(hào):3515479
【文章來(lái)源】:計(jì)算機(jī)科學(xué). 2016,43(S2)北大核心CSCD
【文章頁(yè)數(shù)】:4 頁(yè)
【部分圖文】:
圖2SICR算法流程圖實(shí)驗(yàn)及分析
:2377-2380[24]萬(wàn)玉釵,劉峽壁,韓菲霏,等.用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法[J].自動(dòng)化學(xué)報(bào),2014,40(8):1699-1708[25]ZhouN,FanJ.Automaticimage-textalignmentforlarge-scaleWebimageindexingandretrieval[J].PatternRecognition,2015,48(1):205-219(上接第241頁(yè))圖5壓縮后圖像的灰度圖圖4為原始圖像的灰度圖,圖5為圖像壓縮后的灰度圖?梢钥闯觯c圖4相比,圖5具有較少的信息,可以得到更均勻的圖像,壓縮后圖像的效果比較理想。結(jié)束語(yǔ)本文主要研究了利用DCT技術(shù)對(duì)圖像進(jìn)行壓縮,通過Matlab仿真分析了利用DCT技術(shù)進(jìn)行圖像的壓縮的優(yōu)點(diǎn)。隨著網(wǎng)絡(luò)媒體的發(fā)展,圖像壓縮技術(shù)將進(jìn)入快速發(fā)展時(shí)代,尤其是圖像壓縮標(biāo)準(zhǔn)的建立使它進(jìn)入實(shí)用化和產(chǎn)業(yè)化。使用DCT進(jìn)行圖像壓縮具有更高的性能,并且它易于實(shí)現(xiàn)。DCT具有算法簡(jiǎn)單、易于硬件實(shí)現(xiàn)等優(yōu)點(diǎn),從而廣泛應(yīng)用于圖像壓縮領(lǐng)域,尤其在較高比特率的傳輸條件下能取得令人滿意的壓縮效果。然而,它在低比特率條件下的“方塊效應(yīng)”成了不容忽視的“瓶頸”缺陷,其原因在于DCT處理圖像時(shí)是分塊進(jìn)行的,塊與塊邊界兩邊的像素相關(guān)性不能去掉,從而形成了明顯的方塊邊界。若將DCT變換與其它編碼方法(如小波變換、分形等)相結(jié)合將得到更好的效果。參考文獻(xiàn)[1]張愛華,江中勤,張華.基于粒子群優(yōu)化算法的分形圖像壓縮編碼[J].計(jì)算機(jī)技
。(3)在擴(kuò)充根集R的過程中,HITS直接將頁(yè)面包含的URL加入到基本集S中,這有可能將一些與主題無(wú)關(guān)的頁(yè)面也擴(kuò)充進(jìn)來(lái)了。算法首先剔除了LinkFarm頁(yè)面;然后對(duì)URL的AnchorText進(jìn)行了分析,若其與主題相關(guān),直接將其擴(kuò)充到S,否則再提取頁(yè)面概念并進(jìn)行相關(guān)度計(jì)算。雖然以時(shí)間付出為代價(jià),但是換來(lái)了整個(gè)提取頁(yè)面的質(zhì)量的提高。假設(shè)頁(yè)面長(zhǎng)度為n,對(duì)頁(yè)面文本的處理僅限于關(guān)鍵詞的提取,在關(guān)鍵詞集合不大的時(shí)候,算法的時(shí)間復(fù)雜度接近于O(n)。圖2SICR算法流程圖4實(shí)驗(yàn)及分析實(shí)踐中,對(duì)服裝圖像的采集方法一般是基于網(wǎng)頁(yè)中圖像的標(biāo)簽采集或利用Google等搜索引擎返回圖像[24,25],這樣采集的圖像召回率和準(zhǔn)確率會(huì)受到一定的影響。本文的實(shí)驗(yàn)主題是基于紡織服裝領(lǐng)域的,搜索深度為2,起始種子為20(與紡織服裝緊密相關(guān)的國(guó)內(nèi)外權(quán)威網(wǎng)站個(gè)數(shù)),閾值設(shè)為0.15。查詢關(guān)鍵詞包括30個(gè)中文關(guān)鍵字和10個(gè)英文關(guān)鍵字,實(shí)驗(yàn)結(jié)果只列出了6個(gè)關(guān)鍵字,分別是“燕尾服”、“連衣裙”、“真絲”、“開衫”、“Cardigan”、“Tuxedo”。考慮到Google搜索引擎被公認(rèn)為目前查詢精度最高的搜索引擎,所以把實(shí)驗(yàn)結(jié)果和Google、HITS算法進(jìn)行了比較(Google數(shù)據(jù)于2015年10月22日獲取)。由于SICR算法目前僅索引com和org網(wǎng)址,為了保證對(duì)比的公正性,在Google檢索中使用了域名限制為“site:com”和“site:org”,對(duì)所有圖像進(jìn)行了人工評(píng)判。實(shí)驗(yàn)數(shù)據(jù)由表1所列。
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘技術(shù)在中醫(yī)病證規(guī)律研究中的應(yīng)用進(jìn)展[J]. 孫穎偉,眭蘊(yùn)慧,張磊,陳亞光,殷海波. 北京中醫(yī)藥. 2015(01)
[2]基于SNA的網(wǎng)絡(luò)輿情演變分析方法[J]. 吳少華,崔鑫,胡勇. 四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2015(01)
[3]用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法(英文)[J]. 萬(wàn)玉釵,劉峽壁,韓菲霏,童坤琦,劉宇. 自動(dòng)化學(xué)報(bào). 2014(08)
[4]大規(guī);ヂ(lián)網(wǎng)圖像檢索與模式挖掘[J]. 張磊. 中國(guó)科學(xué):信息科學(xué). 2013(12)
[5]基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲研究[J]. 黃仁,王良偉. 計(jì)算機(jī)應(yīng)用研究. 2013(08)
本文編號(hào):3515479
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3515479.html
最近更新
教材專著