基于層次語義的Web服裝圖像智能采集方法
發(fā)布時間:2021-11-24 07:08
以大規(guī)模智能采集互聯(lián)網(wǎng)中的服裝圖像為目的,研究如何利用互聯(lián)網(wǎng)上服裝圖像的伴隨文本與服裝圖像概念之間的關(guān)聯(lián),實(shí)現(xiàn)自動采集各語義對應(yīng)的服裝圖像。在HITS(Hyperlink-Induced Topic Search)算法的基礎(chǔ)上提出一個基于層次語義的圖像采集算法SICR(Semantic-based Image Collection Robot)。該算法在層次語義庫的支持下,擴(kuò)充根集與去除鏈接工廠頁面同步進(jìn)行。在爬取鏈接網(wǎng)頁前,進(jìn)行錨文字的相似度計(jì)算和頁面內(nèi)容的概念分析,舍棄不符合語義的頁面,只下載滿足語義的服裝圖像。算法克服了基于文本分析或鏈接分析的圖像自動提取算法的不足,具有較高的準(zhǔn)確率和召回率,實(shí)驗(yàn)結(jié)果證明了SICR算法的有效性。
【文章來源】:計(jì)算機(jī)科學(xué). 2016,43(S2)北大核心CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
圖2SICR算法流程圖實(shí)驗(yàn)及分析
:2377-2380[24]萬玉釵,劉峽壁,韓菲霏,等.用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法[J].自動化學(xué)報(bào),2014,40(8):1699-1708[25]ZhouN,FanJ.Automaticimage-textalignmentforlarge-scaleWebimageindexingandretrieval[J].PatternRecognition,2015,48(1):205-219(上接第241頁)圖5壓縮后圖像的灰度圖圖4為原始圖像的灰度圖,圖5為圖像壓縮后的灰度圖?梢钥闯,與圖4相比,圖5具有較少的信息,可以得到更均勻的圖像,壓縮后圖像的效果比較理想。結(jié)束語本文主要研究了利用DCT技術(shù)對圖像進(jìn)行壓縮,通過Matlab仿真分析了利用DCT技術(shù)進(jìn)行圖像的壓縮的優(yōu)點(diǎn)。隨著網(wǎng)絡(luò)媒體的發(fā)展,圖像壓縮技術(shù)將進(jìn)入快速發(fā)展時代,尤其是圖像壓縮標(biāo)準(zhǔn)的建立使它進(jìn)入實(shí)用化和產(chǎn)業(yè)化。使用DCT進(jìn)行圖像壓縮具有更高的性能,并且它易于實(shí)現(xiàn)。DCT具有算法簡單、易于硬件實(shí)現(xiàn)等優(yōu)點(diǎn),從而廣泛應(yīng)用于圖像壓縮領(lǐng)域,尤其在較高比特率的傳輸條件下能取得令人滿意的壓縮效果。然而,它在低比特率條件下的“方塊效應(yīng)”成了不容忽視的“瓶頸”缺陷,其原因在于DCT處理圖像時是分塊進(jìn)行的,塊與塊邊界兩邊的像素相關(guān)性不能去掉,從而形成了明顯的方塊邊界。若將DCT變換與其它編碼方法(如小波變換、分形等)相結(jié)合將得到更好的效果。參考文獻(xiàn)[1]張愛華,江中勤,張華.基于粒子群優(yōu)化算法的分形圖像壓縮編碼[J].計(jì)算機(jī)技
。(3)在擴(kuò)充根集R的過程中,HITS直接將頁面包含的URL加入到基本集S中,這有可能將一些與主題無關(guān)的頁面也擴(kuò)充進(jìn)來了。算法首先剔除了LinkFarm頁面;然后對URL的AnchorText進(jìn)行了分析,若其與主題相關(guān),直接將其擴(kuò)充到S,否則再提取頁面概念并進(jìn)行相關(guān)度計(jì)算。雖然以時間付出為代價,但是換來了整個提取頁面的質(zhì)量的提高。假設(shè)頁面長度為n,對頁面文本的處理僅限于關(guān)鍵詞的提取,在關(guān)鍵詞集合不大的時候,算法的時間復(fù)雜度接近于O(n)。圖2SICR算法流程圖4實(shí)驗(yàn)及分析實(shí)踐中,對服裝圖像的采集方法一般是基于網(wǎng)頁中圖像的標(biāo)簽采集或利用Google等搜索引擎返回圖像[24,25],這樣采集的圖像召回率和準(zhǔn)確率會受到一定的影響。本文的實(shí)驗(yàn)主題是基于紡織服裝領(lǐng)域的,搜索深度為2,起始種子為20(與紡織服裝緊密相關(guān)的國內(nèi)外權(quán)威網(wǎng)站個數(shù)),閾值設(shè)為0.15。查詢關(guān)鍵詞包括30個中文關(guān)鍵字和10個英文關(guān)鍵字,實(shí)驗(yàn)結(jié)果只列出了6個關(guān)鍵字,分別是“燕尾服”、“連衣裙”、“真絲”、“開衫”、“Cardigan”、“Tuxedo”?紤]到Google搜索引擎被公認(rèn)為目前查詢精度最高的搜索引擎,所以把實(shí)驗(yàn)結(jié)果和Google、HITS算法進(jìn)行了比較(Google數(shù)據(jù)于2015年10月22日獲取)。由于SICR算法目前僅索引com和org網(wǎng)址,為了保證對比的公正性,在Google檢索中使用了域名限制為“site:com”和“site:org”,對所有圖像進(jìn)行了人工評判。實(shí)驗(yàn)數(shù)據(jù)由表1所列。
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘技術(shù)在中醫(yī)病證規(guī)律研究中的應(yīng)用進(jìn)展[J]. 孫穎偉,眭蘊(yùn)慧,張磊,陳亞光,殷海波. 北京中醫(yī)藥. 2015(01)
[2]基于SNA的網(wǎng)絡(luò)輿情演變分析方法[J]. 吳少華,崔鑫,胡勇. 四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2015(01)
[3]用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法(英文)[J]. 萬玉釵,劉峽壁,韓菲霏,童坤琦,劉宇. 自動化學(xué)報(bào). 2014(08)
[4]大規(guī);ヂ(lián)網(wǎng)圖像檢索與模式挖掘[J]. 張磊. 中國科學(xué):信息科學(xué). 2013(12)
[5]基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J]. 黃仁,王良偉. 計(jì)算機(jī)應(yīng)用研究. 2013(08)
本文編號:3515479
【文章來源】:計(jì)算機(jī)科學(xué). 2016,43(S2)北大核心CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
圖2SICR算法流程圖實(shí)驗(yàn)及分析
:2377-2380[24]萬玉釵,劉峽壁,韓菲霏,等.用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法[J].自動化學(xué)報(bào),2014,40(8):1699-1708[25]ZhouN,FanJ.Automaticimage-textalignmentforlarge-scaleWebimageindexingandretrieval[J].PatternRecognition,2015,48(1):205-219(上接第241頁)圖5壓縮后圖像的灰度圖圖4為原始圖像的灰度圖,圖5為圖像壓縮后的灰度圖?梢钥闯,與圖4相比,圖5具有較少的信息,可以得到更均勻的圖像,壓縮后圖像的效果比較理想。結(jié)束語本文主要研究了利用DCT技術(shù)對圖像進(jìn)行壓縮,通過Matlab仿真分析了利用DCT技術(shù)進(jìn)行圖像的壓縮的優(yōu)點(diǎn)。隨著網(wǎng)絡(luò)媒體的發(fā)展,圖像壓縮技術(shù)將進(jìn)入快速發(fā)展時代,尤其是圖像壓縮標(biāo)準(zhǔn)的建立使它進(jìn)入實(shí)用化和產(chǎn)業(yè)化。使用DCT進(jìn)行圖像壓縮具有更高的性能,并且它易于實(shí)現(xiàn)。DCT具有算法簡單、易于硬件實(shí)現(xiàn)等優(yōu)點(diǎn),從而廣泛應(yīng)用于圖像壓縮領(lǐng)域,尤其在較高比特率的傳輸條件下能取得令人滿意的壓縮效果。然而,它在低比特率條件下的“方塊效應(yīng)”成了不容忽視的“瓶頸”缺陷,其原因在于DCT處理圖像時是分塊進(jìn)行的,塊與塊邊界兩邊的像素相關(guān)性不能去掉,從而形成了明顯的方塊邊界。若將DCT變換與其它編碼方法(如小波變換、分形等)相結(jié)合將得到更好的效果。參考文獻(xiàn)[1]張愛華,江中勤,張華.基于粒子群優(yōu)化算法的分形圖像壓縮編碼[J].計(jì)算機(jī)技
。(3)在擴(kuò)充根集R的過程中,HITS直接將頁面包含的URL加入到基本集S中,這有可能將一些與主題無關(guān)的頁面也擴(kuò)充進(jìn)來了。算法首先剔除了LinkFarm頁面;然后對URL的AnchorText進(jìn)行了分析,若其與主題相關(guān),直接將其擴(kuò)充到S,否則再提取頁面概念并進(jìn)行相關(guān)度計(jì)算。雖然以時間付出為代價,但是換來了整個提取頁面的質(zhì)量的提高。假設(shè)頁面長度為n,對頁面文本的處理僅限于關(guān)鍵詞的提取,在關(guān)鍵詞集合不大的時候,算法的時間復(fù)雜度接近于O(n)。圖2SICR算法流程圖4實(shí)驗(yàn)及分析實(shí)踐中,對服裝圖像的采集方法一般是基于網(wǎng)頁中圖像的標(biāo)簽采集或利用Google等搜索引擎返回圖像[24,25],這樣采集的圖像召回率和準(zhǔn)確率會受到一定的影響。本文的實(shí)驗(yàn)主題是基于紡織服裝領(lǐng)域的,搜索深度為2,起始種子為20(與紡織服裝緊密相關(guān)的國內(nèi)外權(quán)威網(wǎng)站個數(shù)),閾值設(shè)為0.15。查詢關(guān)鍵詞包括30個中文關(guān)鍵字和10個英文關(guān)鍵字,實(shí)驗(yàn)結(jié)果只列出了6個關(guān)鍵字,分別是“燕尾服”、“連衣裙”、“真絲”、“開衫”、“Cardigan”、“Tuxedo”?紤]到Google搜索引擎被公認(rèn)為目前查詢精度最高的搜索引擎,所以把實(shí)驗(yàn)結(jié)果和Google、HITS算法進(jìn)行了比較(Google數(shù)據(jù)于2015年10月22日獲取)。由于SICR算法目前僅索引com和org網(wǎng)址,為了保證對比的公正性,在Google檢索中使用了域名限制為“site:com”和“site:org”,對所有圖像進(jìn)行了人工評判。實(shí)驗(yàn)數(shù)據(jù)由表1所列。
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘技術(shù)在中醫(yī)病證規(guī)律研究中的應(yīng)用進(jìn)展[J]. 孫穎偉,眭蘊(yùn)慧,張磊,陳亞光,殷海波. 北京中醫(yī)藥. 2015(01)
[2]基于SNA的網(wǎng)絡(luò)輿情演變分析方法[J]. 吳少華,崔鑫,胡勇. 四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2015(01)
[3]用于提高谷歌圖像搜索結(jié)果的二分類器在線學(xué)習(xí)方法(英文)[J]. 萬玉釵,劉峽壁,韓菲霏,童坤琦,劉宇. 自動化學(xué)報(bào). 2014(08)
[4]大規(guī);ヂ(lián)網(wǎng)圖像檢索與模式挖掘[J]. 張磊. 中國科學(xué):信息科學(xué). 2013(12)
[5]基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J]. 黃仁,王良偉. 計(jì)算機(jī)應(yīng)用研究. 2013(08)
本文編號:3515479
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3515479.html
最近更新
教材專著