Web廣告圖片過濾技術(shù)研究與實(shí)現(xiàn)
本文選題:廣告圖片過濾 + SVM; 參考:《北京郵電大學(xué)》2017年碩士論文
【摘要】:自上世紀(jì)90年代互聯(lián)網(wǎng)進(jìn)入中國至今,我國互聯(lián)網(wǎng)普及率已達(dá)到51.2%,網(wǎng)民規(guī)模已達(dá)到7.1億,越來越多的人通過互聯(lián)網(wǎng)發(fā)布或者獲取信息。這么龐大的群體中,自然就蘊(yùn)含了巨大的商機(jī)。Web網(wǎng)頁上充斥著越來越多的廣告,嚴(yán)重影響著大眾對于有效信息的獲取。而且進(jìn)入Web2.0時(shí)代以來,圖片由于具有更好的視覺效果,可以以更加簡潔的形式蘊(yùn)含更加豐富的內(nèi)容特征,被越來越多的用于廣告信息的傳播,嚴(yán)重影響了大眾的工作效率;目前針對廣告圖片的過濾研究已有很多,但多數(shù)研究都是通過研究圖片的具體內(nèi)容進(jìn)行分類識別,雖然準(zhǔn)確率較高,但圖像識別難度較大,算法復(fù)雜。鑒于上述情況,本文對如何高效便捷的進(jìn)行Web頁面的上廣告圖片過濾進(jìn)行了研究。所做工作如下:1.對廣告圖片的特征進(jìn)行了歸納,分析了目前對于圖片特征選擇的優(yōu)勢與不足,并結(jié)合目前Web廣告推崇個(gè)性化以用戶興趣為導(dǎo)向的特征,從興趣、文本、鏈接、屬性四個(gè)方面對Web廣告圖片進(jìn)行特征提取。結(jié)合SVM機(jī)器學(xué)習(xí)算法提出了一個(gè)基于DOM屬性的廣告圖片過濾模型。2.深入挖掘HTML文本的DOM屬性,結(jié)合廣告圖片的特征以及目前基于用戶興趣的廣告推薦情況,研究了基于DOM屬性的廣告圖片過濾技術(shù),避開了對圖像內(nèi)容的識別,提出了基于興趣、文本、鏈接、屬性四個(gè)方面共11個(gè)特征進(jìn)行提取的方法,通過仿真實(shí)驗(yàn),從準(zhǔn)確率、精確率、召回率、F1測度四個(gè)方面驗(yàn)證了該模型的有效性。3.在對文本特征進(jìn)行提取時(shí),研究了目前常用的關(guān)鍵字匹配算法,對比了各關(guān)鍵字算法的優(yōu)劣,考慮到本文所需匹配內(nèi)容較為明確,選擇了正向最大匹配算法進(jìn)行關(guān)鍵字過濾。4.研究了 HTTP透明代理技術(shù)以及內(nèi)容過濾技術(shù),搭建了一個(gè)基于Squid-ICAP架構(gòu)的基于DOM屬性的廣告圖片過濾系統(tǒng),詳細(xì)介紹了系統(tǒng)的設(shè)計(jì)、關(guān)鍵功能模塊的設(shè)計(jì)與實(shí)現(xiàn)。并對系統(tǒng)的過濾效果進(jìn)行了驗(yàn)證。
[Abstract]:Since the entry of the Internet into China in the 1990s, China's Internet penetration rate has reached 51.2%, the scale of Internet users has reached 710 million, more and more people publish or obtain information through the Internet. In such a large group, there is a huge business opportunity. Web pages are filled with more and more advertisements, which seriously affect the public access to effective information. And since entering the Web2.0 era, because of the better visual effect, the picture can contain more and more content features in a more concise form, which is more and more used in the dissemination of advertising information, seriously affecting the efficiency of the public; At present, there are a lot of researches on image filtering, but most of them are classified and recognized by studying the specific content of the image. Although the accuracy is high, the image recognition is difficult and the algorithm is complex. In view of the above situation, this paper studies how to filter advertising images on Web pages efficiently and conveniently. The work to be done is as follows: 1. This paper sums up the features of advertising pictures, analyzes the advantages and disadvantages of feature selection for images at present, and combines the current Web advertising with personalized user-oriented features, from interest, text, links, etc. Attribute four aspects of Web advertising image feature extraction. Combining with SVM machine learning algorithm, this paper proposes an advertisement picture filtering model. 2. 2 based on DOM attribute. This paper deeply excavates the DOM attribute of HTML text, combines the features of advertisement picture and the current situation of advertisement recommendation based on user's interest, studies the technology of advertisement picture filtering based on DOM attribute, avoids the recognition of image content, and puts forward the interest based on it. The method of extracting 11 features from four aspects of text, link and attribute is presented. The validity of the model is verified from four aspects: accuracy, accuracy, recall rate and F1 measure. In the extraction of text features, the common keyword matching algorithms are studied, and the advantages and disadvantages of each keyword matching algorithm are compared. Considering the clear matching content needed in this paper, the forward maximum matching algorithm is chosen to filter the keywords. 4. The HTTP transparent proxy technology and content filtering technology are studied. An advertisement image filtering system based on DOM attribute based on Squid-ICAP architecture is built. The design of the system and the design and implementation of key function modules are introduced in detail. The filtering effect of the system is verified.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.09;TP391.41
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 潘心宇;陳長福;劉蓉;王美清;;基于網(wǎng)頁DOM樹節(jié)點(diǎn)路徑相似度的正文抽取[J];微型機(jī)與應(yīng)用;2016年19期
2 李兆翠;朱振方;許紅云;;基于SVM的三重網(wǎng)頁過濾方法研究[J];軟件導(dǎo)刊;2014年11期
3 周立前;胡柳;李瑞;黃麗君;胡盛龍;文志強(qiáng);;基于權(quán)重策略的不良圖像識別[J];中南大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年11期
4 谷文成;柴寶仁;韓俊松;;基于支持向量機(jī)的垃圾信息過濾方法[J];北京理工大學(xué)學(xué)報(bào);2013年10期
5 段曉麗;王宇;谷靜;劉瑋楠;;基于正文特征及網(wǎng)頁結(jié)構(gòu)的主題網(wǎng)頁信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2012年30期
6 羅寧;徐俊剛;郭洪韜;;基于Lucene的中文分詞模塊的設(shè)計(jì)和實(shí)現(xiàn)[J];電子技術(shù);2012年09期
7 李霞;蔣盛益;;基于DOM樹及行文本統(tǒng)計(jì)去噪的網(wǎng)頁文本抽取技術(shù)[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2012年03期
8 李明;;動(dòng)態(tài)復(fù)雜的威脅需要實(shí)時(shí)網(wǎng)絡(luò)安全防御[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年05期
9 羅桂瓊;費(fèi)洪曉;戴弋;;基于反序詞典的中文分詞技術(shù)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年01期
10 顧瀟華;郭軍城;;網(wǎng)頁超鏈抓取及自動(dòng)分類技術(shù)實(shí)現(xiàn)[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期
相關(guān)碩士學(xué)位論文 前7條
1 張高祥;基于SVM的文本信息過濾算法研究[D];吉林大學(xué);2016年
2 黃攀;基于深度學(xué)習(xí)的自然場景文字識別[D];浙江大學(xué);2016年
3 靳佩瑤;基于內(nèi)容的網(wǎng)頁文本信息過濾技術(shù)研究[D];西南石油大學(xué);2015年
4 顧大偉;基于代理的敏感郵件監(jiān)控技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2015年
5 柳伯超;基于內(nèi)容的不良圖像識別研究[D];山東師范大學(xué);2007年
6 周文剛;基于語義的信息過濾算法及其應(yīng)用[D];北方工業(yè)大學(xué);2006年
7 葉志剛;SVM在文本分類中的應(yīng)用[D];哈爾濱工程大學(xué);2006年
,本文編號:1775453
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1775453.html