基于多特征和組合分類器的網頁分類
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.092;TP301.6
【圖文】:
子網頁(Child邋page)、兄弟網頁(Sibling邋page)和配偶網頁(Spouse邋page)的標簽類別逡逑組合起來幫助目標網頁分類,相比常見的網頁文本分類準確率有了很大的提高。逡逑如圖1.1所示,如果當前網頁被認定為目標網頁(Targetpage),那么父網頁指的是逡逑通過超鏈接指向目標網頁的網頁,子網頁指的是目標網頁通過超鏈接指向的網頁,逡逑兄弟網頁是父網頁指向的不同于目標網頁的網頁,配偶網頁則是另一個同樣指向逡逑子網頁的網頁。逡逑/兄弟網頁逡逑(Sibling邋page)逡逑父網頁邐_邐 ̄逡逑(Parent邋page)邐目標網頁邐;逡逑(Tafget邋page)邐子網頁逡逑/邋(Child邋page)逡逑邐r逡逑配偶網頁逡逑(Spouse邋page)逡逑圖1.1相鄰網頁的關系圖逡逑3逡逑
Scrapy是一個為了爬取網頁內容、提取結構性數據而編寫的應用框架,其優(yōu)逡逑點在于可以根據使用者的需求進行修改,從而方便地應用,Scrapy在數據挖掘、逡逑網頁監(jiān)測和自動化測試等方面有著廣泛的用途[24],架構如圖2.1所示.逡逑調度器逡逑邐J-邐邐\邐f互聯(lián)網逡逑管道 ̄——Scrapy引下載器逡逑^邐下載器逡逑存儲數據\邐h爬蟲邐,逡逑\邐中間件邐^返回數據響應逡逑一邋 ̄ ̄1逡逑I逡逑4.爬蟲逡逑圖2.1邋Scrapy架構圖逡逑圖2.1中各個組件的功能分別是:逡逑Scrapy引擎(Engine):負責處理整個系統(tǒng)內部的數據流,在調度器、下載器、逡逑爬蟲、管道之間進行通訊,傳遞信號和數據。逡逑調度器(Scheduler):調度器用一個隊列保存所要爬取網頁的網址,當Scrapy逡逑引擎發(fā)送請求(Request)時,調度器將網址整理和排列,壓入網址隊列。調度器決逡逑定下一個爬取的網址是什么,當引擎需要時交還給引擎。逡逑7逡逑
度彌散;反之,如果#大于1,每一次誤差累乘%誤差傳遞到初始神經單元逡逑可能會是一個很大的數,這種情況被稱之為梯度爆炸。因此當序列很長的時候,逡逑RNN失去了學習的能力,這個問題可以被圖2.3所示的長短期記憶[28](Long逡逑Short-Term邋Memory,邋LSTM)解決。逡逑邐*(0t)邋0utPut逡逑\邋Forget逡逑Gate逡逑圖2.3長短期記憶網絡示意圖逡逑長短期記憶(LSTM)網絡是RNN的一種特殊類型,可以學習長期依賴的信息。逡逑LSTM通過門來判斷信息是否有用,與普通RNN相比,LSTM多了邋3個控制門逡逑(Gate):輸入門(Input邋Gate)、輸出門(Output邋Gate)、遺忘門(Forget邋Gate)。當新的逡逑輸入來臨,模型要忘掉不再需要的長期記憶信息,然后學習輸入中需要的部分,逡逑保存在長期記憶中,并且決定對當前輸出而言哪些信息是有用的。逡逑11逡逑
【相似文獻】
相關期刊論文 前10條
1 ;網頁分類新標準啟用兒童上網瀏覽有保證[J];電腦知識與技術;2002年07期
2 庫爾班·麥麥提;吾守爾·斯拉木;;網頁分類技術研究現狀與發(fā)展趨勢的圖譜分析[J];現代電子技術;2019年13期
3 費玉蓮;姜波;李淵;;面向異步通信機制的網頁分類研究[J];計算機應用;2008年02期
4 張茂元;鄒春燕;盧正鼎;;一種基于變調整學習規(guī)則的模糊網頁分類方法研究[J];計算機研究與發(fā)展;2007年01期
5 郭淼霞;;中文網頁分類研究綜述[J];赤峰學院學報(自然科學版);2011年12期
6 宗永升;張yN;;支持向量機與K近鄰結合的網頁分類方法[J];計算機仿真;2010年09期
7 黃科,馬少平;基于統(tǒng)計分詞的中文網頁分類[J];中文信息學報;2002年06期
8 傅向華;劉國;陳冬劍;;一種核心子集選擇訓練的大規(guī)模中文網頁分類方法[J];小型微型計算機系統(tǒng);2011年08期
9 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網頁分類上的效果比較[J];計算機工程與應用;2003年22期
10 張義忠,趙明生,梁久禎;基于自組織特征映射的網頁分類研究[J];信息與控制;2003年02期
相關會議論文 前2條
1 李立宇;唐世渭;楊冬青;葉恒強;王騰蛟;;COMMIX-Classifier—自動網頁分類系統(tǒng)[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年
2 米曉芳;秦洋;王立宏;宋宜斌;;基于潛在語義差異的醫(yī)學網頁分類[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
相關碩士學位論文 前10條
1 鄧立;基于多特征和組合分類器的網頁分類[D];浙江大學;2019年
2 朱紅波;基于SVM的多示例多標簽網頁分類[D];中國石油大學(華東);2017年
3 王文杰;基于多示例多標簽框架的網頁分類信息丟失的研究[D];中國石油大學(華東);2017年
4 唐磊;基于多示例多標簽支持向量機不平衡網頁分類[D];中國石油大學(華東);2017年
5 吳琦煒;基于深度學習的高效網頁分類技術的研究與分析[D];北京郵電大學;2019年
6 劉佳男;面向機構官網的數據抽取研究[D];哈爾濱工業(yè)大學;2018年
7 杜宇昆;基于鏈接特征的視頻廣告過濾技術[D];電子科技大學;2018年
8 張丹;面向內容的網頁分類方法研究與實現[D];南京郵電大學;2017年
9 黃美寧;基于用戶行為分析的網頁分類系統(tǒng)的研究與實現[D];北京郵電大學;2011年
10 王海江;基于Spark的新聞網頁分類系統(tǒng)的設計與實現[D];北京郵電大學;2017年
本文編號:2769751
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2769751.html