天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

基于多特征和組合分類器的網頁分類

發(fā)布時間:2020-07-25 11:13
【摘要】:網絡上有著豐富的信息資源,并且隨著時間的推移,網上的信息量爆炸式地增長。網頁的分類有助于網頁信息檢索和管理,如開發(fā)和維護網頁目錄、改進搜索引擎質量、過濾網頁內容等。網頁是一種半結構化的數據,不同網頁的內容和結構不太一樣,且網頁上有廣告、版權聲明等信息,這給網頁的分類帶來了挑戰(zhàn)。本文研究網頁分類方法,以提高網頁分類的性能。首先,提出一種融合文本和結構特征的網頁分類方法。采用樹狀分布的HTML標簽表示網頁的結構,遍歷HTML標簽構建向量表示網頁結構特征。通過向量轉化工具word2vec將title、meta等關鍵標簽中的文本轉化為向量表示文本特征,將文本特征和結構特征兩種不同的特征以向量的形式融合起來,對網頁進行分類。實驗結果表明,融合文本和結構特征的網頁分類方法更加全面和有效,取得了比單一特征更好的分類效果。其次,提出一種基于置信度的組合分類器的方法,然后基于文本和結構特征的融合以及分類器的組合構建網頁分類系統(tǒng)。不同分類器有不同的特點,多個分類器的組合可以實現分類器性能的互補。我們計算一組樣本的分類準確率作為相應分類結果的置信度,接著基于置信度采用投票、比較大小等決策策略,組合多個子分類器,得出組合分類器的分類結果。基于特征融合和分類器組合的網頁分類系統(tǒng)包括數據采集與處理模塊、特征提取與向量化模塊、子分類器分類模塊和組合分類模塊。在Amazon數據集、7-web-genres數據集、DMOZ數據集中進行實驗,網頁分類的準確率分別達到94.2%、95.4%、95.7%,提出的網頁分類方法相比同類網頁分類方法準確率更高。第三,提出一種移動端網頁的分類方法。移動端設備小屏、豎屏的設計使得移動端網頁呈現列表式的簡單結構,網頁內容多以信息流的形式出現,重要的信息出現在前面。針對移動端網頁的這些特征,我們提出采用信息流定位的算法,提取主旨信息、頭部信息和信息流信息進行分類。采集移動端網頁進行實驗,結果表明,我們提出的移動端網頁分類方法準確率達到97.2%。
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.092;TP301.6
【圖文】:

網頁,目標網,子網,配偶


子網頁(Child邋page)、兄弟網頁(Sibling邋page)和配偶網頁(Spouse邋page)的標簽類別逡逑組合起來幫助目標網頁分類,相比常見的網頁文本分類準確率有了很大的提高。逡逑如圖1.1所示,如果當前網頁被認定為目標網頁(Targetpage),那么父網頁指的是逡逑通過超鏈接指向目標網頁的網頁,子網頁指的是目標網頁通過超鏈接指向的網頁,逡逑兄弟網頁是父網頁指向的不同于目標網頁的網頁,配偶網頁則是另一個同樣指向逡逑子網頁的網頁。逡逑/兄弟網頁逡逑(Sibling邋page)逡逑父網頁邐_邐 ̄逡逑(Parent邋page)邐目標網頁邐;逡逑(Tafget邋page)邐子網頁逡逑/邋(Child邋page)逡逑邐r逡逑配偶網頁逡逑(Spouse邋page)逡逑圖1.1相鄰網頁的關系圖逡逑3逡逑

架構圖,架構,調度器,網址


Scrapy是一個為了爬取網頁內容、提取結構性數據而編寫的應用框架,其優(yōu)逡逑點在于可以根據使用者的需求進行修改,從而方便地應用,Scrapy在數據挖掘、逡逑網頁監(jiān)測和自動化測試等方面有著廣泛的用途[24],架構如圖2.1所示.逡逑調度器逡逑邐J-邐邐\邐f互聯(lián)網逡逑管道 ̄——Scrapy引下載器逡逑^邐下載器逡逑存儲數據\邐h爬蟲邐,逡逑\邐中間件邐^返回數據響應逡逑一邋 ̄ ̄1逡逑I逡逑4.爬蟲逡逑圖2.1邋Scrapy架構圖逡逑圖2.1中各個組件的功能分別是:逡逑Scrapy引擎(Engine):負責處理整個系統(tǒng)內部的數據流,在調度器、下載器、逡逑爬蟲、管道之間進行通訊,傳遞信號和數據。逡逑調度器(Scheduler):調度器用一個隊列保存所要爬取網頁的網址,當Scrapy逡逑引擎發(fā)送請求(Request)時,調度器將網址整理和排列,壓入網址隊列。調度器決逡逑定下一個爬取的網址是什么,當引擎需要時交還給引擎。逡逑7逡逑

示意圖,示意圖,長期記憶,信息


度彌散;反之,如果#大于1,每一次誤差累乘%誤差傳遞到初始神經單元逡逑可能會是一個很大的數,這種情況被稱之為梯度爆炸。因此當序列很長的時候,逡逑RNN失去了學習的能力,這個問題可以被圖2.3所示的長短期記憶[28](Long逡逑Short-Term邋Memory,邋LSTM)解決。逡逑邐*(0t)邋0utPut逡逑\邋Forget逡逑Gate逡逑圖2.3長短期記憶網絡示意圖逡逑長短期記憶(LSTM)網絡是RNN的一種特殊類型,可以學習長期依賴的信息。逡逑LSTM通過門來判斷信息是否有用,與普通RNN相比,LSTM多了邋3個控制門逡逑(Gate):輸入門(Input邋Gate)、輸出門(Output邋Gate)、遺忘門(Forget邋Gate)。當新的逡逑輸入來臨,模型要忘掉不再需要的長期記憶信息,然后學習輸入中需要的部分,逡逑保存在長期記憶中,并且決定對當前輸出而言哪些信息是有用的。逡逑11逡逑

【相似文獻】

相關期刊論文 前10條

1 ;網頁分類新標準啟用兒童上網瀏覽有保證[J];電腦知識與技術;2002年07期

2 庫爾班·麥麥提;吾守爾·斯拉木;;網頁分類技術研究現狀與發(fā)展趨勢的圖譜分析[J];現代電子技術;2019年13期

3 費玉蓮;姜波;李淵;;面向異步通信機制的網頁分類研究[J];計算機應用;2008年02期

4 張茂元;鄒春燕;盧正鼎;;一種基于變調整學習規(guī)則的模糊網頁分類方法研究[J];計算機研究與發(fā)展;2007年01期

5 郭淼霞;;中文網頁分類研究綜述[J];赤峰學院學報(自然科學版);2011年12期

6 宗永升;張yN;;支持向量機與K近鄰結合的網頁分類方法[J];計算機仿真;2010年09期

7 黃科,馬少平;基于統(tǒng)計分詞的中文網頁分類[J];中文信息學報;2002年06期

8 傅向華;劉國;陳冬劍;;一種核心子集選擇訓練的大規(guī)模中文網頁分類方法[J];小型微型計算機系統(tǒng);2011年08期

9 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網頁分類上的效果比較[J];計算機工程與應用;2003年22期

10 張義忠,趙明生,梁久禎;基于自組織特征映射的網頁分類研究[J];信息與控制;2003年02期

相關會議論文 前2條

1 李立宇;唐世渭;楊冬青;葉恒強;王騰蛟;;COMMIX-Classifier—自動網頁分類系統(tǒng)[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年

2 米曉芳;秦洋;王立宏;宋宜斌;;基于潛在語義差異的醫(yī)學網頁分類[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年

相關碩士學位論文 前10條

1 鄧立;基于多特征和組合分類器的網頁分類[D];浙江大學;2019年

2 朱紅波;基于SVM的多示例多標簽網頁分類[D];中國石油大學(華東);2017年

3 王文杰;基于多示例多標簽框架的網頁分類信息丟失的研究[D];中國石油大學(華東);2017年

4 唐磊;基于多示例多標簽支持向量機不平衡網頁分類[D];中國石油大學(華東);2017年

5 吳琦煒;基于深度學習的高效網頁分類技術的研究與分析[D];北京郵電大學;2019年

6 劉佳男;面向機構官網的數據抽取研究[D];哈爾濱工業(yè)大學;2018年

7 杜宇昆;基于鏈接特征的視頻廣告過濾技術[D];電子科技大學;2018年

8 張丹;面向內容的網頁分類方法研究與實現[D];南京郵電大學;2017年

9 黃美寧;基于用戶行為分析的網頁分類系統(tǒng)的研究與實現[D];北京郵電大學;2011年

10 王海江;基于Spark的新聞網頁分類系統(tǒng)的設計與實現[D];北京郵電大學;2017年



本文編號:2769751

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2769751.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶af7e4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com