天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于內容的搜索引擎垃圾網(wǎng)頁檢測

發(fā)布時間:2016-12-08 15:18

  本文關鍵詞:基于內容的搜索引擎垃圾網(wǎng)頁檢測,由筆耕文化傳播整理發(fā)布。



第2 6卷第 1 1期    2 0 0 9年 1 1月  

計算機應用與軟件 C o m p u t e r A p p l i c a t i o n s a n dS o f t w a r e

V o l ? 2 6N o . 1 1 0 9 N o v . 2 0

基于內容的搜索引擎垃圾網(wǎng)頁檢測
賈志洋1 李偉偉1 張海燕2


( 云南師范大學計算機科學與信息技術學院 云南 昆明 6 5 0 0 9 2 )


( 中國石油大慶石化公司信息中心 遼寧 大慶 1 6 3 7 1 4 )

摘 要  有些網(wǎng)頁為了增加訪問量, 通過欺騙搜索引擎, 提高在搜索引擎的搜索結果中的排名, 這些網(wǎng)頁被稱為“ 搜索引擎垃圾 網(wǎng)頁” 或“ 垃圾網(wǎng)頁” 。將搜索引擎垃圾網(wǎng)頁的檢測看成一個分類問題, 采用 C 4 . 5分類算法建立決策樹分類模型, 將網(wǎng)頁分成正常 網(wǎng)頁和垃圾網(wǎng)頁兩類。實驗表明我們的分類模型可以有效地檢測搜索引擎垃圾網(wǎng)頁。 關鍵詞  搜索引擎 垃圾網(wǎng)頁 垃圾網(wǎng)頁檢測 決策樹。 4 . 5分類算法

C O N T E N T ? B A S E DS P A M WE BP A G ED E T E C T I O NI NS E A R C HE N G I N E
1 1 2 J i aZ h i y a n g 。 i We i w e i 。 h a n gH a i y a n


( S c h o o l o f C o m p u t e r S c i e n c e a n dI n f o r m a t i o nT e c h n o l o g y , Y u n n a nN o r m a l U n i v e r s i t y , K u n m i n g 6 5 0 0 9 2 , Y u n n a n , C h i n a )


( I n f o r m a t i o nC e n t e r , P e t r o C h i n aD a q i n gP e t r o c h e m i c a l C o m p a n y , D a q i n g 1 6 3 7 1 4 , L i a o n i n g , C h i n a )

A b s t r a c t  。 no r d e r t oa t t r a c t m o r e v i s i t s ,s o m e w e bp a g e s a c h i e v e h i g h e r r a n k i n g s i na s e a r c he n g i n e ’ s r e s u l t s b y d e c e i v i n g t h e s e a r c he n ? g i n e .T h e s e w e bp a g e s a r e c a l l e d“ s e a r c he n g i n e s p a mw e bp a g e ”o r “ s p a mw e bp a g e ” .I nt h i s p a p e r t h e s p a mw e bp a g e d e t e c t i o ni ns e a r c h e n g i n ei s d e e m e da s ac l a s s i f i c a t i o np r o b l e m ,w ec r e a t ea d e c i s i o nt r e e c l a s s i f i c a t i o nm o d e l b y C 4 . 5c l a s s i f i c a t i o na l g o r i t h m ,t o s e p a r a t e w e b p a g e s i n t ot w oc a t e g o r i e s ,t h e n o r m a l a n dt h e s p a m .T h e e x p e r i m e n t r e s u l t s s h o wt h a t o u r c l a s s i f i c a t i o nm o d e l c a ne f f e c t i v e l y d e t e c t s p a mw e b p a g ei ns e a r c he n g i n e . K e y w o r d s  。 e a r c he n g i n e 。 p a mw e bp a g e  S p a mw e bp a g ed e t e c t i o n 。 e c i s i o nt r e e 。 4 . 5c l a s s i f i c a t i o na l g o r i t h m 網(wǎng)頁的排名。也就是說, “ 垃圾網(wǎng)頁” 不是提高其質量, 而是針

0  引 言
隨著網(wǎng)頁數(shù)量的指數(shù)級增長, 用戶不得不通過搜索引擎獲 取有效信息, 近幾年搜索引擎已經(jīng)成為網(wǎng)絡信息檢索的主要方
1 ] 式。據(jù)研究表明 [ : 大多數(shù)用戶只查看搜索引擎返回的前三頁

對搜索引擎網(wǎng)頁排名算法進行“ 作弊” , 從而提高網(wǎng)頁排名。 如圖 1所示, 網(wǎng)頁中包含了很多熱門關鍵詞, 但是有用的信 息卻很少, 顯然是針對搜索引擎的垃圾網(wǎng)頁。

的搜索結果。因此, 網(wǎng)站管理者會通過努力提高網(wǎng)站的質量, 以 達到提高網(wǎng)站在搜索結果中排名的目的。但是, 有些網(wǎng)站則是 通過一些“ 作弊” 的方式來提升排名。更有甚者, 有些網(wǎng)站管理 者“ 手動” 或“ 自動” 地制造一些“ 垃圾網(wǎng)頁” , 這些網(wǎng)頁不是提 供給用戶有效的信息而僅僅是為了提升在搜索結果中的排名, 以此提高網(wǎng)站訪問量。 值得注意的是, “ 垃圾網(wǎng)頁” 不僅嚴重干擾了用戶檢索的有 效信息, 而且給搜索引擎公司造成了極大的資源浪費。據(jù)研究
2 ] 表明 [ , 搜索引擎在爬行網(wǎng)頁、 處理網(wǎng)頁、 索引網(wǎng)頁、 響應用戶

圖1  垃圾網(wǎng)頁示例

查詢時在“ 垃圾網(wǎng)頁” 上的浪費, 達到了各種資源的 1 / 7 。所以, 對“ 垃圾網(wǎng)頁” 檢測的相關研究具有現(xiàn)實意義。

2  基于網(wǎng)頁內容的特征提取
雖然垃圾網(wǎng)頁與正常網(wǎng)頁在視覺效果上具有明顯差別, 但 是卻難以根據(jù)視覺特征進行檢測。因此, 我們根據(jù)網(wǎng)頁內容, 分 析、 提取垃圾網(wǎng)頁的特征, 并把檢測垃圾網(wǎng)頁看成一個分類問
6 ] 題[ ,, 采用機器學習的方法對網(wǎng)頁進行分類。

1  “ 垃圾網(wǎng)頁” 的定義
首先, 我們引用文獻[ 3 ] 對“ 垃圾網(wǎng)頁” 的定義: “ 任何企圖 欺騙搜索引擎網(wǎng)頁排名算法以獲得更高排名的網(wǎng)頁” 。 不同的搜索引擎在返回搜索結果時, 采用不同算法計算網(wǎng)
[ 4 ] [ 5 ] 頁在搜索結果中的排名, 如G o o g l e 采用 P a g e R a n k 算法計算

為了設計和評估本文的垃圾網(wǎng)頁檢測算法, 基于盡可能選
收稿日期: 2 0 0 8- 0 4- 2 3 。 賈志洋, 碩士生, 主研領域: We b挖掘, We b 應用測試。

    1 6 6    

計算機應用與軟件 2 . 3  其它特征

2 0 0 9年

用 We b 中的“ 隨機樣本” 以及網(wǎng)頁在相關搜索結果排名靠前的 原則, 我們于 2 0 0 8年 1月爬取了較具代表性的 1 1 4 7 0個中文網(wǎng) 頁。通過人工判別, 數(shù)據(jù)集中共有垃圾網(wǎng)頁 5 7 0個( 5 %) , 正常 網(wǎng)頁 1 0 9 0 0個( 9 5 %) 。

( 1 )網(wǎng)頁“< M E T A>” 標簽   在 H T M L語言中, “<M E T A > ” 標簽被用來描述一個 H T M L網(wǎng)頁文檔的屬性, 通常會用到 “ n a m e ” 屬性里的“ k e y w o r d s ” ( 網(wǎng)頁關鍵詞) 和“ d e s c r i p t i o n ” ( 網(wǎng) 頁描述) 兩個參數(shù)。大多數(shù)搜索引擎的搜索結果排名和 M E T A 標簽中的內容有很大關系, 以至于“ M E T A ” 標簽在一個頁面中 的作用僅次于網(wǎng)頁標題。所以很多垃圾網(wǎng)頁的 M E T A標簽的內 容會與正常網(wǎng)頁有很大區(qū)別。 為此, 我們計算了數(shù)據(jù)集中每一個網(wǎng)頁的“<M E T A>” 標 簽數(shù)量、 “< M E T A> ” 標簽“ n a m e ” 屬性值為“ k e y w o r d s ” 的“ 網(wǎng)頁 關鍵詞” 長度、 “< M E T A> ” 標簽“ n a m e ” 值為“ k e y w o r d s ” 的“ 網(wǎng) 頁描述” 長度等作為備選特征。 ( 2 )網(wǎng)頁 U R L長度 垃圾網(wǎng)頁一般是自動生成的, 因此垃 圾網(wǎng)頁的 U R L會與正常網(wǎng)頁具有顯著的區(qū)別, 為了提取此特 征, 我們把數(shù)據(jù)集中每一個網(wǎng)頁的 U R L長度提取出來, 將其作 為備選特征。 ( 3 )網(wǎng)頁長度   部分垃圾網(wǎng)頁為了與大量關鍵詞都 “ 相 關” , 不僅大量重復某個關鍵詞, 而且將大量熱門關鍵詞加入到 網(wǎng)頁中, 所以垃圾網(wǎng)頁的長度可能與正常網(wǎng)頁具有較大區(qū)別, 也 將網(wǎng)頁長度作為備選特征。

2 . 1  網(wǎng)頁標題長度
搜索引擎對網(wǎng)頁進行排名時, 會給網(wǎng)頁標題很高的權重, 所 以很多垃圾網(wǎng)頁就針對這點, 將大量與網(wǎng)頁內容無關的關鍵詞 羅列在一起作為網(wǎng)頁的標題, 這種技術為“ 關鍵詞堆砌” 。 為了測試網(wǎng)頁標題是否可以作為判定垃圾網(wǎng)頁的特征, 實 驗如下: 提取數(shù)據(jù)集中每個網(wǎng)頁 H T M L源代碼 “<t i t l e > ” 標記 中標題的長度, 并計算其分布( 如圖 2所示) 。

圖2  網(wǎng)頁標題長度與垃圾網(wǎng)頁的關系

( 4 )常用詞出現(xiàn)率 有些垃圾網(wǎng)頁的內容就是從熱門關鍵 詞詞典中選擇一部分, 這種垃圾網(wǎng)頁很可能出現(xiàn)常用詞過少或 過多的情況。針對這種行為, 首先建立一個常用詞詞典, 提取數(shù) 據(jù)集中每一個網(wǎng)頁的文本并進行分詞, 然后計算每個網(wǎng)頁中的 常用詞數(shù)量與此網(wǎng)頁包含的全部詞匯數(shù)量的比值, 將其作為備 選特征。 ( 5 )停用詞使用率 有些垃圾網(wǎng)頁的內容就是隨機選取的 一些熱門關鍵詞, 所以這些垃圾網(wǎng)頁中的停用詞的出現(xiàn)頻率與 正常網(wǎng)頁的停用詞出現(xiàn)頻率有很大的區(qū)別, 為了提取這個特征, 我們計算了數(shù)據(jù)集中每一個網(wǎng)頁的停用詞數(shù)量與此網(wǎng)頁包含全 部詞匯數(shù)量的比值, 將其作為備選特征。 ( 6 )可視文本 為了提供給用戶更多相關的搜索結果, 搜 索引擎在分析網(wǎng)頁的時候往往將 H T M L標簽里的部分關鍵詞也 收錄起來( 雖然這部分文本對用戶是不可見的) 。于是垃圾網(wǎng) 頁就可以將關鍵詞堆砌到網(wǎng)頁 H T M L標簽里。為了提取此特 征, 我們計算了去除 H T M L標簽后的網(wǎng)頁文本長度( 即可視文 本長度) , 將可視文本長度與未去除 H T M L標簽的網(wǎng)頁 H T M L 文本長度的比值作為備選特征。 ( 7 )鏈接文本數(shù)量 搜索引擎在計算網(wǎng)頁排名的時候考慮 到鏈接文本的因素。即如果網(wǎng)頁 A有一個指向網(wǎng)頁 B的鏈接, 其鏈接文本為 t , 那么即使網(wǎng)頁 B中沒有出現(xiàn)關鍵詞 t , 搜索引 擎也會認為網(wǎng)頁 B的內容是與 t 相關的。搜索引擎在計算網(wǎng)頁 排名的時候會考慮鏈接文本的情況。所以有些垃圾網(wǎng)頁的存在 就是為其他垃圾網(wǎng)頁提供熱門關鍵詞的鏈接文本。所以, 我們 提取出網(wǎng)頁中所有鏈接文本并計算其長度, 將其長度值與網(wǎng)頁 所有文本長度值( 包括鏈接文本) 的比值作為此備選特征。

圖 2由一個直方圖和一個折線圖組成。圖中 x 軸代表網(wǎng)頁 標題長度值, 左方的 y 軸與直方圖相對應, 即標題長度為 x 的網(wǎng) 頁數(shù)量占網(wǎng)頁總量的百分比; 右方的 y 軸與折線圖相對應, 即標 題長度為 x 的網(wǎng)頁中垃圾網(wǎng)頁所占的百分比( 垃圾網(wǎng)頁的可能 性) 。直方圖從標題長度為 4 0的位置開始服從對數(shù)正態(tài)分布, 隨著標題長度的增加, 垃圾網(wǎng)頁的可能性也逐漸遞增, 雖然在 1 1 0位置有一個噪點, 但網(wǎng)頁標題的長度大于 1 2 0時其是垃圾 網(wǎng)頁的可能性就高于 5 0 %?梢姡 標題長度可作為判定垃圾網(wǎng) 頁的一個較好的特征。

2 . 2  網(wǎng)頁壓縮率
搜索引擎在計算網(wǎng)頁文本與目標關鍵詞相關度時, 主要采用
7 ] 的是 S a l t o n 和M c G i l l 于1 9 7 3年提出的 T F / I D F算法[ 。T F / I D F

算法認為關鍵詞在文檔中的權重正比于其在文檔中的出現(xiàn)頻率, 反比于所有文檔中出現(xiàn)該關鍵詞的文檔數(shù)。根據(jù)此算法, 垃圾網(wǎng) 頁可能通過在網(wǎng)頁中大量重復同一關鍵詞以獲得更高的權重。 我們將網(wǎng)頁壓縮并計算其被壓縮前后大小的比值以獲取該 特征, 并將這個比值稱為網(wǎng)頁壓縮率, 計算數(shù)據(jù)集中每個網(wǎng)頁的 壓縮率, 得到結果如圖 3 ?梢姡 網(wǎng)頁壓縮率的分布服從正態(tài)分 布, 在0 . 3 1位置達到最高點, 在壓縮率小于 0 . 1 0時, 網(wǎng)頁是垃 圾網(wǎng)頁的可能性大于 6 0 %, 故網(wǎng)頁壓縮率也是判定垃圾網(wǎng)頁的 一個較好的特征。

3  使用分類器檢測垃圾網(wǎng)頁
前一部分中我們計算了網(wǎng)頁的若干特征分布, 但這些特征 不能單獨作為檢測垃圾網(wǎng)頁的決定性規(guī)則, 我們考慮將這些特
圖3  網(wǎng)頁壓縮率與垃圾網(wǎng)頁的關系

征結合起來并對垃圾網(wǎng)頁進行檢測。

  第1 1期   

賈志洋等: 基于內容的搜索引擎垃圾網(wǎng)頁檢測

  1 6 7

本文將垃圾網(wǎng)頁檢測看成一個分類問題, 通過建立一個分 類模型, 根據(jù)網(wǎng)頁內容計算其特征值, 使用分類器將其歸類到正 常網(wǎng)頁或者垃圾網(wǎng)頁類別中。我們實驗了以下分類方法: 基于
8 ] 9 ] 規(guī)則的分類方法 [ 、 基于樸素貝葉斯的分類方法 [ 以及基于決

分類器的數(shù)據(jù)。由此, 得到分類結果: 1 1 3 1 5個( 占9 8 . 6 %) 網(wǎng)頁 分類正確; 1 5 5個( 占1 . 4 %) 網(wǎng)頁分類錯誤。 綜上, 本分類器對正常網(wǎng)頁具有很好的識別效果,對垃圾 網(wǎng)頁也能進行較為準確的判別, 可實際應用于搜索引擎中。

策樹的分類方法。通過對比試驗結果( 如表 1所示) , 發(fā)現(xiàn)基于 決策樹的分類方法效果最佳。
表1  三種分類方法試驗結果比較 分類方法 網(wǎng)頁類別 正常網(wǎng)頁 基于規(guī)則 垃圾網(wǎng)頁 樸素 貝葉斯 正常網(wǎng)頁 垃圾網(wǎng)頁 正常網(wǎng)頁 決策樹 垃圾網(wǎng)頁 0 . 9 0 3 0 . 8 1 6 0 . 8 5 7 [1] J a n s e nB , S p i n kA . A nA n a l y s i s o f w e bd o c u m e n t s r e t r i e v e da n dv i e w e d [ C ] / / P r o c e e d i n g s o f I C I C ′ 0 3 . L a s V e g a s , N e v a d a , U S A , 2 0 0 3 : 6 5 6 9 . [2] N t o u l a sA , N a j o r kM, M a n a s s eM . D e t e c t i n gs p a mw e bp a g e st h r o u g h c o n t e n t a n a l y s i s [ C ] / / P r o c e e d i n g s o f t h e 1 5 t hI n t e r n a t i o n a l C o n f e r e n c e 8 3 9 2 . o nWo r l dWi d e We b . E d i n b u r g h , S c o t l a n d , 2 0 0 6 : [3] G y o n g y i Z , M o l i n a H . We bs p a mt a x o n o m y [ C ] / / P r o c e e d i n g s o f t h e 1 s t I n t e r n a t i o n a lWo r k s h o po nA d v e r s a r i a lI n f o r m a t i o nR e t r i e v a lo nt h e We b . C h i b a , J a p a n , 2 0 0 5 : 3 9 4 7 . [4] B r i nS , P a g eL . T h ea n a t o m yo f al a r g e ? s c a l eh y p e r t e x t u a l w e bs e a r c h e n g i n e [ C ] / / P r o c e e d i n g so f t h eS e v e n t hI n t e r n a t i o n a l C o n f e r e n c eo n Wo r l dWi d e We b . B r i s b a n e , A u s t r a l i a , 1 9 9 8 : 1 0 7 1 1 7 . [5] B i a n c h i n i M, G o r i M, S c a r s e l l i F . I n s i d eP a g e R a n k [ J ] . A C Mt r a n s a c ? t i o n s o nI n t e r n e t T e c h n o l o g y , 2 0 0 5 , 5 ( 1 ) : 9 2 1 2 8 . [6] F e t t e r l y D , M a n a s s eM, N a j o r kM . S p a m , d a m ns p a m , a n ds t a t i s t i c s : u ? s i n g s t a t i s t i c a l a n a l y s i s t o l o c a t es p a mw e bp a g e s [ C ] / / P r o c e e d i n g s o f t h eS e v e n t hI n t e r n a t i o n a l Wo r k s h o po nt h eWe ba n dD a t a b a s e s . P a r i s , F r a n c e , 2 0 0 4 : 1 6 . [ 7] S t i l t o nG , M c G i l l M . I n t r o d u c t i o nt o m o d e r ni n f o r m a t i o nr e t r i e v a l [ M] . N e wY o r k :M c G r a w ? H i l l I n c , 1 9 8 6 . [8] E i b e F r a n k , I a nWi t t e n . G e n e r a t i n g A c c u r a t e R u l e S e t s Wi t h o u t G l o b a l O p t i m i z a t i o n [ C ] / / P r o c e e d i n g so f t h eF i f t e e n t hI n t e r n a t i o n a l C o n f e r ? e n c e . S a nF r a n c i s c o , U S A , 1 9 9 8 : 1 4 4 1 5 1 . [9] J o h nGH , L a n g l e yP . E s t i m a t i n gC o n t i n u o u s D i s t r i b u t i o n s i nB a y e s i a n C l a s s i f i e r s [ C ] / / P r o c e e d i n g s o f t h e E l e v e n t hC o n f e r e n c e o nU n c e r t a i n ? 3 3 8 3 4 5 . t y i nA r t i f i c i a l I n t e l l i g e n c e . Q u e b e c , C a n a d a , 1 9 9 5 : [ 1 0 ]Q u i n l a nJ . C 4 . 5 : p r o g r a m sf o r m a c h i n el e a r n i n g [ M] . S a nF r a n c i s c o : M o r g a n ? K a u f m a nP u b l i s h e r s I n c , 1 9 9 3 . [ 1 1 ]G a nQ , S u e lT . I m p r o v i n gWe bs p a mc l a s s i f i e r su s i n gl i n ks t r u c t u r e [ C ] / / P r o c e e d i n g s o f t h e 3 r dI n t e r n a t i o n a l Wo r k s h o po nA d v e r s a r i a l I n ? f o r m a t i o nR e t r i e v a l o nt h e We b . B a n f f , A l b e r t a , C a n a d a , 2 0 0 7 : 1 7 2 0 . 0 . 8 9 3 0 . 9 9 1 0 . 7 6 9 0 . 9 9 1 0 . 8 0 7 0 . 9 8 6 0 . 8 3 3 0 . 9 9 5 0 . 8 4 8 0 . 9 8 9 0 . 7 9 9 0 . 9 9 3 準確率 0 . 9 9 0 召回率 0 . 9 9 5 F 1值 0 . 9 9 2

4  結 論
本文較為詳細地分析了多種垃圾網(wǎng)頁技術, 討論了幾種可 用于垃圾網(wǎng)頁的內容特征, 建立了基于決策樹的檢測模型并進 行了實驗, 實驗結果表明本文的垃圾網(wǎng)頁檢測方法是行之有效 的。由于本文是基于網(wǎng)頁內容的檢測, 而沒有考慮網(wǎng)頁的鏈接 結構, 故可以在以后的工作中考慮結合網(wǎng)頁的鏈接結構對垃圾
1 1 ] 網(wǎng)頁進行檢測 [ , 以期獲得更好的檢測結果。

參 考 文 獻

  以下主要關注基于決策樹的分類方法, 我們采用 C 4 . 5分
1 0 ] 類算法 [ 建立分類模型。 C 4 . 5算法工作原理為: 在給定訓練

數(shù)據(jù)集和相應的特征集后, 此算法建立一個類似于流程圖的樹 型結構, 其中每個內部節(jié)點表示在一個屬性上的測試, 每個分枝 表示一個測試的輸出, 算法使用稱為信息增益的基于熵的度量 作為啟發(fā)信息, 選擇能夠最好地將樣本分類的屬性作為樹形結 構中節(jié)點的“ 測試” 或“ 判定” 屬性。 我們使用試驗數(shù)據(jù)集中的網(wǎng)頁訓練分類器。由 C 4 . 5算法 建立的決策樹的一部分如圖 4所示, 其主要分類過程為: 測試此 決策樹的根節(jié)點所代表的網(wǎng)頁屬性值, 然后根據(jù)各分支所代表 的輸出, 選擇輸出到左邊節(jié)點或者右邊節(jié)點, 然后重復此步驟, 直至輸出節(jié)點為一個類別。例如: 如果一個網(wǎng)頁的 U R L長度大 于1 0 7 , 那么分類器就將此網(wǎng)頁歸類到垃圾網(wǎng)頁的類別中; 如果 一個網(wǎng)頁的 U R L長度小于等于 1 0 7 , 并且 M e t a 標簽數(shù)量少于等 于6 , 并且 M e t a 標簽 “ 描述” 長度大于 4 8 , 并且網(wǎng)頁長度大于 1 3 7 5 9 , 并且網(wǎng)頁壓縮率小于等于 0 . 2 2 6 , 那么這個網(wǎng)頁就被分 類器歸類到垃圾網(wǎng)頁的類別中。

???????????????????????
( 上接第 1 6 2頁)
[ 1 1 ] 叢爽. 面向 M A T L A B工具箱的神經(jīng)網(wǎng)絡理論與應用[ M] . 合肥: 中 圖4  C 4 . 5算法建立的檢測垃圾網(wǎng)頁的決策樹的一部分 國科學技術大學出版社, 1 9 9 8 . [ 1 2 ] 翁維勤, 周慶海. 過程控制系統(tǒng)及工程[ M] . 北京: 化學工業(yè)出版 社, 1 9 9 6 . [ 1 3 ] 龔劍平. F O P D T的模型不確定性界和內?刂破黥敯粜阅茉O計 [ J ] . 北京化工大學學報, 2 0 0 1 , 2 8 ( 1 ) : 7 6 7 8 .

最后, 我們采用了 1 0 ? 折交叉確認方法對本文的檢測模型進 行評估。1 0 ? 折交叉確認方法思想為: 將數(shù)據(jù)集中的數(shù)據(jù)隨機分 成1 0等份, 并執(zhí)行 1 0次訓練 / 測試步驟, 每個步驟中都是使用 9 個等份作為訓練分類器的數(shù)據(jù), 并使用剩余 1個等份作為測試



  本文關鍵詞:基于內容的搜索引擎垃圾網(wǎng)頁檢測,由筆耕文化傳播整理發(fā)布。



本文編號:208262

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/208262.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶b6839***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com