基于內(nèi)容的不良網(wǎng)頁信息過濾方法研究
發(fā)布時(shí)間:2022-01-06 17:36
隨著信息時(shí)代的迅猛發(fā)展,網(wǎng)絡(luò)信息在帶給我方便的同時(shí),也帶來了很多垃圾信息和有害信息。這些信息不但影響我們對(duì)網(wǎng)絡(luò)的正常使用,并且有些不當(dāng)內(nèi)容對(duì)青少年網(wǎng)友毒害很深。因此面對(duì)龐大的網(wǎng)頁數(shù)量,如何高效的過濾網(wǎng)頁信息,逐漸被人們所重視。本文以基于網(wǎng)頁文字內(nèi)容的過濾為主要研究方向,詳細(xì)介紹了網(wǎng)頁過濾的主要流程和當(dāng)前主要的過濾方法。文中首先介紹了采用以基于文字內(nèi)容過濾網(wǎng)頁的合理性,以網(wǎng)頁過濾的流程為主要線索,采用了以下環(huán)節(jié):文本預(yù)處理,特征選擇,特征加權(quán),分類計(jì)算,性能評(píng)估等。分析比較了當(dāng)前主流的方法,以提高特征獨(dú)立性和提高分類準(zhǔn)確率為研究方向,提出了基于特征簇的向量模型和雙層過濾的分類器架構(gòu)。通過實(shí)驗(yàn)對(duì)比,雙層過濾器在正確率、錯(cuò)誤率、召回率、精確率和F1值等評(píng)價(jià)標(biāo)準(zhǔn)上,要好于單層的樸素貝葉斯或支持向量機(jī)分類。
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國網(wǎng)民規(guī)模與普及率
況下會(huì)有文字進(jìn)行概括說明。對(duì)于一個(gè)網(wǎng)頁文字信息的提取和解讀可以判定該網(wǎng)頁為不良信息的載體,基于文本內(nèi)容的網(wǎng)頁過濾就是首先把網(wǎng)頁中的文字信息進(jìn)行,然后表示成計(jì)算機(jī)能運(yùn)算處理的形式,通過分類算法對(duì)網(wǎng)頁進(jìn)行過濾分類。.1 網(wǎng)頁信息的傳輸和 HTML 文檔標(biāo)簽加權(quán)Web 的應(yīng)用層協(xié)議 HTTP 是網(wǎng)頁的核心,我們通常瀏覽的網(wǎng)頁信息都是通TTP(超文本傳輸協(xié)議)來傳送的,它把 www 遠(yuǎn)端服務(wù)器的超文本信息傳送到客戶瀏,它可以使網(wǎng)絡(luò)傳輸流量減少,使瀏覽器更加高效,其不但可以快速的傳輸超文本,還能準(zhǔn)確的傳輸客戶想要的部分,自 www 誕生以來,方便快捷信息便觸手可得個(gè)絢麗多彩的世界就展現(xiàn)在我們面前了。首先看一下 HTTP 協(xié)議是如何工作的[11]:HTTP 協(xié)議是基于請(qǐng)求→響應(yīng)模式的,相當(dāng)于客戶機(jī)/服務(wù)器,客戶和服務(wù)器的信換過程分為 4 個(gè)階段:建立連接,發(fā)送請(qǐng)求信息,回送響應(yīng)信息,關(guān)閉連接,具體過程如圖所示:
圖 2.2 HTML 文檔一般格式代表的含義不同,所以針對(duì)網(wǎng)頁這種特殊形式的信息載方面要過濾掉其中圖片、腳本等非文字的信息內(nèi)容,簡<IMG>圖片,<SCRIPT>腳本,<BUTTON>按鈕,<IN接刪除;另一方面對(duì)于重要的標(biāo)簽中內(nèi)容,要強(qiáng)調(diào)、突的歸類起到關(guān)鍵作用,本文在過濾時(shí)主要考慮以下標(biāo)簽題,其概括了整個(gè) web 信息的內(nèi)容,是整篇文檔的精華高權(quán)值。>..<H3>……<H6>各級(jí)小標(biāo)題,這是各級(jí)段落內(nèi)容的中內(nèi)容,其重要程度由 H1 到 H6 逐漸降低。,<U>下劃線,<I>斜體字,三種格式改變了文字顯示效調(diào)顯示,往往凸顯文檔的意圖。的確定,需要多次試驗(yàn)反復(fù)調(diào)試,參考[12] [13] [14]和自己表 2.1 HTML 文檔標(biāo)記權(quán)值系數(shù)表
本文編號(hào):3572883
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國網(wǎng)民規(guī)模與普及率
況下會(huì)有文字進(jìn)行概括說明。對(duì)于一個(gè)網(wǎng)頁文字信息的提取和解讀可以判定該網(wǎng)頁為不良信息的載體,基于文本內(nèi)容的網(wǎng)頁過濾就是首先把網(wǎng)頁中的文字信息進(jìn)行,然后表示成計(jì)算機(jī)能運(yùn)算處理的形式,通過分類算法對(duì)網(wǎng)頁進(jìn)行過濾分類。.1 網(wǎng)頁信息的傳輸和 HTML 文檔標(biāo)簽加權(quán)Web 的應(yīng)用層協(xié)議 HTTP 是網(wǎng)頁的核心,我們通常瀏覽的網(wǎng)頁信息都是通TTP(超文本傳輸協(xié)議)來傳送的,它把 www 遠(yuǎn)端服務(wù)器的超文本信息傳送到客戶瀏,它可以使網(wǎng)絡(luò)傳輸流量減少,使瀏覽器更加高效,其不但可以快速的傳輸超文本,還能準(zhǔn)確的傳輸客戶想要的部分,自 www 誕生以來,方便快捷信息便觸手可得個(gè)絢麗多彩的世界就展現(xiàn)在我們面前了。首先看一下 HTTP 協(xié)議是如何工作的[11]:HTTP 協(xié)議是基于請(qǐng)求→響應(yīng)模式的,相當(dāng)于客戶機(jī)/服務(wù)器,客戶和服務(wù)器的信換過程分為 4 個(gè)階段:建立連接,發(fā)送請(qǐng)求信息,回送響應(yīng)信息,關(guān)閉連接,具體過程如圖所示:
圖 2.2 HTML 文檔一般格式代表的含義不同,所以針對(duì)網(wǎng)頁這種特殊形式的信息載方面要過濾掉其中圖片、腳本等非文字的信息內(nèi)容,簡<IMG>圖片,<SCRIPT>腳本,<BUTTON>按鈕,<IN接刪除;另一方面對(duì)于重要的標(biāo)簽中內(nèi)容,要強(qiáng)調(diào)、突的歸類起到關(guān)鍵作用,本文在過濾時(shí)主要考慮以下標(biāo)簽題,其概括了整個(gè) web 信息的內(nèi)容,是整篇文檔的精華高權(quán)值。>..<H3>……<H6>各級(jí)小標(biāo)題,這是各級(jí)段落內(nèi)容的中內(nèi)容,其重要程度由 H1 到 H6 逐漸降低。,<U>下劃線,<I>斜體字,三種格式改變了文字顯示效調(diào)顯示,往往凸顯文檔的意圖。的確定,需要多次試驗(yàn)反復(fù)調(diào)試,參考[12] [13] [14]和自己表 2.1 HTML 文檔標(biāo)記權(quán)值系數(shù)表
本文編號(hào):3572883
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3572883.html
最近更新
教材專著