天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于半監(jiān)督的網(wǎng)頁分類

發(fā)布時(shí)間:2021-07-10 01:45
  網(wǎng)絡(luò)文本信息飛速增長,對(duì)海量網(wǎng)絡(luò)文本進(jìn)行自動(dòng)分類并從中找出我們所需要的信息是一項(xiàng)非常迫切的需求,然而,傳統(tǒng)的全監(jiān)督學(xué)習(xí)分類器要想有好的分類效果,首先需要人工標(biāo)注數(shù)據(jù),訓(xùn)練好模型之后,才可以分類。在海量數(shù)據(jù)面前,標(biāo)注成本極高,用戶標(biāo)注不一致,而數(shù)據(jù)采集和存儲(chǔ)技術(shù)卻一直在飛速發(fā)展,這給本文的設(shè)想提供了技術(shù)基礎(chǔ)。真實(shí)網(wǎng)絡(luò)文本中通常存在大量未標(biāo)記的數(shù)據(jù),僅有少量現(xiàn)成的已標(biāo)記數(shù)據(jù),如果我們假設(shè)大量未標(biāo)記數(shù)據(jù)與少量已標(biāo)記數(shù)據(jù)是服從相同分布的,二者結(jié)合之后構(gòu)建一個(gè)質(zhì)量與數(shù)量都滿足需求的訓(xùn)練數(shù)據(jù)集,那么最終訓(xùn)練出的分類器的分類效果將會(huì)和大量標(biāo)記數(shù)據(jù)訓(xùn)練好的全監(jiān)督分類器相當(dāng)。本文嘗試了主流的基于半監(jiān)督學(xué)習(xí)的分類器,分類數(shù)據(jù)直接使用了最真實(shí)的網(wǎng)絡(luò)數(shù)據(jù),除了正文提取,簡單的語言篩選,廣告、垃圾文本過濾,最大限度地保留了原始的網(wǎng)絡(luò)內(nèi)容。為了提高分類效果,在嘗試了幾種主要的特征選擇和特征抽取方法的基礎(chǔ)上,還引入了半監(jiān)督的宏特征。在分類器的選擇方面,本文嘗試了三類基于不同原理的分類器:傳統(tǒng)的EM,基于直推學(xué)習(xí)的TSVM和基于深度架構(gòu)的DBN。在特征方面,本文在傳統(tǒng)特征方法上做了實(shí)驗(yàn),為了提高TSVM的精度,本文首... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:63 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題背景
    1.2 課題目的及意義
    1.3 國內(nèi)外相關(guān)技術(shù)發(fā)展現(xiàn)狀
        1.3.1 文本分類技術(shù)的發(fā)展
        1.3.2 半監(jiān)督學(xué)習(xí)的發(fā)展
        1.3.3 半監(jiān)督文本分類的不足
    1.4 本文的主要研究內(nèi)容和組織結(jié)構(gòu)
第2章 半監(jiān)督文本分類關(guān)鍵技術(shù)
    2.1 半監(jiān)督學(xué)習(xí)的 PAC 模型
    2.2 文本標(biāo)引和特征降維
        2.2.1 文本的特征選擇方法
        2.2.2 文本的特征抽取方法
    2.3 評(píng)估
    2.4 本章小結(jié)
第3章 半監(jiān)督分類器與特征選擇
    3.1 基于 EM 的半監(jiān)督分類器算法實(shí)現(xiàn)
    3.2 基于 TSV M 的半監(jiān)督分類器實(shí)現(xiàn)
    3.3 基于 D B N 的半監(jiān)督分類器實(shí)現(xiàn)
    3.4 基于宏特征的文本特征抽取
    3.5 正文提取
    3.6 語言過濾
    3.7 網(wǎng)頁篩選
    3.8 本章小結(jié)
第4章 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    4.1 半監(jiān)督文本分類實(shí)驗(yàn)平臺(tái)
    4.2 網(wǎng)頁處理系統(tǒng)
    4.3 半監(jiān)督分類器與特征模塊
    4.4 本章小結(jié)
第5章 實(shí)驗(yàn)評(píng)測與結(jié)果分析
    5.1 實(shí)驗(yàn)?zāi)康?br>    5.2 評(píng)測方法
    5.3 半監(jiān)督分類器在向量數(shù)據(jù)集上的橫向比較
        5.3.1 實(shí)驗(yàn)數(shù)據(jù)集
        5.3.2 實(shí)驗(yàn)結(jié)果及分析
    5.4 特征選擇方法對(duì)半監(jiān)督文本分類的影響
        5.4.1 實(shí)驗(yàn)數(shù)據(jù)集
        5.4.2 EM實(shí)驗(yàn)結(jié)果
        5.4.3 EM實(shí)驗(yàn)分析
        5.4.4 TSVM實(shí)驗(yàn)結(jié)果
        5.4.5 TSVM 實(shí)驗(yàn)分析
        5.4.6 DBN 實(shí)驗(yàn)結(jié)果
        5.4.7 DBN 實(shí)驗(yàn)分析
        5.4.8 宏特征對(duì)半監(jiān)督分類性能的影響
        5.4.9 半監(jiān)督算法在小數(shù)據(jù)集上的分類特點(diǎn)
    5.5 半監(jiān)督文本分類應(yīng)用到大規(guī)模網(wǎng)頁分類的效果
        5.5.1 實(shí)驗(yàn)數(shù)據(jù)集
        5.5.2 實(shí)驗(yàn)內(nèi)容
        5.5.3 實(shí)驗(yàn)結(jié)果及分析
        5.5.4 半監(jiān)督分類在大規(guī)模網(wǎng)頁數(shù)據(jù)集上的缺陷
    5.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝



本文編號(hào):3274930

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3274930.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4b2f2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com