天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文網(wǎng)頁自動分類系統(tǒng)及關(guān)鍵技術(shù)研究與實(shí)現(xiàn)

發(fā)布時間:2023-05-11 05:54
  隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁數(shù)量也呈爆炸式的增長。有效組織并管理這些海量網(wǎng)頁的方法之一就是利用網(wǎng)頁自動分類技術(shù)對其進(jìn)行分類。由于目前網(wǎng)頁內(nèi)容紛繁復(fù)雜,而且網(wǎng)頁文本長度長短不一,將傳統(tǒng)的基于機(jī)器學(xué)習(xí)的分類方法應(yīng)該用到大規(guī)模網(wǎng)頁分類中時,往往準(zhǔn)確率偏低,這使得這些在傳統(tǒng)分類中表現(xiàn)出色的方法難以有效解決大規(guī)模網(wǎng)頁分類問題。因此,如何針對目前互聯(lián)網(wǎng)類別體系復(fù)雜、網(wǎng)頁數(shù)量巨大的特點(diǎn)研究一種高效的網(wǎng)頁自動分類技術(shù)是一個亟待解決的問題。本文針對這一類問題的解決做了相關(guān)的研究,主要研究了目前分類所用到的常用方法,指出了其存在的不足,并提出了相應(yīng)的解決方案,最后通過實(shí)驗(yàn)證明了這些方法的有效性。完成的主要工作和取得的研究成果如下:1、對目前的網(wǎng)頁分類相關(guān)理論進(jìn)行了研究,包括網(wǎng)頁的分類過程、網(wǎng)頁表示模型、中文分詞技術(shù)、特征抽取方法及網(wǎng)頁分類算法等。2、研究了目前常用的分類算法,針對目前自動獲取的網(wǎng)頁內(nèi)容文本短小的問題,提出了一種基于LabeledLDA模型的特征詞空間擴(kuò)充方法,通過實(shí)驗(yàn)證明了其可行性。3、針對新聞類別等網(wǎng)頁內(nèi)容雜亂,分類準(zhǔn)確率較低的現(xiàn)象,提出了一種基于URL結(jié)構(gòu)及標(biāo)題的預(yù)...

【文章頁數(shù)】:71 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景及意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2
        1.2.1 國外的研究現(xiàn)狀
        1.2.2 國內(nèi)的研究現(xiàn)狀
    1.3 主要研究內(nèi)容
    1.4 論文組織結(jié)構(gòu)
第二章 網(wǎng)頁分類相關(guān)理論研究
    2.1 網(wǎng)頁分類問題描述
        2.1.1 網(wǎng)頁分類的定義
        2.1.2 網(wǎng)頁分類一般過程
    2.2 中文分詞技術(shù)
        2.2.1 基于子串的分詞
        2.2.2 基于統(tǒng)計的分詞
    2.3 特征抽取方法
        2.3.1 常用特征選取方法
        2.3.2 目前特征選取方法存在的問題
        2.3.3 特征選擇方法的改進(jìn)
    2.4 特征權(quán)重計算
        2.4.1 TF-IDF
        2.4.2 TF-IDF的不足
    2.5 網(wǎng)頁表示模型
    2.6 常用分類算法介紹
        2.6.1 K最鄰近結(jié)點(diǎn)方法
        2.6.2 樸素貝葉斯方法
        2.6.3 支持向量機(jī)方法
    2.7 本章小結(jié)
第三章 系統(tǒng)關(guān)鍵算法設(shè)計與驗(yàn)證
    3.1 短文本分類算法
        3.1.1 短文本分類算法背景介紹
        3.1.2 短文本分類算法實(shí)現(xiàn)與驗(yàn)證
    3.2 預(yù)分類算法
        3.2.1 預(yù)分類的理論依據(jù)
        3.2.2 網(wǎng)頁標(biāo)題關(guān)鍵詞映射表的生成
        3.2.3 URL關(guān)鍵詞映射表生成
        3.2.4 預(yù)分類算法描述
    3.3 多分類歸納模型
        3.3.1 多分類歸納模型
        3.3.2 多分類融合算法
        3.3.3 多分類歸納模型實(shí)驗(yàn)分析
    3.4 本章小結(jié)
第四章 網(wǎng)頁自動分類系統(tǒng)設(shè)計與實(shí)現(xiàn)
    4.1 網(wǎng)頁自動分類系統(tǒng)設(shè)計
        4.1.1 分類體系
        4.1.2 分類系統(tǒng)架構(gòu)
        4.1.3 系統(tǒng)功能模塊設(shè)計
    4.2 網(wǎng)頁自動分類系統(tǒng)實(shí)現(xiàn)
        4.2.1 網(wǎng)頁獲取模塊實(shí)現(xiàn)
        4.2.2 網(wǎng)頁解析模塊實(shí)現(xiàn)
        4.2.3 網(wǎng)頁分類模塊架構(gòu)設(shè)計及實(shí)現(xiàn)
        4.2.4 網(wǎng)頁存儲模塊實(shí)現(xiàn)
    4.3 本章小結(jié)
第五章 系統(tǒng)性能測試
    5.1 實(shí)驗(yàn)的環(huán)境
    5.2 實(shí)驗(yàn)結(jié)果評價方法
        5.2.1 召回率和準(zhǔn)確率
        5.2.2 F估計值
        5.2.3 微平均和宏平均
    5.3 實(shí)驗(yàn)數(shù)據(jù)
    5.4 實(shí)驗(yàn)及結(jié)果分析
        5.4.1 特征項(xiàng)規(guī)模選擇實(shí)驗(yàn)
        5.4.2 特征選擇算法實(shí)驗(yàn)
        5.4.3 分類算法對比實(shí)驗(yàn)
        5.4.4 系統(tǒng)性能分析實(shí)驗(yàn)
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 工作總結(jié)
    6.2 主要創(chuàng)新點(diǎn)
    6.3 下一步工作
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果



本文編號:3814297

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3814297.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶315d9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com