網(wǎng)頁(yè)特征詞典生成模型的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2023-12-04 18:23
隨著WWW技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)成為人們發(fā)布和搜索信息的主要來(lái)源,網(wǎng)絡(luò)上存在的信息也越來(lái)越多,五花八門。面對(duì)龐大的信息,人們希望從網(wǎng)上獲得的信息更精確更快速,更加關(guān)注某一領(lǐng)域的動(dòng)態(tài)。同時(shí)青少年的上網(wǎng)行為日漸普遍,他們對(duì)不良網(wǎng)站沒(méi)有準(zhǔn)確的辨別力,對(duì)游戲網(wǎng)站沒(méi)有堅(jiān)定的抵抗力,為了避免青少年受到負(fù)面信息的影響,需要為他們提供一個(gè)健康的上網(wǎng)環(huán)境。因此當(dāng)前社會(huì)需要的是快速搜索所需資源,準(zhǔn)確過(guò)濾特定主題的網(wǎng)頁(yè),營(yíng)造一個(gè)綠色高效的互聯(lián)網(wǎng)環(huán)境。 網(wǎng)頁(yè)分類技術(shù)的出現(xiàn)使得網(wǎng)頁(yè)被準(zhǔn)確歸類,主題搜索更加容易便捷,也可以根據(jù)用戶需求屏蔽掉特定類型的網(wǎng)頁(yè)內(nèi)容,因此成為網(wǎng)絡(luò)海量信息挖掘中的研究熱點(diǎn)。 網(wǎng)頁(yè)分類流程包括網(wǎng)頁(yè)內(nèi)容爬取、文本預(yù)處理、網(wǎng)頁(yè)特征詞典表示、分類器訓(xùn)練四個(gè)部分,最終形成網(wǎng)頁(yè)自動(dòng)分類模型。但是前提條件是保證特征詞典能夠精確完整地表示網(wǎng)頁(yè)類型的特點(diǎn),不會(huì)與其他類型混合。因此本文提出了一種網(wǎng)頁(yè)特征詞典生成模型。 本論文做了以下工作: 1.對(duì)網(wǎng)頁(yè)自動(dòng)分類技術(shù)進(jìn)行了綜述,介紹了網(wǎng)頁(yè)自動(dòng)分類的流程以及主流的分類算法; 2.對(duì)網(wǎng)絡(luò)爬蟲技術(shù)和中文分詞技術(shù)進(jìn)行了研究,著重研究了常用的爬蟲方法和幾種爬行策略,中文分詞...
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 網(wǎng)頁(yè)分類技術(shù)的發(fā)展現(xiàn)狀
1.3 論文結(jié)構(gòu)與主要工作
1.4 本章小結(jié)
第二章 相關(guān)技術(shù)與研究工作綜述
2.1 網(wǎng)頁(yè)分類技術(shù)綜述
2.1.1 網(wǎng)頁(yè)自動(dòng)分類流程
2.1.2 典型分類算法
2.2 網(wǎng)絡(luò)爬蟲技術(shù)綜述
2.2.1 爬蟲方法
2.2.2 爬行策略
2.3 中文分詞技術(shù)綜述
2.3.1 中文分詞常用方法
2.3.2 歧義
2.3.3 未登錄詞與停用詞
2.3.4 常用中文分詞開源項(xiàng)目
2.4 相關(guān)工具介紹
2.4.1 Nutch
2.4.2 Lucene
2.4.3 Luke
2.5 網(wǎng)絡(luò)爬蟲和中文分詞技術(shù)研究現(xiàn)狀
2.6 本章小結(jié)
第三章 網(wǎng)頁(yè)特征詞典生成模型的分析與概要設(shè)計(jì)
3.1 模型的整體分析
3.2 爬蟲模塊的分析與概要設(shè)計(jì)
3.2.1 URL管理子模塊
3.2.2 頁(yè)面爬取子模塊
3.2.3 信息過(guò)濾子模塊
3.3 分詞模塊的分析與概要設(shè)計(jì)
3.3.1 分詞前處理子模塊
3.3.2 中文分詞子模塊
3.3.3 特征詞計(jì)算子模塊
3.4 本章小結(jié)
第四章 網(wǎng)頁(yè)特征詞典生成模型的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.1 爬蟲模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.1.1 URL管理子模塊
4.1.2 頁(yè)面爬取子模塊
4.1.3 信息過(guò)濾子模塊
4.2 分詞模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.2.1 分詞前處理子模塊
4.2.2 中文分詞子模塊
4.2.3 特征詞計(jì)算子模塊
4.3 本章小結(jié)
第五章 網(wǎng)頁(yè)特征詞典生成模型的測(cè)試
5.1 生成汽車類別網(wǎng)頁(yè)特征詞典
5.2 測(cè)試汽車類別網(wǎng)頁(yè)特征詞典
5.3 結(jié)果分析
5.4 本章小結(jié)
第六章 總結(jié)及展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
本文編號(hào):3870467
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 網(wǎng)頁(yè)分類技術(shù)的發(fā)展現(xiàn)狀
1.3 論文結(jié)構(gòu)與主要工作
1.4 本章小結(jié)
第二章 相關(guān)技術(shù)與研究工作綜述
2.1 網(wǎng)頁(yè)分類技術(shù)綜述
2.1.1 網(wǎng)頁(yè)自動(dòng)分類流程
2.1.2 典型分類算法
2.2 網(wǎng)絡(luò)爬蟲技術(shù)綜述
2.2.1 爬蟲方法
2.2.2 爬行策略
2.3 中文分詞技術(shù)綜述
2.3.1 中文分詞常用方法
2.3.2 歧義
2.3.3 未登錄詞與停用詞
2.3.4 常用中文分詞開源項(xiàng)目
2.4 相關(guān)工具介紹
2.4.1 Nutch
2.4.2 Lucene
2.4.3 Luke
2.5 網(wǎng)絡(luò)爬蟲和中文分詞技術(shù)研究現(xiàn)狀
2.6 本章小結(jié)
第三章 網(wǎng)頁(yè)特征詞典生成模型的分析與概要設(shè)計(jì)
3.1 模型的整體分析
3.2 爬蟲模塊的分析與概要設(shè)計(jì)
3.2.1 URL管理子模塊
3.2.2 頁(yè)面爬取子模塊
3.2.3 信息過(guò)濾子模塊
3.3 分詞模塊的分析與概要設(shè)計(jì)
3.3.1 分詞前處理子模塊
3.3.2 中文分詞子模塊
3.3.3 特征詞計(jì)算子模塊
3.4 本章小結(jié)
第四章 網(wǎng)頁(yè)特征詞典生成模型的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.1 爬蟲模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.1.1 URL管理子模塊
4.1.2 頁(yè)面爬取子模塊
4.1.3 信息過(guò)濾子模塊
4.2 分詞模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.2.1 分詞前處理子模塊
4.2.2 中文分詞子模塊
4.2.3 特征詞計(jì)算子模塊
4.3 本章小結(jié)
第五章 網(wǎng)頁(yè)特征詞典生成模型的測(cè)試
5.1 生成汽車類別網(wǎng)頁(yè)特征詞典
5.2 測(cè)試汽車類別網(wǎng)頁(yè)特征詞典
5.3 結(jié)果分析
5.4 本章小結(jié)
第六章 總結(jié)及展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
本文編號(hào):3870467
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3870467.html
最近更新
教材專著