基于網(wǎng)絡(luò)爬蟲的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2023-11-17 19:13
互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,用戶對(duì)搜索結(jié)果的準(zhǔn)確性和高效性提出了更高的要求,為滿足用戶需求,垂直搜索引擎應(yīng)運(yùn)而生。隨著人工智能時(shí)代的到來,越來越多的用戶希望在互聯(lián)網(wǎng)中對(duì)人工智能領(lǐng)域的相關(guān)信息進(jìn)行精準(zhǔn)搜索。因此,本文通過對(duì)互聯(lián)網(wǎng)中海量信息進(jìn)行有策略的爬取和準(zhǔn)確的篩選,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)既專業(yè)又全面的面向人工智能領(lǐng)域的垂直搜索引擎,該系統(tǒng)主要由信息采集、索引建立、用戶搜索、用戶注冊登錄及后臺(tái)管理五大模塊構(gòu)成,能夠?yàn)橛脩籼峁┚_的主題搜索服務(wù),主要完成工作如下:(1)對(duì)傳統(tǒng)樸素貝葉斯分類算法的不足進(jìn)行了研究,提出了一種基于Jensen-Shannon(JS)散度特征加權(quán)的樸素貝葉斯分類算法。通過進(jìn)一步分析得出,僅用JS散度值來表示特征詞所能提供的信息量仍有改進(jìn)空間,于是將詞頻、文本頻、類頻相結(jié)合對(duì)JS散度做了進(jìn)一步的修正,依照特征詞對(duì)分類結(jié)果所產(chǎn)生作用的大小賦與其不同的權(quán)值,完成了對(duì)樸素貝葉斯算法的改進(jìn)。通過實(shí)驗(yàn)表明,基于JS散度特征加權(quán)的樸素貝葉斯分類算法是一種較好的分類算法。(2)完成了對(duì)人工智能領(lǐng)域相關(guān)信息的采集和處理。對(duì)Webmagic爬蟲框架進(jìn)行了深入研究,在其基礎(chǔ)上增加了網(wǎng)頁內(nèi)容的主題相關(guān)...
【文章頁數(shù)】:94 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 垂直搜索引擎的現(xiàn)狀與發(fā)展
1.2.1 國內(nèi)外研究現(xiàn)狀
1.2.2 垂直搜索引擎的發(fā)展方向
1.3 論文主要研究工作
1.4 論文組織結(jié)構(gòu)
第二章 垂直搜索引擎與系統(tǒng)相關(guān)技術(shù)
2.1 垂直搜索引擎
2.1.1 垂直搜索引擎的定義
2.1.2 垂直搜索引擎與通用搜索引擎的比較
2.1.3 垂直搜索引擎的特點(diǎn)
2.2 主題爬蟲相關(guān)技術(shù)
2.2.1 樸素貝葉斯分類算法
2.2.2 PageRank算法
2.2.3 Webmagic框架
2.3 索引相關(guān)技術(shù)
2.3.1 Solr搜索服務(wù)器
2.3.2 IK Analyzer分詞器
2.4 本章小結(jié)
第三章 樸素貝葉斯算法的研究與改進(jìn)
3.1 樸素貝葉斯算法的不足
3.2 樸素貝葉斯算法的改進(jìn)
3.2.1 JS散度及其局限性
3.2.2 特征詞詞頻TF
3.2.3 文本頻率DF
3.2.4 類別頻率CF
3.2.5 改進(jìn)的加權(quán)樸素貝葉斯算法
3.3 實(shí)驗(yàn)分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)
3.3.2 實(shí)驗(yàn)描述
3.3.3 實(shí)驗(yàn)結(jié)果
3.4 本章小結(jié)
第四章 面向人工智能領(lǐng)域垂直搜索引擎需求分析
4.1 系統(tǒng)可行性分析
4.1.1 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)目標(biāo)
4.1.2 需求可行性分析
4.1.3 技術(shù)可行性分析
4.2 系統(tǒng)功能需求分析
4.3 系統(tǒng)非功能需求分析
4.4 本章小結(jié)
第五章 面向人工智能領(lǐng)域垂直搜索引擎系統(tǒng)設(shè)計(jì)
5.1 系統(tǒng)總體設(shè)計(jì)
5.1.1 系統(tǒng)架構(gòu)設(shè)計(jì)
5.1.2 系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)
5.2 系統(tǒng)詳細(xì)設(shè)計(jì)
5.2.1 信息采集模塊設(shè)計(jì)
5.2.2 索引建立模塊設(shè)計(jì)
5.2.3 用戶搜索模塊設(shè)計(jì)
5.2.4 用戶注冊登錄模塊設(shè)計(jì)
5.2.5 系統(tǒng)后臺(tái)管理模塊設(shè)計(jì)
5.3 數(shù)據(jù)庫設(shè)計(jì)
5.4 本章小結(jié)
第六章 面向人工智能領(lǐng)域垂直搜索引擎實(shí)現(xiàn)與測試
6.1 系統(tǒng)環(huán)境的搭建與配置
6.1.1 Webmagic框架的搭建
6.1.2 Solr的搭建與配置
6.2 系統(tǒng)實(shí)現(xiàn)
6.2.1 信息采集模塊實(shí)現(xiàn)
6.2.2 索引建立模塊實(shí)現(xiàn)
6.2.3 用戶搜索模塊實(shí)現(xiàn)
6.2.4 用戶注冊登錄模塊實(shí)現(xiàn)
6.2.5 系統(tǒng)后臺(tái)管理模塊實(shí)現(xiàn)
6.3 系統(tǒng)測試
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 工作總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
附錄Ⅰ 攻讀碩士學(xué)位期間取得的研究成果
附錄Ⅱ 圖版
附錄Ⅲ 表版
本文編號(hào):3864725
【文章頁數(shù)】:94 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 垂直搜索引擎的現(xiàn)狀與發(fā)展
1.2.1 國內(nèi)外研究現(xiàn)狀
1.2.2 垂直搜索引擎的發(fā)展方向
1.3 論文主要研究工作
1.4 論文組織結(jié)構(gòu)
第二章 垂直搜索引擎與系統(tǒng)相關(guān)技術(shù)
2.1 垂直搜索引擎
2.1.1 垂直搜索引擎的定義
2.1.2 垂直搜索引擎與通用搜索引擎的比較
2.1.3 垂直搜索引擎的特點(diǎn)
2.2 主題爬蟲相關(guān)技術(shù)
2.2.1 樸素貝葉斯分類算法
2.2.2 PageRank算法
2.2.3 Webmagic框架
2.3 索引相關(guān)技術(shù)
2.3.1 Solr搜索服務(wù)器
2.3.2 IK Analyzer分詞器
2.4 本章小結(jié)
第三章 樸素貝葉斯算法的研究與改進(jìn)
3.1 樸素貝葉斯算法的不足
3.2 樸素貝葉斯算法的改進(jìn)
3.2.1 JS散度及其局限性
3.2.2 特征詞詞頻TF
3.2.3 文本頻率DF
3.2.4 類別頻率CF
3.2.5 改進(jìn)的加權(quán)樸素貝葉斯算法
3.3 實(shí)驗(yàn)分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)
3.3.2 實(shí)驗(yàn)描述
3.3.3 實(shí)驗(yàn)結(jié)果
3.4 本章小結(jié)
第四章 面向人工智能領(lǐng)域垂直搜索引擎需求分析
4.1 系統(tǒng)可行性分析
4.1.1 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)目標(biāo)
4.1.2 需求可行性分析
4.1.3 技術(shù)可行性分析
4.2 系統(tǒng)功能需求分析
4.3 系統(tǒng)非功能需求分析
4.4 本章小結(jié)
第五章 面向人工智能領(lǐng)域垂直搜索引擎系統(tǒng)設(shè)計(jì)
5.1 系統(tǒng)總體設(shè)計(jì)
5.1.1 系統(tǒng)架構(gòu)設(shè)計(jì)
5.1.2 系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)
5.2 系統(tǒng)詳細(xì)設(shè)計(jì)
5.2.1 信息采集模塊設(shè)計(jì)
5.2.2 索引建立模塊設(shè)計(jì)
5.2.3 用戶搜索模塊設(shè)計(jì)
5.2.4 用戶注冊登錄模塊設(shè)計(jì)
5.2.5 系統(tǒng)后臺(tái)管理模塊設(shè)計(jì)
5.3 數(shù)據(jù)庫設(shè)計(jì)
5.4 本章小結(jié)
第六章 面向人工智能領(lǐng)域垂直搜索引擎實(shí)現(xiàn)與測試
6.1 系統(tǒng)環(huán)境的搭建與配置
6.1.1 Webmagic框架的搭建
6.1.2 Solr的搭建與配置
6.2 系統(tǒng)實(shí)現(xiàn)
6.2.1 信息采集模塊實(shí)現(xiàn)
6.2.2 索引建立模塊實(shí)現(xiàn)
6.2.3 用戶搜索模塊實(shí)現(xiàn)
6.2.4 用戶注冊登錄模塊實(shí)現(xiàn)
6.2.5 系統(tǒng)后臺(tái)管理模塊實(shí)現(xiàn)
6.3 系統(tǒng)測試
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 工作總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
附錄Ⅰ 攻讀碩士學(xué)位期間取得的研究成果
附錄Ⅱ 圖版
附錄Ⅲ 表版
本文編號(hào):3864725
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3864725.html
最近更新
教材專著