基于貝葉斯主題爬蟲的研究與實現(xiàn)

發(fā)布時間：2017-08-07 19:32

本文關(guān)鍵詞：基于貝葉斯主題爬蟲的研究與實現(xiàn)

更多相關(guān)文章： 貝葉斯分類器 主題爬蟲 中文分詞 特征選擇

【摘要】：隨著互聯(lián)網(wǎng)的發(fā)展,人們越來越依賴于通過網(wǎng)絡(luò)搜索自己想要的信息,而目前網(wǎng)上信息量龐大,用戶對搜索引擎的功能和內(nèi)容提出了更高的要求,希望搜索引擎能夠為其提供更加專業(yè)的信息服務(wù),逐漸向主題化的方向發(fā)展。使用Web文檔分類技術(shù)可以根據(jù)用戶定義目標(biāo)主題,更加有效地篩選和管理Web資源,智能化地從Web上收集與主題相關(guān)的網(wǎng)頁集合,提高信息檢索的效率,它目前已成為主題爬蟲的研究熱點之一。本文基于貝葉斯分類器,針對主題爬蟲展開研究,研究工作主要包括以下幾項:1.主題爬蟲體系結(jié)構(gòu)的設(shè)計。通過分析主題爬蟲的工作原理,研究出主題爬蟲的功能組成結(jié)構(gòu),分析了HTML網(wǎng)頁的組織結(jié)構(gòu)關(guān)系,設(shè)計網(wǎng)頁鏈接提取方案,搜索策略以及主題相似度計算模型的方法。2.構(gòu)造財經(jīng)、體育和汽車三個主題分類器。通過研究樸素貝葉斯原理,應(yīng)用樸素貝葉斯分類算法,設(shè)置合適的平滑因子,通過樣本訓(xùn)練該分類器,構(gòu)造出了財經(jīng)、體育和汽車三個主題的分類器。3.網(wǎng)頁采集與內(nèi)容處理。研究了網(wǎng)頁處理相關(guān)技術(shù)如提取正文、中文分詞、統(tǒng)計詞頻、特征選擇和鏈接提取等內(nèi)容,通過分析開源框架IKAnalyzer,DF統(tǒng)計詞頻和HtmlParser,使得網(wǎng)頁內(nèi)容和鏈接提取和處理得到實現(xiàn)。4.實現(xiàn)主題爬蟲系統(tǒng)。通過建立Http請求并獲得網(wǎng)頁,對其提取正文,中文分詞,特征選擇,并使用分類器分析主題,同時融合多線程技術(shù),實現(xiàn)了基于貝葉斯分類器的主題爬蟲系統(tǒng)。最后,通過本文構(gòu)造出的財經(jīng)、體育和汽車這三個主題的分類器,從一些門戶網(wǎng)站中采集大量的網(wǎng)頁數(shù)據(jù),利用本研究中提出的方法對網(wǎng)頁進行主題分類測試,爬蟲試驗效果優(yōu)良,完成了課題要求。
【關(guān)鍵詞】：貝葉斯分類器 主題爬蟲 中文分詞 特征選擇
【學(xué)位授予單位】：北京工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP391.1
，

本文編號：636355

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/636355.html

上一篇：2型糖尿病患者授權(quán)教育效果的系統(tǒng)評價
下一篇：基于Fish-search算法的垂直搜索引擎研究與設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于貝葉斯主題爬蟲的研究與實現(xiàn)