基于貝葉斯主題爬蟲的研究與實現(xiàn)
發(fā)布時間:2017-08-07 19:32
本文關(guān)鍵詞:基于貝葉斯主題爬蟲的研究與實現(xiàn)
更多相關(guān)文章: 貝葉斯分類器 主題爬蟲 中文分詞 特征選擇
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,人們越來越依賴于通過網(wǎng)絡(luò)搜索自己想要的信息,而目前網(wǎng)上信息量龐大,用戶對搜索引擎的功能和內(nèi)容提出了更高的要求,希望搜索引擎能夠為其提供更加專業(yè)的信息服務(wù),逐漸向主題化的方向發(fā)展。使用Web文檔分類技術(shù)可以根據(jù)用戶定義目標(biāo)主題,更加有效地篩選和管理Web資源,智能化地從Web上收集與主題相關(guān)的網(wǎng)頁集合,提高信息檢索的效率,它目前已成為主題爬蟲的研究熱點之一。本文基于貝葉斯分類器,針對主題爬蟲展開研究,研究工作主要包括以下幾項:1.主題爬蟲體系結(jié)構(gòu)的設(shè)計。通過分析主題爬蟲的工作原理,研究出主題爬蟲的功能組成結(jié)構(gòu),分析了HTML網(wǎng)頁的組織結(jié)構(gòu)關(guān)系,設(shè)計網(wǎng)頁鏈接提取方案,搜索策略以及主題相似度計算模型的方法。2.構(gòu)造財經(jīng)、體育和汽車三個主題分類器。通過研究樸素貝葉斯原理,應(yīng)用樸素貝葉斯分類算法,設(shè)置合適的平滑因子,通過樣本訓(xùn)練該分類器,構(gòu)造出了財經(jīng)、體育和汽車三個主題的分類器。3.網(wǎng)頁采集與內(nèi)容處理。研究了網(wǎng)頁處理相關(guān)技術(shù)如提取正文、中文分詞、統(tǒng)計詞頻、特征選擇和鏈接提取等內(nèi)容,通過分析開源框架IKAnalyzer,DF統(tǒng)計詞頻和HtmlParser,使得網(wǎng)頁內(nèi)容和鏈接提取和處理得到實現(xiàn)。4.實現(xiàn)主題爬蟲系統(tǒng)。通過建立Http請求并獲得網(wǎng)頁,對其提取正文,中文分詞,特征選擇,并使用分類器分析主題,同時融合多線程技術(shù),實現(xiàn)了基于貝葉斯分類器的主題爬蟲系統(tǒng)。最后,通過本文構(gòu)造出的財經(jīng)、體育和汽車這三個主題的分類器,從一些門戶網(wǎng)站中采集大量的網(wǎng)頁數(shù)據(jù),利用本研究中提出的方法對網(wǎng)頁進(jìn)行主題分類測試,爬蟲試驗效果優(yōu)良,完成了課題要求。
【關(guān)鍵詞】:貝葉斯分類器 主題爬蟲 中文分詞 特征選擇
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
,
本文編號:636355
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/636355.html
最近更新
教材專著