面向新聞領域的小型垂直搜索引擎
【學位授予單位】:南京信息工程大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3
【圖文】:
方便對功能進行拓展。Heritrix最初是被設計用來網(wǎng)絡信息保存的網(wǎng)絡爬蟲。逡逑它由國外知名科技組織互聯(lián)網(wǎng)檔案計劃(Internet邋Archive)所研發(fā)[16]。它由Java語言編寫逡逑并且使用完全免費。如圖2-1所示,Heritrix的主控制界面可以通過Web瀏覽器訪問,逡逑并且有一個命令行工具可以用來啟動抓取工作。逡逑■邋I邋?f7fl邐Statas邋as邋ofH月.27,2017邋06:15:00邋GMT邋Alerts:邋KOntxv)逡逑JUJli邋U邋iA邋Lik邋CRAWLING邋JOBS邐Rl^MKG邋Job:邋sohu逡逑Admtn邋Console邋0邋jobs邋pendiag,邋1邋completed邐10邋URIs邋in邋23邋s邋(0.4/sec)逡逑了’Jobs邋Profiles邋Logs邋Reports邋Setup邋Help邐逡逑Crawler邋Status:邋CRAmiNG邋JOBS邋|邋Bold逡逑Jobs邐Memory逡逑Runarng:邋sohu邐21567邋KB邋used逡逑0邋peniSng
蟲必須只爬取新聞相關的網(wǎng)頁。Heritrix爬取過程中對網(wǎng)頁鏈接的遍歷方式是寬度遍歷逡逑[24],如圖2-4所示,即使設定的爬蟲入口網(wǎng)頁是特定的新聞網(wǎng)頁也很容易在遍歷過程逡逑中跳轉(zhuǎn)到其他類型的網(wǎng)頁。隨著遍歷程度的加深,爬取主題的偏移也會逐漸加重。結逡逑合以上兩點,對Heritrix進行爬取規(guī)則的定制,規(guī)定Heritrix只能對特定的網(wǎng)頁鏈接進逡逑行解析爬取是很有必要的。逡逑16逡逑
【參考文獻】
相關期刊論文 前10條
1 肖江;季節(jié);;基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應用[J];電子設計工程;2015年06期
2 杜選;;基于加權補集的樸素貝葉斯文本分類算法研究[J];計算機應用與軟件;2014年09期
3 王曉琴;李書琴;景旭;王蒙;;基于Nutch的農(nóng)業(yè)垂直搜索引擎研究[J];計算機工程與設計;2014年06期
4 張皓;周學廣;;基于Heritrix的增量式網(wǎng)絡爬蟲研究[J];軟件導刊;2013年11期
5 覃世安;李法運;;文本分類中TF-IDF方法的改進研究[J];現(xiàn)代圖書情報技術;2013年10期
6 劉海峰;蘇展;劉守生;;一種基于詞頻信息的改進CHI文本特征選擇[J];計算機工程與應用;2013年22期
7 李晶輝;張小剛;陳華;胡義函;;一種改進隱樸素貝葉斯算法的研究[J];小型微型計算機系統(tǒng);2013年07期
8 劉高軍;夏景隆;;基于Heritrix的網(wǎng)絡爬蟲研究與應用[J];軟件導刊;2013年05期
9 崔建明;劉建明;廖周宇;;基于SVM算法的文本分類技術研究[J];計算機仿真;2013年02期
10 連凱;;基于SVM的漢語評論情感分類方法研究[J];現(xiàn)代計算機(專業(yè)版);2012年12期
相關博士學位論文 前1條
1 平源;基于支持向量機的聚類及文本分類研究[D];北京郵電大學;2012年
相關碩士學位論文 前10條
1 秦添軼;多項文本挖掘關鍵技術的研究和實現(xiàn)[D];哈爾濱工業(yè)大學;2017年
2 李玉杰;半樸素貝葉斯分類器研究[D];中央民族大學;2017年
3 王峰;基于新浪微博輿情采集與傾向性分析系統(tǒng)[D];南京信息工程大學;2016年
4 顧盛;基于Lucene和Heritrix的小型主題搜索引擎的研究及實現(xiàn)[D];西安電子科技大學;2015年
5 張建偉;基于WEB文本挖掘的電子商務網(wǎng)站個性化推薦研究[D];安徽理工大學;2014年
6 李春生;面向海量數(shù)據(jù)的索引技術研究[D];華東師范大學;2013年
7 張暢暢;基于Heritrix和Lucene垂直搜索引擎的應用研究[D];昆明理工大學;2013年
8 王曉偉;垂直搜索引擎若干關鍵技術的研究[D];浙江大學;2007年
9 葉志剛;SVM在文本分類中的應用[D];哈爾濱工程大學;2006年
10 壽周翔;專業(yè)搜索引擎的研究與設計[D];浙江大學;2005年
本文編號:2724024
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2724024.html