天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向新聞領域的小型垂直搜索引擎

發(fā)布時間:2020-06-21 11:50
【摘要】:垂直搜索引擎是一種面向特定領域的搜索引擎。與傳統(tǒng)的通用搜索引擎相比垂直搜索引擎更能滿足特定人群的搜索需求,對用戶群作了領域細分。當用戶輸入檢索關鍵詞時,垂直搜索引擎會精確的返回該特定領域的相關信息。本文提出并設計了一種面向新聞領域的的小型垂直搜索引擎。為此設計了一套基于Heritrix的新聞主題網(wǎng)絡爬蟲。對爬蟲的網(wǎng)頁抓取規(guī)則以及網(wǎng)頁迭代遍歷的方式進行了主題定制,使得Heritrix可以僅爬取新聞網(wǎng)頁從而過濾其他冗余無用的網(wǎng)頁數(shù)據(jù)。并且針對Heritrix在相同網(wǎng)絡域名下爬取網(wǎng)頁時無法開啟多線程的問題,對Heritrix的爬蟲隊列進行了改進。引入BKDRHash算法,對每一個待爬取新聞網(wǎng)頁的URL計算并生成單獨的哈希值,最后根據(jù)哈希值將URL平均分配至每個爬蟲線程隊列中。根據(jù)實驗對比,大大地改進了爬蟲的網(wǎng)頁爬取速度。同時本文針對新聞文本類別混亂不清的問題設計了文本分類算法,它是一種基于支持向量機的不均衡文本分類算法。該算法針對不均衡文本數(shù)據(jù)集問題,運用合成少數(shù)類過采樣算法(SMOTE)生成插值樣本均衡數(shù)據(jù)集,并通過粒子群優(yōu)化算法(PSO)迭代進化得到最佳的插值樣本,對支持向量機的文本分類能力進行了優(yōu)化。實驗結果表明,新算法大幅優(yōu)化了支持向量機分類不均衡文本數(shù)據(jù)集的能力。本文對網(wǎng)頁排序理論進行了剖析,設計了一種基于網(wǎng)頁主題相關度和更新頻率的PageRank網(wǎng)頁排序算法。該算法在PageRank算法的基礎上兼顧了網(wǎng)頁的主題相關度,并引入了網(wǎng)頁更新頻率因子對新網(wǎng)頁的排序優(yōu)先級進行了調(diào)整。實驗表明,該算法可以有效地改進搜索引擎的查詢準確率。結合上述兩種算法,本文基于Lucene檢索框架構建了新聞垂直搜索引擎系統(tǒng)。使用Lucene對新聞數(shù)據(jù)做索引處理之后,用戶在搜索界面可直接進行新聞搜索查詢。該搜索引擎系統(tǒng)在進行新聞檢索之前可以提前選擇新聞類別,提高了新聞檢索的垂直度和細分度。
【學位授予單位】:南京信息工程大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3
【圖文】:

界面圖,主控制,界面,網(wǎng)絡信息保存


方便對功能進行拓展。Heritrix最初是被設計用來網(wǎng)絡信息保存的網(wǎng)絡爬蟲。逡逑它由國外知名科技組織互聯(lián)網(wǎng)檔案計劃(Internet邋Archive)所研發(fā)[16]。它由Java語言編寫逡逑并且使用完全免費。如圖2-1所示,Heritrix的主控制界面可以通過Web瀏覽器訪問,逡逑并且有一個命令行工具可以用來啟動抓取工作。逡逑■邋I邋?f7fl邐Statas邋as邋ofH月.27,2017邋06:15:00邋GMT邋Alerts:邋KOntxv)逡逑JUJli邋U邋iA邋Lik邋CRAWLING邋JOBS邐Rl^MKG邋Job:邋sohu逡逑Admtn邋Console邋0邋jobs邋pendiag,邋1邋completed邐10邋URIs邋in邋23邋s邋(0.4/sec)逡逑了’Jobs邋Profiles邋Logs邋Reports邋Setup邋Help邐逡逑Crawler邋Status:邋CRAmiNG邋JOBS邋|邋Bold逡逑Jobs邐Memory逡逑Runarng:邋sohu邐21567邋KB邋used逡逑0邋peniSng

改進效果,對比實驗,隊列,網(wǎng)頁


蟲必須只爬取新聞相關的網(wǎng)頁。Heritrix爬取過程中對網(wǎng)頁鏈接的遍歷方式是寬度遍歷逡逑[24],如圖2-4所示,即使設定的爬蟲入口網(wǎng)頁是特定的新聞網(wǎng)頁也很容易在遍歷過程逡逑中跳轉(zhuǎn)到其他類型的網(wǎng)頁。隨著遍歷程度的加深,爬取主題的偏移也會逐漸加重。結逡逑合以上兩點,對Heritrix進行爬取規(guī)則的定制,規(guī)定Heritrix只能對特定的網(wǎng)頁鏈接進逡逑行解析爬取是很有必要的。逡逑16逡逑

【參考文獻】

相關期刊論文 前10條

1 肖江;季節(jié);;基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應用[J];電子設計工程;2015年06期

2 杜選;;基于加權補集的樸素貝葉斯文本分類算法研究[J];計算機應用與軟件;2014年09期

3 王曉琴;李書琴;景旭;王蒙;;基于Nutch的農(nóng)業(yè)垂直搜索引擎研究[J];計算機工程與設計;2014年06期

4 張皓;周學廣;;基于Heritrix的增量式網(wǎng)絡爬蟲研究[J];軟件導刊;2013年11期

5 覃世安;李法運;;文本分類中TF-IDF方法的改進研究[J];現(xiàn)代圖書情報技術;2013年10期

6 劉海峰;蘇展;劉守生;;一種基于詞頻信息的改進CHI文本特征選擇[J];計算機工程與應用;2013年22期

7 李晶輝;張小剛;陳華;胡義函;;一種改進隱樸素貝葉斯算法的研究[J];小型微型計算機系統(tǒng);2013年07期

8 劉高軍;夏景隆;;基于Heritrix的網(wǎng)絡爬蟲研究與應用[J];軟件導刊;2013年05期

9 崔建明;劉建明;廖周宇;;基于SVM算法的文本分類技術研究[J];計算機仿真;2013年02期

10 連凱;;基于SVM的漢語評論情感分類方法研究[J];現(xiàn)代計算機(專業(yè)版);2012年12期

相關博士學位論文 前1條

1 平源;基于支持向量機的聚類及文本分類研究[D];北京郵電大學;2012年

相關碩士學位論文 前10條

1 秦添軼;多項文本挖掘關鍵技術的研究和實現(xiàn)[D];哈爾濱工業(yè)大學;2017年

2 李玉杰;半樸素貝葉斯分類器研究[D];中央民族大學;2017年

3 王峰;基于新浪微博輿情采集與傾向性分析系統(tǒng)[D];南京信息工程大學;2016年

4 顧盛;基于Lucene和Heritrix的小型主題搜索引擎的研究及實現(xiàn)[D];西安電子科技大學;2015年

5 張建偉;基于WEB文本挖掘的電子商務網(wǎng)站個性化推薦研究[D];安徽理工大學;2014年

6 李春生;面向海量數(shù)據(jù)的索引技術研究[D];華東師范大學;2013年

7 張暢暢;基于Heritrix和Lucene垂直搜索引擎的應用研究[D];昆明理工大學;2013年

8 王曉偉;垂直搜索引擎若干關鍵技術的研究[D];浙江大學;2007年

9 葉志剛;SVM在文本分類中的應用[D];哈爾濱工程大學;2006年

10 壽周翔;專業(yè)搜索引擎的研究與設計[D];浙江大學;2005年



本文編號:2724024

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2724024.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶d2940***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com