網(wǎng)絡(luò)新聞?wù)Z料庫建設(shè)及其分布式檢索系統(tǒng)研究
【圖文】:
.JDK1.8.0_1910逡逑(2)下載邋Elasticsearch逡逑在Elasticsearch官方網(wǎng)站上找到合適的Elasticsearch版本,本文選用的是6.5.2逡逑版本,下載tar格式安裝包,解壓到/usr/local目錄下。逡逑(3)啟動(dòng)邋Elasticsearch逡逑下載完成后,切換到Elasticsearch安裝包存放的目錄,執(zhí)行命逡逑令:./bin/elasticsearch。這樣就啟動(dòng)好了。想要配置集群名稱,節(jié)點(diǎn)名稱,指定master逡逑節(jié)點(diǎn),分片以及副本數(shù)量等,可以再config目錄下修改相應(yīng)的配置文件。例如基本逡逑配置文件邋elasticsearch.yml,log4j2.properties邋是曰志配置文件。逡逑這樣一個(gè)節(jié)點(diǎn)環(huán)境就搭好了,系統(tǒng)里面一共搭建了3個(gè)節(jié)點(diǎn),其中包括了2個(gè)逡逑調(diào)度節(jié)點(diǎn),主節(jié)點(diǎn)可以在里面選取。按照同樣的方式來配置另外兩臺(tái)節(jié)點(diǎn)。這樣逡逑Elasticsearch的集群環(huán)境己經(jīng)配置完成。逡逑為了可視化查看集群的狀態(tài),我們安裝了邋Head插件。Head是一個(gè)H5編寫的逡逑集群操作和管理工具,可以可視化的對(duì)集群進(jìn)行一些操作。在Head插件可以顯示逡逑集群的拓?fù)浣Y(jié)構(gòu),執(zhí)行索引和節(jié)點(diǎn)級(jí)別的操作,同時(shí)也能輸入RESTful命令和逡逑Elasticsearch交互。迪過Head查看的集群狀態(tài)如圖4.1所不。逡逑
4.2網(wǎng)絡(luò)新聞?wù)Z料庫建設(shè)的實(shí)現(xiàn)逡逑網(wǎng)絡(luò)新聞?wù)Z料庫建設(shè)就是利用JAVA語言,使用Eclipse作為丨DE工具,基于逡逑HTTP協(xié)議,從互聯(lián)網(wǎng)上爬取新聞文本。該工程目錄結(jié)構(gòu)如圖4.2所示。逡逑C=i邋'0|邐*逡逑a邋^邋NetCrawler邐^逡逑a邋^邋src逡逑康邋cn.edu.ccnu.netview.d邋own邋load逡逑卜靡邋crv.edu邋?ccnu.rvetview.邋down邋load,imp邋I逡逑>邋cn.edu.ccrvu.netview.parser逡逑1>邋0邋cn.edu.ccnu.nlp.crawler逡逑>邋班邋edu.ccmj.nlp.news逡逑>邐JRE邋System邋Library邋[jre1.8.0_l61]逡逑T-:邐Referenced邋Libraries逡逑>邋&lib逡逑nn逡逑圖4.2工程目錄圖逡逑其中download及其implement包包含新聞網(wǎng)頁下載運(yùn)用的工具和方法,parser則逡逑是新聞網(wǎng)頁解析的類和方法,crawler則是爬取待下載url的類和方法。News包里面逡逑是新聞實(shí)體類以及持久化。逡逑根據(jù)前一章的設(shè)計(jì),本部分的工作流程可以分為四個(gè)模塊。分別是新聞網(wǎng)址解逡逑析模塊,,新聞頁面下載模塊,新聞文本抽取模塊,新聞文本清洗模塊。逡逑4.2.1新聞網(wǎng)址解析觖逡逑該模塊任務(wù)就是從種子url中爬取更多url,將其放入待爬取隊(duì)列,其流程圖如逡逑圖4.3所示。逡逑26逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:G210.7;TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉卓;;K-最鄰近算法在文本自動(dòng)分類中的應(yīng)用[J];蘇州市職業(yè)大學(xué)學(xué)報(bào);2010年02期
2 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
3 李永春;丁華福;;Lucene的全文檢索的研究與應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年02期
4 楊定中;趙剛;王泰;;網(wǎng)絡(luò)爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應(yīng)用[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年24期
5 朱瑜;;語料庫在英語寫作教學(xué)中的應(yīng)用[J];外語界;2009年03期
6 張文忠;楊士超;;中國學(xué)習(xí)者英語語料庫中動(dòng)名搭配錯(cuò)誤研究[J];解放軍外國語學(xué)院學(xué)報(bào);2009年02期
7 衛(wèi)乃興;李文中;濮建忠;;COLSEC語料庫的設(shè)計(jì)原則與標(biāo)注方法[J];當(dāng)代語言學(xué);2007年03期
8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期
9 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計(jì)算機(jī)工程;2006年04期
10 孫建軍,成穎;基于信息檢索交互模型的相關(guān)性研究[J];中國圖書館學(xué)報(bào);2005年01期
相關(guān)碩士學(xué)位論文 前4條
1 曾亞飛;基于Elasticsearch的分布式智能搜索引擎的研究與實(shí)現(xiàn)[D];重慶大學(xué);2016年
2 呂佳;基于Elastic Search的分布式日志搜索系統(tǒng)設(shè)計(jì)[D];復(fù)旦大學(xué);2013年
3 胡鵬飛;Lucene與中文分詞技術(shù)的研究及應(yīng)用[D];北京交通大學(xué);2010年
4 劉興宇;基于倒排索引的全文檢索技術(shù)研究[D];華中科技大學(xué);2004年
本文編號(hào):2668740
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2668740.html