網絡新聞語料庫建設及其分布式檢索系統研究
【圖文】:
.JDK1.8.0_1910逡逑(2)下載邋Elasticsearch逡逑在Elasticsearch官方網站上找到合適的Elasticsearch版本,本文選用的是6.5.2逡逑版本,下載tar格式安裝包,解壓到/usr/local目錄下。逡逑(3)啟動邋Elasticsearch逡逑下載完成后,切換到Elasticsearch安裝包存放的目錄,執(zhí)行命逡逑令:./bin/elasticsearch。這樣就啟動好了。想要配置集群名稱,節(jié)點名稱,指定master逡逑節(jié)點,分片以及副本數量等,可以再config目錄下修改相應的配置文件。例如基本逡逑配置文件邋elasticsearch.yml,log4j2.properties邋是曰志配置文件。逡逑這樣一個節(jié)點環(huán)境就搭好了,系統里面一共搭建了3個節(jié)點,其中包括了2個逡逑調度節(jié)點,主節(jié)點可以在里面選取。按照同樣的方式來配置另外兩臺節(jié)點。這樣逡逑Elasticsearch的集群環(huán)境己經配置完成。逡逑為了可視化查看集群的狀態(tài),我們安裝了邋Head插件。Head是一個H5編寫的逡逑集群操作和管理工具,可以可視化的對集群進行一些操作。在Head插件可以顯示逡逑集群的拓撲結構,執(zhí)行索引和節(jié)點級別的操作,同時也能輸入RESTful命令和逡逑Elasticsearch交互。迪過Head查看的集群狀態(tài)如圖4.1所不。逡逑
4.2網絡新聞語料庫建設的實現逡逑網絡新聞語料庫建設就是利用JAVA語言,使用Eclipse作為丨DE工具,基于逡逑HTTP協議,從互聯網上爬取新聞文本。該工程目錄結構如圖4.2所示。逡逑C=i邋'0|邐*逡逑a邋^邋NetCrawler邐^逡逑a邋^邋src逡逑康邋cn.edu.ccnu.netview.d邋own邋load逡逑卜靡邋crv.edu邋?ccnu.rvetview.邋down邋load,imp邋I逡逑>邋cn.edu.ccrvu.netview.parser逡逑1>邋0邋cn.edu.ccnu.nlp.crawler逡逑>邋班邋edu.ccmj.nlp.news逡逑>邐JRE邋System邋Library邋[jre1.8.0_l61]逡逑T-:邐Referenced邋Libraries逡逑>邋&lib逡逑nn逡逑圖4.2工程目錄圖逡逑其中download及其implement包包含新聞網頁下載運用的工具和方法,parser則逡逑是新聞網頁解析的類和方法,crawler則是爬取待下載url的類和方法。News包里面逡逑是新聞實體類以及持久化。逡逑根據前一章的設計,本部分的工作流程可以分為四個模塊。分別是新聞網址解逡逑析模塊,,新聞頁面下載模塊,新聞文本抽取模塊,新聞文本清洗模塊。逡逑4.2.1新聞網址解析觖逡逑該模塊任務就是從種子url中爬取更多url,將其放入待爬取隊列,其流程圖如逡逑圖4.3所示。逡逑26逡逑
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:G210.7;TP391.3
【參考文獻】
相關期刊論文 前10條
1 劉卓;;K-最鄰近算法在文本自動分類中的應用[J];蘇州市職業(yè)大學學報;2010年02期
2 孫立偉;何國輝;吳禮發(fā);;網絡爬蟲技術的研究[J];電腦知識與技術;2010年15期
3 李永春;丁華福;;Lucene的全文檢索的研究與應用[J];計算機技術與發(fā)展;2010年02期
4 楊定中;趙剛;王泰;;網絡爬蟲在Web信息搜索與數據挖掘中應用[J];計算機工程與設計;2009年24期
5 朱瑜;;語料庫在英語寫作教學中的應用[J];外語界;2009年03期
6 張文忠;楊士超;;中國學習者英語語料庫中動名搭配錯誤研究[J];解放軍外國語學院學報;2009年02期
7 衛(wèi)乃興;李文中;濮建忠;;COLSEC語料庫的設計原則與標注方法[J];當代語言學;2007年03期
8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應用研究與實現[J];計算機工程與設計;2007年02期
9 郎小偉;王申康;;基于Lucene的全文檢索系統研究與開發(fā)[J];計算機工程;2006年04期
10 孫建軍,成穎;基于信息檢索交互模型的相關性研究[J];中國圖書館學報;2005年01期
相關碩士學位論文 前4條
1 曾亞飛;基于Elasticsearch的分布式智能搜索引擎的研究與實現[D];重慶大學;2016年
2 呂佳;基于Elastic Search的分布式日志搜索系統設計[D];復旦大學;2013年
3 胡鵬飛;Lucene與中文分詞技術的研究及應用[D];北京交通大學;2010年
4 劉興宇;基于倒排索引的全文檢索技術研究[D];華中科技大學;2004年
本文編號:2668740
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2668740.html