天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 新聞傳播論文 >

網(wǎng)絡(luò)新聞?wù)Z料庫建設(shè)及其分布式檢索系統(tǒng)研究

發(fā)布時(shí)間:2020-05-17 15:00
【摘要】:網(wǎng)絡(luò)新聞?wù)Z料庫是以語料庫語言學(xué)等相關(guān)理論為基礎(chǔ),并使用網(wǎng)絡(luò)爬蟲等技術(shù)手段,隨機(jī)的收集互聯(lián)網(wǎng)上的真實(shí)的新聞文本而建立的具有一定規(guī)模的語料庫。網(wǎng)絡(luò)新聞作為互聯(lián)網(wǎng)上一種十分常見的文本形式,我們可以利用網(wǎng)絡(luò)新聞發(fā)掘互聯(lián)網(wǎng)上網(wǎng)絡(luò)語言使用的習(xí)慣,以及新聞的熱點(diǎn)趨勢(shì)及變化等有價(jià)值信息。綜上,我們可以從網(wǎng)絡(luò)新聞?wù)Z料庫發(fā)掘許多之前因理論技術(shù)所限沒有注意到的語言在實(shí)際使用中的規(guī)律和模式,使用語料庫可以進(jìn)行許多自然語言相關(guān)的科學(xué)研究。因此,網(wǎng)絡(luò)新聞?wù)Z料庫的研究?jī)r(jià)值巨大。另外,隨著計(jì)算機(jī)應(yīng)用技術(shù)的不斷發(fā)展,加之個(gè)人計(jì)算機(jī)性能的不斷提升,充分利用互聯(lián)網(wǎng)資源建設(shè)適合自己需要的語料庫也成為可能;谝陨,本課題利用網(wǎng)絡(luò)爬蟲技術(shù)爬取了最近五年約200萬篇八個(gè)類別的網(wǎng)絡(luò)新聞來完成了一個(gè)網(wǎng)絡(luò)新聞?wù)Z料庫的建設(shè)。同時(shí)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于Elasticsearch的分布式檢索系統(tǒng)。分布式檢索系統(tǒng)基于B/S架構(gòu),遵循MVC的軟件設(shè)計(jì)規(guī)范,檢索效果優(yōu)良。本文主要的工作如下:一、介紹了網(wǎng)絡(luò)新聞?wù)Z料庫建設(shè)中最重要的技術(shù)——網(wǎng)絡(luò)爬蟲的技術(shù)原理,以及網(wǎng)絡(luò)爬蟲中涉及到的其他技術(shù)原理。二、介紹了全文檢索技術(shù)的理論基礎(chǔ)。包括全文檢索的技術(shù)原理,分詞算法,倒排索引的原理及其在全文檢索中的重要意義,學(xué)習(xí)tf-idf權(quán)重計(jì)算來測(cè)量詞項(xiàng)對(duì)于一篇新聞文檔的重要程度,以及如何使用向量空間模型來用線性代數(shù)中向量的相關(guān)理論來解決計(jì)算文本相似性的問題等等。三、設(shè)計(jì)并完成了網(wǎng)絡(luò)新聞?wù)Z料庫的建設(shè),設(shè)計(jì)并實(shí)現(xiàn)了基于Elasticsearch的分布式檢索系統(tǒng)。最后,通過上述工作,我們完成了一個(gè)具有足夠的代表性的,高質(zhì)量的,具有一定規(guī)模的網(wǎng)絡(luò)新聞?wù)Z料庫的建設(shè)工作,實(shí)現(xiàn)了一個(gè)檢索響應(yīng)快,可用性高的分布式檢索系統(tǒng)。
【圖文】:

狀態(tài)圖,狀態(tài),配置文件,目錄


.JDK1.8.0_1910逡逑(2)下載邋Elasticsearch逡逑在Elasticsearch官方網(wǎng)站上找到合適的Elasticsearch版本,本文選用的是6.5.2逡逑版本,下載tar格式安裝包,解壓到/usr/local目錄下。逡逑(3)啟動(dòng)邋Elasticsearch逡逑下載完成后,切換到Elasticsearch安裝包存放的目錄,執(zhí)行命逡逑令:./bin/elasticsearch。這樣就啟動(dòng)好了。想要配置集群名稱,節(jié)點(diǎn)名稱,指定master逡逑節(jié)點(diǎn),分片以及副本數(shù)量等,可以再config目錄下修改相應(yīng)的配置文件。例如基本逡逑配置文件邋elasticsearch.yml,log4j2.properties邋是曰志配置文件。逡逑這樣一個(gè)節(jié)點(diǎn)環(huán)境就搭好了,系統(tǒng)里面一共搭建了3個(gè)節(jié)點(diǎn),其中包括了2個(gè)逡逑調(diào)度節(jié)點(diǎn),主節(jié)點(diǎn)可以在里面選取。按照同樣的方式來配置另外兩臺(tái)節(jié)點(diǎn)。這樣逡逑Elasticsearch的集群環(huán)境己經(jīng)配置完成。逡逑為了可視化查看集群的狀態(tài),我們安裝了邋Head插件。Head是一個(gè)H5編寫的逡逑集群操作和管理工具,可以可視化的對(duì)集群進(jìn)行一些操作。在Head插件可以顯示逡逑集群的拓?fù)浣Y(jié)構(gòu),執(zhí)行索引和節(jié)點(diǎn)級(jí)別的操作,同時(shí)也能輸入RESTful命令和逡逑Elasticsearch交互。迪過Head查看的集群狀態(tài)如圖4.1所不。逡逑

流程圖,新聞網(wǎng),下載,工具


4.2網(wǎng)絡(luò)新聞?wù)Z料庫建設(shè)的實(shí)現(xiàn)逡逑網(wǎng)絡(luò)新聞?wù)Z料庫建設(shè)就是利用JAVA語言,使用Eclipse作為丨DE工具,基于逡逑HTTP協(xié)議,從互聯(lián)網(wǎng)上爬取新聞文本。該工程目錄結(jié)構(gòu)如圖4.2所示。逡逑C=i邋'0|邐*逡逑a邋^邋NetCrawler邐^逡逑a邋^邋src逡逑康邋cn.edu.ccnu.netview.d邋own邋load逡逑卜靡邋crv.edu邋?ccnu.rvetview.邋down邋load,imp邋I逡逑>邋cn.edu.ccrvu.netview.parser逡逑1>邋0邋cn.edu.ccnu.nlp.crawler逡逑>邋班邋edu.ccmj.nlp.news逡逑>邐JRE邋System邋Library邋[jre1.8.0_l61]逡逑T-:邐Referenced邋Libraries逡逑>邋&lib逡逑nn逡逑圖4.2工程目錄圖逡逑其中download及其implement包包含新聞網(wǎng)頁下載運(yùn)用的工具和方法,parser則逡逑是新聞網(wǎng)頁解析的類和方法,crawler則是爬取待下載url的類和方法。News包里面逡逑是新聞實(shí)體類以及持久化。逡逑根據(jù)前一章的設(shè)計(jì),本部分的工作流程可以分為四個(gè)模塊。分別是新聞網(wǎng)址解逡逑析模塊,,新聞頁面下載模塊,新聞文本抽取模塊,新聞文本清洗模塊。逡逑4.2.1新聞網(wǎng)址解析觖逡逑該模塊任務(wù)就是從種子url中爬取更多url,將其放入待爬取隊(duì)列,其流程圖如逡逑圖4.3所示。逡逑26逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:G210.7;TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉卓;;K-最鄰近算法在文本自動(dòng)分類中的應(yīng)用[J];蘇州市職業(yè)大學(xué)學(xué)報(bào);2010年02期

2 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期

3 李永春;丁華福;;Lucene的全文檢索的研究與應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年02期

4 楊定中;趙剛;王泰;;網(wǎng)絡(luò)爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應(yīng)用[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年24期

5 朱瑜;;語料庫在英語寫作教學(xué)中的應(yīng)用[J];外語界;2009年03期

6 張文忠;楊士超;;中國學(xué)習(xí)者英語語料庫中動(dòng)名搭配錯(cuò)誤研究[J];解放軍外國語學(xué)院學(xué)報(bào);2009年02期

7 衛(wèi)乃興;李文中;濮建忠;;COLSEC語料庫的設(shè)計(jì)原則與標(biāo)注方法[J];當(dāng)代語言學(xué);2007年03期

8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期

9 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計(jì)算機(jī)工程;2006年04期

10 孫建軍,成穎;基于信息檢索交互模型的相關(guān)性研究[J];中國圖書館學(xué)報(bào);2005年01期

相關(guān)碩士學(xué)位論文 前4條

1 曾亞飛;基于Elasticsearch的分布式智能搜索引擎的研究與實(shí)現(xiàn)[D];重慶大學(xué);2016年

2 呂佳;基于Elastic Search的分布式日志搜索系統(tǒng)設(shè)計(jì)[D];復(fù)旦大學(xué);2013年

3 胡鵬飛;Lucene與中文分詞技術(shù)的研究及應(yīng)用[D];北京交通大學(xué);2010年

4 劉興宇;基于倒排索引的全文檢索技術(shù)研究[D];華中科技大學(xué);2004年



本文編號(hào):2668740

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2668740.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b2f44***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com