天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 新聞傳播論文 >

網絡新聞語料庫建設及其分布式檢索系統研究

發(fā)布時間:2020-05-17 15:00
【摘要】:網絡新聞語料庫是以語料庫語言學等相關理論為基礎,并使用網絡爬蟲等技術手段,隨機的收集互聯網上的真實的新聞文本而建立的具有一定規(guī)模的語料庫。網絡新聞作為互聯網上一種十分常見的文本形式,我們可以利用網絡新聞發(fā)掘互聯網上網絡語言使用的習慣,以及新聞的熱點趨勢及變化等有價值信息。綜上,我們可以從網絡新聞語料庫發(fā)掘許多之前因理論技術所限沒有注意到的語言在實際使用中的規(guī)律和模式,使用語料庫可以進行許多自然語言相關的科學研究。因此,網絡新聞語料庫的研究價值巨大。另外,隨著計算機應用技術的不斷發(fā)展,加之個人計算機性能的不斷提升,充分利用互聯網資源建設適合自己需要的語料庫也成為可能。基于以上,本課題利用網絡爬蟲技術爬取了最近五年約200萬篇八個類別的網絡新聞來完成了一個網絡新聞語料庫的建設。同時設計并實現了一個基于Elasticsearch的分布式檢索系統。分布式檢索系統基于B/S架構,遵循MVC的軟件設計規(guī)范,檢索效果優(yōu)良。本文主要的工作如下:一、介紹了網絡新聞語料庫建設中最重要的技術——網絡爬蟲的技術原理,以及網絡爬蟲中涉及到的其他技術原理。二、介紹了全文檢索技術的理論基礎。包括全文檢索的技術原理,分詞算法,倒排索引的原理及其在全文檢索中的重要意義,學習tf-idf權重計算來測量詞項對于一篇新聞文檔的重要程度,以及如何使用向量空間模型來用線性代數中向量的相關理論來解決計算文本相似性的問題等等。三、設計并完成了網絡新聞語料庫的建設,設計并實現了基于Elasticsearch的分布式檢索系統。最后,通過上述工作,我們完成了一個具有足夠的代表性的,高質量的,具有一定規(guī)模的網絡新聞語料庫的建設工作,實現了一個檢索響應快,可用性高的分布式檢索系統。
【圖文】:

狀態(tài)圖,狀態(tài),配置文件,目錄


.JDK1.8.0_1910逡逑(2)下載邋Elasticsearch逡逑在Elasticsearch官方網站上找到合適的Elasticsearch版本,本文選用的是6.5.2逡逑版本,下載tar格式安裝包,解壓到/usr/local目錄下。逡逑(3)啟動邋Elasticsearch逡逑下載完成后,切換到Elasticsearch安裝包存放的目錄,執(zhí)行命逡逑令:./bin/elasticsearch。這樣就啟動好了。想要配置集群名稱,節(jié)點名稱,指定master逡逑節(jié)點,分片以及副本數量等,可以再config目錄下修改相應的配置文件。例如基本逡逑配置文件邋elasticsearch.yml,log4j2.properties邋是曰志配置文件。逡逑這樣一個節(jié)點環(huán)境就搭好了,系統里面一共搭建了3個節(jié)點,其中包括了2個逡逑調度節(jié)點,主節(jié)點可以在里面選取。按照同樣的方式來配置另外兩臺節(jié)點。這樣逡逑Elasticsearch的集群環(huán)境己經配置完成。逡逑為了可視化查看集群的狀態(tài),我們安裝了邋Head插件。Head是一個H5編寫的逡逑集群操作和管理工具,可以可視化的對集群進行一些操作。在Head插件可以顯示逡逑集群的拓撲結構,執(zhí)行索引和節(jié)點級別的操作,同時也能輸入RESTful命令和逡逑Elasticsearch交互。迪過Head查看的集群狀態(tài)如圖4.1所不。逡逑

流程圖,新聞網,下載,工具


4.2網絡新聞語料庫建設的實現逡逑網絡新聞語料庫建設就是利用JAVA語言,使用Eclipse作為丨DE工具,基于逡逑HTTP協議,從互聯網上爬取新聞文本。該工程目錄結構如圖4.2所示。逡逑C=i邋'0|邐*逡逑a邋^邋NetCrawler邐^逡逑a邋^邋src逡逑康邋cn.edu.ccnu.netview.d邋own邋load逡逑卜靡邋crv.edu邋?ccnu.rvetview.邋down邋load,imp邋I逡逑>邋cn.edu.ccrvu.netview.parser逡逑1>邋0邋cn.edu.ccnu.nlp.crawler逡逑>邋班邋edu.ccmj.nlp.news逡逑>邐JRE邋System邋Library邋[jre1.8.0_l61]逡逑T-:邐Referenced邋Libraries逡逑>邋&lib逡逑nn逡逑圖4.2工程目錄圖逡逑其中download及其implement包包含新聞網頁下載運用的工具和方法,parser則逡逑是新聞網頁解析的類和方法,crawler則是爬取待下載url的類和方法。News包里面逡逑是新聞實體類以及持久化。逡逑根據前一章的設計,本部分的工作流程可以分為四個模塊。分別是新聞網址解逡逑析模塊,,新聞頁面下載模塊,新聞文本抽取模塊,新聞文本清洗模塊。逡逑4.2.1新聞網址解析觖逡逑該模塊任務就是從種子url中爬取更多url,將其放入待爬取隊列,其流程圖如逡逑圖4.3所示。逡逑26逡逑
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:G210.7;TP391.3

【參考文獻】

相關期刊論文 前10條

1 劉卓;;K-最鄰近算法在文本自動分類中的應用[J];蘇州市職業(yè)大學學報;2010年02期

2 孫立偉;何國輝;吳禮發(fā);;網絡爬蟲技術的研究[J];電腦知識與技術;2010年15期

3 李永春;丁華福;;Lucene的全文檢索的研究與應用[J];計算機技術與發(fā)展;2010年02期

4 楊定中;趙剛;王泰;;網絡爬蟲在Web信息搜索與數據挖掘中應用[J];計算機工程與設計;2009年24期

5 朱瑜;;語料庫在英語寫作教學中的應用[J];外語界;2009年03期

6 張文忠;楊士超;;中國學習者英語語料庫中動名搭配錯誤研究[J];解放軍外國語學院學報;2009年02期

7 衛(wèi)乃興;李文中;濮建忠;;COLSEC語料庫的設計原則與標注方法[J];當代語言學;2007年03期

8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應用研究與實現[J];計算機工程與設計;2007年02期

9 郎小偉;王申康;;基于Lucene的全文檢索系統研究與開發(fā)[J];計算機工程;2006年04期

10 孫建軍,成穎;基于信息檢索交互模型的相關性研究[J];中國圖書館學報;2005年01期

相關碩士學位論文 前4條

1 曾亞飛;基于Elasticsearch的分布式智能搜索引擎的研究與實現[D];重慶大學;2016年

2 呂佳;基于Elastic Search的分布式日志搜索系統設計[D];復旦大學;2013年

3 胡鵬飛;Lucene與中文分詞技術的研究及應用[D];北京交通大學;2010年

4 劉興宇;基于倒排索引的全文檢索技術研究[D];華中科技大學;2004年



本文編號:2668740

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2668740.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b2f44***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com