Hadoop平臺下主題搜索引擎的設計與實現(xiàn)
【學位單位】:西安電子科技大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.3;G254.334
【部分圖文】:
中文分詞模塊同樣是基于 Nutch 的插件機制,利用 IKAnalyzer 中文詞器,utch-1.7 的中文分詞功能,其具體實現(xiàn)如下步驟:ξ1ο 在二次開發(fā)完成后的 Nutch 文件夾下,找到其與 solr 連接的默認配schema-solr4.xml”,將該文件復制到 Solr 的安裝目錄下,最后將其重schema.xml” ξ2ο 在 schema.xml 文件的<types></types>區(qū)域中添加相應字段來nalyzer 分詞器,然后根據(jù)用戶的主題來編輯該系統(tǒng)中 IKAnalyzer 的用戶個中英文停用詞典 其中需要添加的類是”org.wltea.analyzer.lucene.IKAnalyzer的模塊是”index”和”query”模塊,對索引模塊將不會限制最長分詞詞項,對則會限制最長詞項,并為該分詞器的配置信息命名為”ik_analyer”,方便后續(xù)ξ3ο 將 schema.xml 中<fields></fields>區(qū)域中的 content title text anchld>字段作出相應的修改,因為需要在創(chuàng)建索引和檢索過程中對 content title hor 字段進行分詞,其具體操作為將它們的分詞器類型都設置為上文ik_analyer”,同時對這四個字段的內(nèi)容開啟索引和存儲控制
西安電子科技大學碩士學位論文表 4.2 軟件環(huán)境系統(tǒng) Cent版本 jdk-1t 版本 apache-top 版本 Hadoo 版本 apache- 版本 apache-s2 版本 carrot2-e 版本 VMware 9.擬機環(huán)境下運行的,共搭建三臺虛擬均為 1GB 運行內(nèi)存和 20GB 硬盤 具體adoop 的主節(jié)點ξMasterο同時兼做(Slav
西安電子科技大學碩士學位論文用戶提供一個檢索結(jié)果的實時聚類圖,更為方便用戶對檢索結(jié)果進行篩選 6 結(jié)果與分析在進行正式實驗之前,需要找到系統(tǒng)的最優(yōu)線程數(shù),對分布式主題爬蟲設置程數(shù),將每一層爬取的前 N 個網(wǎng)頁數(shù)ξtopNο設置為 1000 圖 4.7 展示了速率ξ爬取網(wǎng)頁數(shù)/爬取時間ο與線程數(shù)量之間的關系
【相似文獻】
相關期刊論文 前10條
1 呂峰;李麗嬌;高云英;馬開陽;;基于Hadoop在中醫(yī)藥數(shù)據(jù)挖掘中的應用[J];電子設計工程;2016年22期
2 胡銳;胡伏原;陳麗春;;基于Hadoop的分布式視頻轉(zhuǎn)碼系統(tǒng)的研究與設計[J];蘇州科技學院學報(自然科學版);2016年04期
3 李中顯;蔡宗慧;;基于Hadoop云平臺的聯(lián)合收割機遠程監(jiān)控系統(tǒng)研究[J];農(nóng)機化研究;2017年12期
4 卞濤;羅澤;馬永征;;基于Hadoop的分布式視頻處理[J];科研信息化技術(shù)與應用;2016年04期
5 劉洋;李筱楠;劉會杰;;基于Hadoop的煤炭企業(yè)數(shù)據(jù)共享系統(tǒng)設計[J];煤炭技術(shù);2017年06期
6 葉春蕾;;基于Hadoop的高校圖書館大數(shù)據(jù)關鍵技術(shù)研究[J];數(shù)字圖書館論壇;2017年05期
7 王倩;譚永杰;秦杰;柴爭義;葉海琴;;基于Hadoop分布式平臺的海量圖像檢索[J];南京理工大學學報;2017年04期
8 黃鑫;景亮;;基于Hadoop的推薦算法實現(xiàn)[J];自動化技術(shù)與應用;2017年10期
9 趙廣智;;Hadoop與關系型數(shù)據(jù)庫在電信行業(yè)中的應用研究[J];廣東通信技術(shù);2017年09期
10 裴新超;尹四清;;基于Hadoop平臺的圖像檢索研究[J];山西電子技術(shù);2016年01期
相關博士學位論文 前10條
1 李曄鋒;基于Hadoop的行列混合存儲模型研究[D];東華大學;2015年
2 林文輝;基于Hadoop的海量網(wǎng)絡數(shù)據(jù)處理平臺的關鍵技術(shù)研究[D];北京郵電大學;2014年
3 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關鍵技術(shù)研究[D];重慶大學;2013年
4 李學博;基于Hadoop的中醫(yī)藥Web信息資源評價體系研究[D];山東中醫(yī)藥大學;2016年
5 范建永;基于Hadoop的云GIS若干關鍵技術(shù)研究[D];解放軍信息工程大學;2013年
6 喬媛媛;基于Hadoop的網(wǎng)絡流量分析系統(tǒng)的研究與應用[D];北京郵電大學;2014年
7 宋亞奇;云平臺下電力設備監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理技術(shù)研究[D];華北電力大學(北京);2016年
8 史恒亮;云計算任務調(diào)度研究[D];南京理工大學;2012年
9 吳曉璇;基于分形維數(shù)的選擇性聚類融合算法研究[D];合肥工業(yè)大學;2015年
10 陳洋;面向植物電生理多源數(shù)據(jù)的在線分析方法研究[D];中國農(nóng)業(yè)大學;2016年
相關碩士學位論文 前10條
1 余華詠;基于Hadoop的酒店推薦系統(tǒng)[D];南昌大學;2019年
2 孔海飛;基于Hadoop平臺的多維度學生學業(yè)預警系統(tǒng)的研究[D];安徽工業(yè)大學;2019年
3 薛好運;基于Hadoop和深度學習的遠程心肌缺血診斷系統(tǒng)的設計及實現(xiàn)[D];華南理工大學;2019年
4 韋美峰;Hadoop平臺下主題搜索引擎的設計與實現(xiàn)[D];西安電子科技大學;2018年
5 徐燁;基于hadoop的電梯大數(shù)據(jù)安全性挖掘平臺的研究[D];上海應用技術(shù)大學;2019年
6 馬明浩;大數(shù)據(jù)時代用戶游戲內(nèi)付費預測研究[D];東華大學;2019年
7 張永普;基于改進Hadoop的大規(guī)模圖處理系統(tǒng)的設計與實現(xiàn)[D];遼寧大學;2019年
8 張舜;基于Hadoop的高校數(shù)字資源分布式處理系統(tǒng)設計與實現(xiàn)[D];廣西大學;2019年
9 陳旭;基于Hadoop的電影推薦系統(tǒng)的研究與實現(xiàn)[D];遼寧大學;2019年
10 馬振;Hadoop集群中小文件的存取優(yōu)化研究[D];新疆大學;2019年
本文編號:2845031
本文鏈接:http://sikaile.net/tushudanganlunwen/2845031.html