天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

Hadoop平臺下主題搜索引擎的設計與實現(xiàn)

發(fā)布時間:2020-10-17 16:20
   隨著互聯(lián)網(wǎng)用戶量的激增,使得網(wǎng)絡中數(shù)據(jù)量飛速累積且數(shù)據(jù)格式也隨之增多,搜索引擎成為了處于大數(shù)據(jù)背景下的網(wǎng)絡用戶獲取所需信息的主要手段之一。但對于擁有不同專業(yè)背景的用戶,網(wǎng)絡信息的多元化使得通用搜索引擎并不能滿足他們的信息需求,這就使得當前搜索引擎的發(fā)展需要以用戶為中心,而這一信息需求背景下就出現(xiàn)了主題搜索引擎。數(shù)據(jù)量的增加同時使得搜索引擎需要處理的數(shù)據(jù)流同步增加,分布式計算技術(shù)能夠更好的應對海量數(shù)據(jù)的存儲和高并發(fā)計算。在本文中筆者對Hadoop平臺下主題搜索引擎相關技術(shù)進行了研究。查準率是評價一個搜索引擎性能的主要指標,如何提升查準率是本文研究的重點;系統(tǒng)檢索響應時間與人機交互性是搜索引擎影響用戶體驗的兩個指標;爬蟲爬取速度是搜索引擎后臺性能的直接反映。為了改進以上指標,本文的主要研究工作如下:一、對分布式計算和主題搜索引擎相關技術(shù)與理論進行分析,其中包括了分布式編程思想、網(wǎng)絡爬蟲的主題過濾、各個中文分詞算法的分析、經(jīng)典排序算法和常用的聚類算法。二、對經(jīng)典PageRank算法所存在的問題,從主題鏈接、內(nèi)外站鏈接數(shù)等方面對其進行優(yōu)化,使其更具主題性,能夠更好的表示某個網(wǎng)頁的主題相關性。對改進后的PageRank算法進行MapReduce改造,使其符合分布式計算的要求。在原有檢索結(jié)果排序算法的基礎上,綜合TF-IDF算法、OPIC算法和優(yōu)化處理后的PageRank算法對排序結(jié)果進行整體優(yōu)化。三、利用后綴樹聚類算法對用戶的檢索結(jié)果進行實時聚類,筆者將實時聚類與主題搜索引擎首次結(jié)合到一起,改進了人機交互的接口,通過可視化的類簇,使得用戶能夠更為直觀的對檢索結(jié)果有總體的認識,同時也方便了用戶對指定信息的瀏覽,提升用戶體驗。四、構(gòu)建了一個完整的主題搜索引擎,其中包括主題爬蟲、中文分詞模塊、索引模塊和檢索模塊,在此基礎上驗證了分布式系統(tǒng)性能的靈活拓展性,提升了主題爬蟲爬取速度和降低系統(tǒng)檢索響應時間,同時通過優(yōu)化后的排序算法提升了該系統(tǒng)的查準率,最后通過后綴樹算法實現(xiàn)了實時聚類和聚類可視化。文章的最后,對此次研究做了總結(jié),分析了當前研究成果和不足,并對下一步研究方向給出了研究思路。
【學位單位】:西安電子科技大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.3;G254.334
【部分圖文】:

中文分詞,添加效果,模塊


中文分詞模塊同樣是基于 Nutch 的插件機制,利用 IKAnalyzer 中文詞器,utch-1.7 的中文分詞功能,其具體實現(xiàn)如下步驟:ξ1ο 在二次開發(fā)完成后的 Nutch 文件夾下,找到其與 solr 連接的默認配schema-solr4.xml”,將該文件復制到 Solr 的安裝目錄下,最后將其重schema.xml” ξ2ο 在 schema.xml 文件的<types></types>區(qū)域中添加相應字段來nalyzer 分詞器,然后根據(jù)用戶的主題來編輯該系統(tǒng)中 IKAnalyzer 的用戶個中英文停用詞典 其中需要添加的類是”org.wltea.analyzer.lucene.IKAnalyzer的模塊是”index”和”query”模塊,對索引模塊將不會限制最長分詞詞項,對則會限制最長詞項,并為該分詞器的配置信息命名為”ik_analyer”,方便后續(xù)ξ3ο 將 schema.xml 中<fields></fields>區(qū)域中的 content title text anchld>字段作出相應的修改,因為需要在創(chuàng)建索引和檢索過程中對 content title hor 字段進行分詞,其具體操作為將它們的分詞器類型都設置為上文ik_analyer”,同時對這四個字段的內(nèi)容開啟索引和存儲控制

運行環(huán)境,版本


西安電子科技大學碩士學位論文表 4.2 軟件環(huán)境系統(tǒng) Cent版本 jdk-1t 版本 apache-top 版本 Hadoo 版本 apache- 版本 apache-s2 版本 carrot2-e 版本 VMware 9.擬機環(huán)境下運行的,共搭建三臺虛擬均為 1GB 運行內(nèi)存和 20GB 硬盤 具體adoop 的主節(jié)點ξMasterο同時兼做(Slav

線程,速率,檢索結(jié)果,網(wǎng)頁


西安電子科技大學碩士學位論文用戶提供一個檢索結(jié)果的實時聚類圖,更為方便用戶對檢索結(jié)果進行篩選 6 結(jié)果與分析在進行正式實驗之前,需要找到系統(tǒng)的最優(yōu)線程數(shù),對分布式主題爬蟲設置程數(shù),將每一層爬取的前 N 個網(wǎng)頁數(shù)ξtopNο設置為 1000 圖 4.7 展示了速率ξ爬取網(wǎng)頁數(shù)/爬取時間ο與線程數(shù)量之間的關系
【相似文獻】

相關期刊論文 前10條

1 呂峰;李麗嬌;高云英;馬開陽;;基于Hadoop在中醫(yī)藥數(shù)據(jù)挖掘中的應用[J];電子設計工程;2016年22期

2 胡銳;胡伏原;陳麗春;;基于Hadoop的分布式視頻轉(zhuǎn)碼系統(tǒng)的研究與設計[J];蘇州科技學院學報(自然科學版);2016年04期

3 李中顯;蔡宗慧;;基于Hadoop云平臺的聯(lián)合收割機遠程監(jiān)控系統(tǒng)研究[J];農(nóng)機化研究;2017年12期

4 卞濤;羅澤;馬永征;;基于Hadoop的分布式視頻處理[J];科研信息化技術(shù)與應用;2016年04期

5 劉洋;李筱楠;劉會杰;;基于Hadoop的煤炭企業(yè)數(shù)據(jù)共享系統(tǒng)設計[J];煤炭技術(shù);2017年06期

6 葉春蕾;;基于Hadoop的高校圖書館大數(shù)據(jù)關鍵技術(shù)研究[J];數(shù)字圖書館論壇;2017年05期

7 王倩;譚永杰;秦杰;柴爭義;葉海琴;;基于Hadoop分布式平臺的海量圖像檢索[J];南京理工大學學報;2017年04期

8 黃鑫;景亮;;基于Hadoop的推薦算法實現(xiàn)[J];自動化技術(shù)與應用;2017年10期

9 趙廣智;;Hadoop與關系型數(shù)據(jù)庫在電信行業(yè)中的應用研究[J];廣東通信技術(shù);2017年09期

10 裴新超;尹四清;;基于Hadoop平臺的圖像檢索研究[J];山西電子技術(shù);2016年01期


相關博士學位論文 前10條

1 李曄鋒;基于Hadoop的行列混合存儲模型研究[D];東華大學;2015年

2 林文輝;基于Hadoop的海量網(wǎng)絡數(shù)據(jù)處理平臺的關鍵技術(shù)研究[D];北京郵電大學;2014年

3 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關鍵技術(shù)研究[D];重慶大學;2013年

4 李學博;基于Hadoop的中醫(yī)藥Web信息資源評價體系研究[D];山東中醫(yī)藥大學;2016年

5 范建永;基于Hadoop的云GIS若干關鍵技術(shù)研究[D];解放軍信息工程大學;2013年

6 喬媛媛;基于Hadoop的網(wǎng)絡流量分析系統(tǒng)的研究與應用[D];北京郵電大學;2014年

7 宋亞奇;云平臺下電力設備監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理技術(shù)研究[D];華北電力大學(北京);2016年

8 史恒亮;云計算任務調(diào)度研究[D];南京理工大學;2012年

9 吳曉璇;基于分形維數(shù)的選擇性聚類融合算法研究[D];合肥工業(yè)大學;2015年

10 陳洋;面向植物電生理多源數(shù)據(jù)的在線分析方法研究[D];中國農(nóng)業(yè)大學;2016年


相關碩士學位論文 前10條

1 余華詠;基于Hadoop的酒店推薦系統(tǒng)[D];南昌大學;2019年

2 孔海飛;基于Hadoop平臺的多維度學生學業(yè)預警系統(tǒng)的研究[D];安徽工業(yè)大學;2019年

3 薛好運;基于Hadoop和深度學習的遠程心肌缺血診斷系統(tǒng)的設計及實現(xiàn)[D];華南理工大學;2019年

4 韋美峰;Hadoop平臺下主題搜索引擎的設計與實現(xiàn)[D];西安電子科技大學;2018年

5 徐燁;基于hadoop的電梯大數(shù)據(jù)安全性挖掘平臺的研究[D];上海應用技術(shù)大學;2019年

6 馬明浩;大數(shù)據(jù)時代用戶游戲內(nèi)付費預測研究[D];東華大學;2019年

7 張永普;基于改進Hadoop的大規(guī)模圖處理系統(tǒng)的設計與實現(xiàn)[D];遼寧大學;2019年

8 張舜;基于Hadoop的高校數(shù)字資源分布式處理系統(tǒng)設計與實現(xiàn)[D];廣西大學;2019年

9 陳旭;基于Hadoop的電影推薦系統(tǒng)的研究與實現(xiàn)[D];遼寧大學;2019年

10 馬振;Hadoop集群中小文件的存取優(yōu)化研究[D];新疆大學;2019年



本文編號:2845031

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2845031.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶34788***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品白丝久久av| 嫩草国产福利视频一区二区| 亚洲中文字幕三区四区| 大尺度剧情国产在线视频| 99久久国产精品亚洲| 国产av精品高清一区二区三区| 欧美亚洲美女资源国产| 午夜免费精品视频在线看| 国产精品午夜福利在线观看| 厕所偷拍一区二区三区视频| 热情的邻居在线中文字幕| 亚洲精品国产主播一区| 日本特黄特色大片免费观看| 亚洲一区二区三区在线免费| 日韩欧美国产精品中文字幕| 亚洲中文字幕人妻av| 手机在线不卡国产视频| 四季av一区二区播放| 午夜精品久久久免费视频| 男女午夜视频在线观看免费| 午夜福利视频六七十路熟女| 午夜小视频成人免费看| 日本办公室三级在线观看| 九七人妻一区二区三区| 厕所偷拍一区二区三区视频| 国产老女人性生活视频| 亚洲国产精品久久综合网| 国产欧美日韩精品一区二| 欧美野外在线刺激在线观看| 白丝美女被插入视频在线观看| 欧美激情一区=区三区| 亚洲少妇一区二区三区懂色| 99热九九在线中文字幕| 在线免费看国产精品黄片| 欧美午夜一级特黄大片| 亚洲av熟女国产一区二区三区站| 91播色在线免费播放| 欧美激情一区=区三区| 视频在线观看色一区二区| 国产一级不卡视频在线观看| 亚洲av熟女一区二区三区蜜桃|