天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

垂直搜索引擎實(shí)現(xiàn)數(shù)據(jù)信息采集

發(fā)布時(shí)間:2020-09-24 04:52
   隨著互聯(lián)網(wǎng)數(shù)據(jù)高速增長(zhǎng),全文搜索引擎這類常規(guī)的搜索引擎在人們查詢信息時(shí),時(shí)常會(huì)返回包括一些無關(guān)信息的大量信息,使得用戶不能準(zhǔn)確地獲取自己真正想要的信息。垂直搜索引擎為了解決這個(gè)問題而產(chǎn)生。垂直搜索引擎是全文搜索引擎的拓展產(chǎn)物,即是細(xì)分的專業(yè)全文搜索引擎,它在專業(yè)化網(wǎng)站運(yùn)作,能幫助人們獲得專業(yè)化數(shù)據(jù)。目前垂直搜索引擎在對(duì)從網(wǎng)絡(luò)中抓取的大量數(shù)據(jù)創(chuàng)建索引時(shí),常常需要花費(fèi)很多的時(shí)間、浪費(fèi)系統(tǒng)的資源、索引庫(kù)不能及時(shí)得到更新。本文重點(diǎn)研究了利用百度地圖API抓取大量的地圖的點(diǎn)數(shù)據(jù)和改進(jìn)了IK分詞器的詞元在排序集合中的比較算法。由于百度地圖對(duì)用戶訪問地圖數(shù)據(jù)采用限制速度、限查詢信息量、限訪問次數(shù)等策略,使得人們?cè)谟邢薮蔚脑L問中只能獲得很少的信息量。本文通過矩形切割拼接的方式縮小抓取范圍,通過提高訪問次數(shù)來增加對(duì)地圖點(diǎn)數(shù)據(jù)的獲取量,再通過循環(huán)遍歷,通過仿真模擬獲得大量的地圖點(diǎn)數(shù)據(jù)信息;在對(duì)同一句話有多種分詞方式容易使語(yǔ)句產(chǎn)生歧義的情況下,IK分詞器一律優(yōu)先選擇分詞后詞元數(shù)量少的簡(jiǎn)單的分詞方式,而忽略了個(gè)數(shù)少的詞元比較次要,而個(gè)數(shù)比較多的詞元比較重要的情形。所以通過繼續(xù)判斷雙方詞元的權(quán)重,增強(qiáng)對(duì)歧義語(yǔ)句的判斷,通過仿真模擬得到的數(shù)據(jù)得出改進(jìn)算法確實(shí)可以幫助搜索引擎提高創(chuàng)建索引的效率、從而減少系統(tǒng)創(chuàng)建索引的時(shí)間,間接幫助系統(tǒng)和用戶更快地更新索引庫(kù),提供更細(xì)致的服務(wù)的結(jié)論。本文在分析全文搜索引擎的原理和工作流程的基礎(chǔ)上,模擬了傳統(tǒng)的網(wǎng)絡(luò)爬蟲、主題網(wǎng)絡(luò)爬蟲、API抓取工具的運(yùn)行,通過仿真試驗(yàn)?zāi)M分別得到它們從網(wǎng)頁(yè)中的抓取數(shù)據(jù),對(duì)比總結(jié)了這三種抓取方式的優(yōu)缺點(diǎn)。本文在分析Lucene工作原理的基礎(chǔ)上對(duì)大量文本數(shù)據(jù)進(jìn)行索引的創(chuàng)建,通過Lucene評(píng)分機(jī)制得到出輸入關(guān)鍵詞在它所出現(xiàn)的每篇文章的評(píng)分大小。仿真模擬用戶輸入關(guān)鍵詞時(shí),搜索引擎對(duì)輸入關(guān)鍵詞創(chuàng)建索引并進(jìn)行查詢的過程,最終將查詢的結(jié)果按照文檔的評(píng)分從大到小輸出到仿真軟件的控制臺(tái)的輸出界面上。
【學(xué)位單位】:中國(guó)地質(zhì)大學(xué)(北京)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.3;TP274.2
【部分圖文】:

垂直搜索引擎實(shí)現(xiàn)數(shù)據(jù)信息采集


Jsoup抓取結(jié)果1

垂直搜索引擎實(shí)現(xiàn)數(shù)據(jù)信息采集


Jsoup抓取結(jié)果2

垂直搜索引擎實(shí)現(xiàn)數(shù)據(jù)信息采集


Heritrix抓取結(jié)果

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 姜元爽;譚培;劉馨元;呂加國(guó);;基于Lucene的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];福建電腦;2015年12期

2 楊金;;基于JAVA技術(shù)的搜索引擎研究[J];中國(guó)新通信;2015年13期

3 張浩;;網(wǎng)絡(luò)主題爬蟲技術(shù)初探[J];電子制作;2013年23期

4 史寶明;賀元香;吳崇正;;主題搜索引擎中爬蟲搜索策略的研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期

5 楊立公;朱儉;湯世平;;文本情感分析綜述[J];計(jì)算機(jī)應(yīng)用;2013年06期

6 周鳳麗;林曉麗;;基于Lucene的Web搜索引擎的研究和實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年01期

7 吳代文;郭軍軍;;基于Lucene站內(nèi)全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代電子技術(shù);2011年06期

8 黃承慧;印鑒;陸寄遠(yuǎn);;一種改進(jìn)的Lucene語(yǔ)義相似度檢索算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期

9 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報(bào)科學(xué);2010年03期

10 陳蘭;金遠(yuǎn)平;;基于本體的垂直搜索引擎研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年11期

相關(guān)碩士學(xué)位論文 前9條

1 韓春曉;中文期刊個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年

2 王俊;面向房產(chǎn)領(lǐng)域的垂直搜索引擎研究與實(shí)現(xiàn)[D];南昌大學(xué);2012年

3 佟星;支持字符串近似查詢的索引關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2012年

4 劉育蓮;手機(jī)產(chǎn)品垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年

5 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

6 王波;基于Lucene的企業(yè)搜索引擎[D];北京郵電大學(xué);2009年

7 王濤;Web頁(yè)面中結(jié)構(gòu)化數(shù)據(jù)抽取的實(shí)現(xiàn)與應(yīng)用[D];天津大學(xué);2007年

8 滕躍;基于用戶興趣的個(gè)性化WEB檢索[D];清華大學(xué);2004年

9 張宏森;Web信息檢索及應(yīng)用設(shè)計(jì)優(yōu)化技術(shù)研究[D];重慶大學(xué);2002年



本文編號(hào):2825330

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2825330.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c5388***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com