天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

互聯(lián)網(wǎng)中實(shí)時(shí)信息獲取與索引技術(shù)研究

發(fā)布時(shí)間:2021-04-10 00:32
  互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展使得網(wǎng)絡(luò)上的信息越來越多,人們雖然可以使用傳統(tǒng)的搜索引擎找到自己感興趣的內(nèi)容,但是搜索得到結(jié)果卻往往是過時(shí)的信息。這是因?yàn)?傳統(tǒng)搜索引擎為了使搜索結(jié)果的覆蓋面廣,內(nèi)容更豐富,在信息獲取階段也即網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的時(shí)候,會耗費(fèi)大量的時(shí)間。另外,把最終抓取到的大量的信息加入索引庫中也會帶來一筆不小的時(shí)間開銷。因此,當(dāng)用戶從傳統(tǒng)搜索引擎得到搜索結(jié)果時(shí),互聯(lián)網(wǎng)上的原始信息可能已經(jīng)產(chǎn)生了較大的變動。本論文主要針對傳統(tǒng)搜索引擎中搜索結(jié)果時(shí)效性低的現(xiàn)象,對互聯(lián)網(wǎng)上實(shí)時(shí)信息的獲取和索引技術(shù)進(jìn)行了深入的研究。主要內(nèi)容有:首先,在對傳統(tǒng)搜索引擎的基本框架和工作原理進(jìn)行研究的基礎(chǔ)上,針對搜索結(jié)果中信息過時(shí)這個(gè)現(xiàn)象,確定了本文對網(wǎng)絡(luò)爬蟲和索引進(jìn)行研究和改進(jìn)的技術(shù)方案。然后,文本介紹并分析了目前互聯(lián)網(wǎng)上實(shí)時(shí)信息的種類,并對新聞類的實(shí)時(shí)信息進(jìn)行了研究。由于新聞類信息每時(shí)每刻都會產(chǎn)生,并且需要網(wǎng)絡(luò)爬蟲從新聞網(wǎng)站上獲取,因此,本論文分析了新聞類信息的網(wǎng)址特點(diǎn),并提出了使用網(wǎng)絡(luò)爬蟲定向獲取新聞類信息的方案,通過定制Heritrix開源網(wǎng)絡(luò)爬蟲,對新聞類實(shí)時(shí)信息獲取進(jìn)行了實(shí)驗(yàn),驗(yàn)證該方案的可行性。之后,... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:82 頁

【學(xué)位級別】:碩士

【部分圖文】:

互聯(lián)網(wǎng)中實(shí)時(shí)信息獲取與索引技術(shù)研究


Google搜索引擎的實(shí)時(shí)搜索功能國內(nèi)的主流搜索引擎廠商也相繼推出了自己的實(shí)時(shí)搜索引擎服務(wù),其中,做得比較好的當(dāng)數(shù)有道搜索

社交,搜索引擎,功能


圖1-2所示,從圖中可以看出,有道搜索也可以如Google—樣對新聞事件進(jìn)行按時(shí)間排序,為用戶帶來滿意的搜索結(jié)果。m m m m m mm m m m艦從I艱雪 ~~^ . .-. . a.. 、.,? ’ ? ___i , _ :滿命SI陽I 額W* 書茨鮞霧響齋人餐噩女藤*a*a?iSKwarS 芝 jgiia 來入冬囊大鋒雪大 mmmm zmmmmMmtt?關(guān)費(fèi)讀? 卿__寧 - -慕8??^艾優(yōu)進(jìn)屯(ghm 賺大_mmm ? x |g腦■:厚票:?.???丨教十多人R亡長安發(fā)布翁?連?但!ic天氣att-a* tz圖1-2有道搜索引擎實(shí)時(shí)搜索功能針對社交網(wǎng)絡(luò)的實(shí)時(shí)搜索則主要由相應(yīng)的社交網(wǎng)絡(luò)自己來提供。例如國內(nèi)比較著名的社交網(wǎng)絡(luò)平臺新浪微博為用戶提供了搜索的功能。與搜索引擎先建立索引再搜索的流程不同,社交網(wǎng)絡(luò)可以對自己的數(shù)據(jù)庫進(jìn)行檢索,返回更加精確的搜索結(jié)果。例如,對于“美國暴風(fēng)雪”的搜索結(jié)果,新浪微博搜索功能返回的結(jié)果如圖1-3所示。從圖中可以看出,新浪微博的搜索結(jié)果中,實(shí)時(shí)性最強(qiáng),用戶甚至可以看到最近的幾秒鐘內(nèi)發(fā)生的事情。但社交網(wǎng)絡(luò)上的信息是由用戶發(fā)布的,因此實(shí)時(shí)搜索結(jié)果可能包含各類信息

功能圖,功能,暴風(fēng)雪,社交


例如,對于“美國暴風(fēng)雪”的搜索結(jié)果,新浪微博搜索功能返回的結(jié)果如圖1-3所示。從圖中可以看出,新浪微博的搜索結(jié)果中,實(shí)時(shí)性最強(qiáng),用戶甚至可以看到最近的幾秒鐘內(nèi)發(fā)生的事情。但社交網(wǎng)絡(luò)上的信息是由用戶發(fā)布的,因此實(shí)時(shí)搜索結(jié)果可能包含各類信息,需要用戶去飄選有價(jià)值的信息。4

【參考文獻(xiàn)】:
期刊論文
[1]基于Heritrix的增量式網(wǎng)絡(luò)爬蟲研究[J]. 張皓,周學(xué)廣.  軟件導(dǎo)刊. 2013(11)
[2]基于Heritrix的網(wǎng)絡(luò)爬蟲研究與應(yīng)用[J]. 劉高軍,夏景隆.  軟件導(dǎo)刊. 2013(05)
[3]基于Heritrix的網(wǎng)頁內(nèi)容過濾抓取[J]. 陳錦偉,徐勇.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2012(21)
[4]基于Heritrix的web信息抽取優(yōu)化與實(shí)現(xiàn)[J]. 吳偉,陳建峽.  湖北工業(yè)大學(xué)學(xué)報(bào). 2012(02)
[5]基于Heritrix的面向特定主題的聚焦爬蟲研究[J]. 朱敏,羅省賢.  計(jì)算機(jī)技術(shù)與發(fā)展. 2012(02)
[6]基于網(wǎng)頁結(jié)構(gòu)特征的網(wǎng)頁主要文本信息抽取策略[J]. 火善棟.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(04)
[7]基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn)[J]. 向暉,郭一平,王亮.  現(xiàn)代圖書情報(bào)技術(shù). 2006(08)
[8]基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J]. 郎小偉,王申康.  計(jì)算機(jī)工程. 2006(04)
[9]Servlet技術(shù)與應(yīng)用方法[J]. 池亞平,方勇.  北京郵電大學(xué)學(xué)報(bào). 2003(S1)
[10]基于LUCENEAPI的中文全文數(shù)據(jù)庫設(shè)計(jì)與實(shí)現(xiàn)[J]. 趙汀,孟祥武.  計(jì)算機(jī)工程與應(yīng)用. 2003(20)

碩士論文
[1]數(shù)據(jù)倉庫查詢優(yōu)化方法及索引技術(shù)研究[D]. 郭峻峰.合肥工業(yè)大學(xué) 2010
[2]垂直搜索引擎數(shù)據(jù)分析技術(shù)的研究與實(shí)現(xiàn)[D]. 江娟.華北電力大學(xué)(北京) 2008
[3]Web信息獲取技術(shù)研究[D]. 吳東華.南京理工大學(xué) 2004



本文編號:3128598

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3128598.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7bc7a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com