天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

實(shí)時(shí)搜索引擎中時(shí)間信息的獲取及簡(jiǎn)單應(yīng)用

發(fā)布時(shí)間:2018-03-22 12:16

  本文選題:實(shí)時(shí)搜索引擎 切入點(diǎn):頁(yè)面時(shí)間信息 出處:《吉林大學(xué)》2012年碩士論文 論文類型:學(xué)位論文


【摘要】:近年來(lái),社會(huì)化網(wǎng)絡(luò)(SNS)以及微博(MicroBlog)從現(xiàn)代互聯(lián)網(wǎng)技術(shù)中脫穎而出,在很短的時(shí)間內(nèi)以極快的速度發(fā)展著。這些網(wǎng)絡(luò)社區(qū)吸引了數(shù)量龐大的用戶群體,用戶在社區(qū)當(dāng)中可以自由的、隨時(shí)隨地的發(fā)表信息。另一方面,傳統(tǒng)新聞報(bào)紙媒體也逐漸開始向電子新聞媒體轉(zhuǎn)型,所發(fā)生事件的相關(guān)新聞報(bào)道也通過(guò)網(wǎng)絡(luò)越來(lái)越及時(shí)的出現(xiàn)在互聯(lián)網(wǎng)上。 對(duì)于這兩種類型的信息,用戶如何能夠及時(shí)的、快速的、準(zhǔn)確的去獲取到呢?我們知道,用戶獲取網(wǎng)絡(luò)上信息的最常用的方式是通過(guò)搜索引擎來(lái)進(jìn)行檢索,用戶輸入所需要獲取信息的關(guān)鍵詞(KeyWord),搜索引擎會(huì)在索引數(shù)據(jù)庫(kù)中查找那些相關(guān)的網(wǎng)頁(yè)信息,并將查詢得到的結(jié)果按照一定的規(guī)則經(jīng)過(guò)排序之后取其中的Top-K返回給用戶。那么用戶是否可以通過(guò)傳統(tǒng)的搜索引擎來(lái)獲取SNS信息、微博信息以及最新的新聞報(bào)道信息呢?由于這些類型的信息都是每時(shí)每刻實(shí)時(shí)產(chǎn)生的,當(dāng)這些信息在網(wǎng)絡(luò)上出現(xiàn)時(shí),傳統(tǒng)的搜索引擎并不能夠及時(shí)的對(duì)這些新產(chǎn)生的信息進(jìn)行索引并加入到索引數(shù)據(jù)庫(kù)中,所以傳統(tǒng)的搜索引擎無(wú)法滿足用戶對(duì)這些實(shí)時(shí)信息進(jìn)行檢索的需求。這種對(duì)實(shí)時(shí)類信息進(jìn)行檢索的需求,就促進(jìn)了實(shí)時(shí)搜索引擎的快速發(fā)展。實(shí)時(shí)搜索引擎是近年來(lái)迅速發(fā)展起來(lái)的,它就是為檢索SNS信息、微博信息、新聞?lì)愋畔⑻峁⿲?shí)時(shí)檢索服務(wù)的。 在實(shí)時(shí)搜索當(dāng)中,如何獲得頁(yè)面的時(shí)間要素信息是其提供實(shí)時(shí)檢索服務(wù)的關(guān)鍵。這些時(shí)間要素信息主要包括:網(wǎng)頁(yè)頁(yè)面的創(chuàng)建時(shí)間,網(wǎng)頁(yè)頁(yè)面的更新時(shí)間,以及網(wǎng)頁(yè)內(nèi)容的更新周期。而要獲得網(wǎng)頁(yè)頁(yè)面的這些時(shí)間信息,就必須對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行一些處理,以去除頁(yè)面上的與頁(yè)面主要內(nèi)容無(wú)關(guān)的部分,然后從頁(yè)面所包含的主要內(nèi)容當(dāng)中或者頁(yè)面當(dāng)中的鏈接關(guān)系來(lái)獲得該頁(yè)面的相關(guān)的時(shí)間信息。 文中在對(duì)這些類型的實(shí)時(shí)信息頁(yè)面進(jìn)行分析的過(guò)程中,發(fā)現(xiàn)了這類信息頁(yè)面的主要內(nèi)容一般只由一個(gè)獨(dú)立的內(nèi)容塊構(gòu)成,而且這些頁(yè)面的主要內(nèi)容在經(jīng)過(guò)自然語(yǔ)言處理技術(shù)處理之后,還在語(yǔ)義上表現(xiàn)出很有規(guī)律的詞性特征。在W3C提出的DOM樹模型的基礎(chǔ)上,本文利用頁(yè)面內(nèi)容在語(yǔ)義上所表現(xiàn)出來(lái)的這些詞性特征,以及HTML標(biāo)記本身的可視化信息,提出了一種提取頁(yè)面的主要內(nèi)容、對(duì)頁(yè)面進(jìn)行重構(gòu)的算法SemV。相關(guān)實(shí)驗(yàn)表明,SemV算法能有有效的、準(zhǔn)確的識(shí)別出新聞頁(yè)面的主要內(nèi)容,而且還可以有效地減少保存頁(yè)面所需要的存儲(chǔ)空間,節(jié)約了硬件資源。 在提取出頁(yè)面的主要內(nèi)容、對(duì)頁(yè)面進(jìn)行重構(gòu)的基礎(chǔ)上,根據(jù)表示頁(yè)面的時(shí)間信息的詞匯或者短語(yǔ)的分布情況以及時(shí)間信息出現(xiàn)的模式特征,提取得到頁(yè)面內(nèi)容當(dāng)中所包含的表示時(shí)間信息的詞匯和短語(yǔ),然后依據(jù)這些表示時(shí)間信息的詞匯和短語(yǔ)來(lái)估計(jì)獲得頁(yè)面的相關(guān)時(shí)間信息。在對(duì)新聞報(bào)道信息之間的聯(lián)系進(jìn)行語(yǔ)義分析的過(guò)程中,文中發(fā)現(xiàn)關(guān)于同一事件的新聞報(bào)道信息具有很強(qiáng)的聯(lián)系,它們都以事件為中心。在對(duì)它們之間的這種聯(lián)系進(jìn)行分析的基礎(chǔ)上,文中提出了新聞事件對(duì)象模型以及基于該模型對(duì)頁(yè)面時(shí)間要素信息進(jìn)行估計(jì)的方法EOM。相關(guān)的試驗(yàn)驗(yàn)證了該模型的可行性和準(zhǔn)確性,,對(duì)于新聞報(bào)道類信息以及和新聞報(bào)道相關(guān)的微博、社交網(wǎng)絡(luò)信息,該模型和方法都具有較好的效果。 在獲得頁(yè)面的時(shí)間要素信息之后,文中對(duì)比分析了實(shí)時(shí)搜索引擎當(dāng)中爬蟲對(duì)頁(yè)面進(jìn)行重新爬行以獲取頁(yè)面更新信息內(nèi)容的兩種方法:基于自然順序的方法和基于網(wǎng)頁(yè)重要性程度的方法。最后結(jié)合頁(yè)面的更新時(shí)間、更新周期以及頁(yè)面的重要性程度,提出了一種基于貪心策略的方法:根據(jù)頁(yè)面的更新時(shí)間和更新周期信息來(lái)指導(dǎo)爬蟲爬行更新信息。貪心策略體現(xiàn)在具有最短更新周期的頁(yè)面爬蟲優(yōu)先進(jìn)行爬行。該調(diào)度策略方法,可以高效的分配爬蟲的有限的硬件和網(wǎng)絡(luò)帶寬資源,及時(shí)的獲取得到頁(yè)面上的更新信息內(nèi)容,有效的提高爬蟲的工作效率,降低爬蟲和服務(wù)器的負(fù)載。 最后,由于實(shí)時(shí)搜索引擎是最近一段時(shí)間才發(fā)展起來(lái)的,所以其中還存在很多的需要我們?nèi)ソ鉀Q的問(wèn)題,文中給出了一些需要進(jìn)行進(jìn)一步研究解決的問(wèn)題并指出了后續(xù)研究工作的方向。
[Abstract]:In recent years, social networking (SNS) and micro-blog (MicroBlog) from the modern Internet technology talent shows itself, in a very short period of time in order to speed the development of the network. The community has attracted a huge number of user groups, users can freely in the community, everywhere published information. On the other hand, the traditional newspaper media are also beginning to transition to the electronic news media, news events through the network more and more timely appear on the Internet.
For the two types of information, how users can timely, fast, accurate to get to? We know that the user access to the network information is the most common way is through the search engine to search keywords, the user input needed to obtain information (KeyWord), the search engine will search for relevant web pages in the index database, and the query results according to certain rules sorted after the Top-K to return to the user. Then the user can SNS information is acquired through the traditional search engine, micro-blog information and latest news information? These types of information are generated in real time all the time and when these messages appear on the network, the traditional search engine can not be timely for these new information are indexed and added to the index database, the In the traditional search engine cannot meet user retrieval needs of these real-time information. The retrieval needs of real-time information, will promote the rapid development of real-time search engine. A real-time search engine is developed rapidly in recent years, it is for the retrieval of SNS information, micro-blog information, news information to provide real-time retrieval service.
In real-time search, how to get the information of the time factor is the key to provide real-time page retrieval service. These factors include: time information web page creation time, update time of web page, update cycle and content on the web. The time information and to obtain the web page, there must be some processing on the web page in order to remove the page, page and page main content independent parts, main contents and from the page contains links among pages or to obtain relevant information of the time of the page.
In this paper, in the process of real-time information page for these types of analysis, found the main content of this kind of information page only by an independent content blocks, and the main content of these pages after Natural Language Processing technology, still shows some semantic and POS features are based on W3C rules. The DOM tree model, the page content displayed in the meaning out of these speech features and HTML labeled visual information itself, and put forward the main content of a page extraction algorithm of SemV., shows that the related experiments in page reconstruction, SemV algorithm can effectively and accurately identify the the main content of news pages, but also can effectively reduce the storage space needed to save the page, save the hardware resources.
To extract the main content of the page, based on the reconstruction of the page, according to the distribution characteristics of time mode information page words or phrases and time information, extracted from the page content contains time information representing words and phrases, and then on the basis of the time information representing words and phrases. The estimated time information page. The process of semantic analysis in the relationship between news report information, this paper found that the news reports on the same event information has strong ties, they are event centered. Based on the analysis of the relationship between them, is proposed in this paper. The news event object model and based on the time information of the page elements model test EOM. estimation method to verify the feasibility of the model and accurate Sex, for news reports and news reports related to micro-blog, social network information, the model and methods have good results.
After the information time factor of the page, the comparative analysis of the real-time search engine crawler on page re crawling two methods to obtain the page update content: a method based on the natural order and method based on "the importance. Finally, the update time of the page, the update cycle and the degree of importance of the page, put forward a method based on greedy strategy: according to page update time and update cycle information to guide the crawler crawl to update the information. The greedy strategy is showed in the shortest period to update the page crawl crawl. The priority scheduling strategy, the crawler can be assigned efficiently with limited hardware and network bandwidth resources, to get the update the information content on the page in a timely manner, effectively improve the crawler work efficiency, reduce the load crawler and the server.
Finally, due to the fact that the real-time search engine has been developing for a long time, there are still many problems that we need to solve. In this paper, some problems that need further research and solutions are pointed out, and the direction for further research is pointed out.

【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 ;關(guān)鍵詞搜索[J];每周電腦報(bào);2000年38期

2 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期

3 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報(bào);2001年01期

4 周毅華;從搜索引擎的分類看其應(yīng)用技巧[J];圖書館理論與實(shí)踐;2002年06期

5 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書館學(xué)研究;2002年05期

6 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期

7 林中;GOOGLE搜索引擎的關(guān)鍵詞檢索[J];中國(guó)信息導(dǎo)報(bào);2003年03期

8 封劍待封喉;吸星大法“搜”天下 笑傲網(wǎng)絡(luò)任我行——搜索引擎絕對(duì)專題[J];網(wǎng)絡(luò)與信息;2003年07期

9 閆凡蕾;建設(shè)站內(nèi)搜索的好幫手——Search Engine Maker[J];少年電世界;2003年08期

10 鳳元杰,劉正春,王堅(jiān)毅;搜索引擎主要性能評(píng)價(jià)指標(biāo)體系研究[J];情報(bào)學(xué)報(bào);2004年01期

相關(guān)會(huì)議論文 前10條

1 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

3 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

7 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年

8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年

9 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年

10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年

相關(guān)重要報(bào)紙文章 前10條

1 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年

2 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年

3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年

4 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國(guó)計(jì)算機(jī)報(bào);2005年

5 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

6 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年

8 本報(bào)記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國(guó)證券報(bào);2006年

9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年

10 姜蕊;問(wèn)天下誰(shuí)識(shí)搜索?[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

7 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

8 張乃洲;實(shí)體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年

9 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

10 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

相關(guān)碩士學(xué)位論文 前10條

1 張朝斌;企業(yè)級(jí)搜索引擎的優(yōu)化設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年

2 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年

3 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

4 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

5 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年

6 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年

7 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年

8 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

9 李建平;智能化WEB信息搜索引擎的研究與實(shí)現(xiàn)[D];大慶石油學(xué)院;2003年

10 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實(shí)踐[D];新疆大學(xué);2004年



本文編號(hào):1648615

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1648615.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cf114***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com