天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于元搜索的信息采集平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2019-08-03 21:09
【摘要】:基于元搜索的信息獲取是網(wǎng)絡(luò)信息采集中重要且行之有效的手段之一,得益于近些年搜索引擎快速發(fā)展,這種方式的信息獲取具有覆蓋面廣、簡(jiǎn)單操作等優(yōu)點(diǎn)。探討基于元搜索的信息采集平臺(tái)的實(shí)現(xiàn)方法,對(duì)獲取到的海量異構(gòu)信息實(shí)現(xiàn)歸一化存儲(chǔ),并實(shí)現(xiàn)自動(dòng)熱點(diǎn)聚成及熱點(diǎn)呈現(xiàn)。實(shí)驗(yàn)證明,該平臺(tái)在信息獲取中有著不錯(cuò)的效果,還在信息匯總、熱點(diǎn)融合等功能上為用戶提供高效、便捷的操作手段。
【圖文】:

基于元搜索的信息采集平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)


保證信息采集更新的及時(shí)性和全面性;然后是對(duì)信息做多元化處理并發(fā)現(xiàn)熱點(diǎn)的信息聚成模塊,對(duì)已有海量信息做到多元化的匯總和統(tǒng)計(jì),最大化挖掘出有效信息;最終是對(duì)用戶提供統(tǒng)計(jì)信息的發(fā)布模塊,融合多種呈現(xiàn)效果的動(dòng)態(tài)圖表和高效的信息列表,以及海量數(shù)據(jù)的全文檢索,將處理過(guò)的二次數(shù)據(jù)展示給最終用戶。2.1功能模塊及工作流程首先是采集模塊通過(guò)配置的焦點(diǎn)采集到信息,再對(duì)信息進(jìn)行去重、熱點(diǎn)計(jì)算等處理后存入數(shù)據(jù)庫(kù)和文件系統(tǒng)中,最終發(fā)布模塊使用戶看到豐富的經(jīng)過(guò)二次處理的數(shù)據(jù)和信息。它整個(gè)的功能模塊及其流程如圖1所示。圖1采集平臺(tái)功能模塊及其流程(1)分時(shí)啟動(dòng)采集線程多引擎多焦點(diǎn)的采集任務(wù)量耗時(shí)且繁重,,單線程隊(duì)列式采集模式不能在特定時(shí)間段內(nèi)有效的完成,所以需要采用以焦點(diǎn)為切入口發(fā)起多線程采集機(jī)制對(duì)任務(wù)進(jìn)行分解采集,將采集任務(wù)分給多個(gè)線程來(lái)完成,這種模式可以使若干個(gè)焦點(diǎn)在一定時(shí)間內(nèi)完成采集。由于采集任務(wù)是采用周期性運(yùn)行的模式,考慮到每次采集啟動(dòng)時(shí),初期所有線程會(huì)同時(shí)啟動(dòng),需要消耗大量的硬件資源和網(wǎng)絡(luò)資源,后期大部分線程退出后資源又不能有效利用,可以將線程劃分到不同的時(shí)間段中發(fā)起,使采集高效有序地進(jìn)行。對(duì)于n個(gè)焦點(diǎn),以現(xiàn)有設(shè)定的4個(gè)搜索引擎(百度谷歌單頁(yè)完成特定條數(shù)采集,奇虎搜索需分10頁(yè)采集),采集任務(wù)啟動(dòng)后會(huì)發(fā)生最多n×22次對(duì)搜索引擎的訪問(wèn),最多解析到n×400條最新信息,去重、熱點(diǎn)分析、統(tǒng)計(jì)信息更新,目標(biāo)頁(yè)面主體獲取等操作會(huì)造成對(duì)網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)的頻繁訪問(wèn),如果一個(gè)時(shí)點(diǎn)同時(shí)啟動(dòng)各個(gè)搜索引擎的采集線程,會(huì)對(duì)服務(wù)器硬件和網(wǎng)絡(luò)環(huán)境造成過(guò)大的壓力,對(duì)搜索引擎頻繁的訪問(wèn)也容易被列入非正常訪問(wèn)黑名單,所以采用分時(shí)啟動(dòng)采集線程的模式執(zhí)行采集任務(wù)。在采集前先根據(jù)當(dāng)前
【作者單位】: 軍工思波信息科技產(chǎn)業(yè)有限公司;
【分類號(hào)】:TP311.52

【共引文獻(xiàn)】

相關(guān)期刊論文 前6條

1 魏玖長(zhǎng),趙定濤;基于元搜索引擎的危機(jī)信息監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)[J];管理科學(xué);2005年05期

2 鮑宗泛,曹永生,孔繁勝;廣域網(wǎng)數(shù)據(jù)庫(kù)查詢系統(tǒng)及其實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2004年07期

3 馬家宇,陽(yáng)小華,劉振宇,陶滔,譚敏生;基于弱實(shí)時(shí)系統(tǒng)的元搜索引擎合成策略[J];計(jì)算技術(shù)與自動(dòng)化;2004年02期

4 王雁杰;元搜索引擎的發(fā)展悖論及建議[J];情報(bào)雜志;2004年07期

5 王敏,楊炳儒;基于主題的個(gè)性化元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];情報(bào)雜志;2005年07期

6 魏玖長(zhǎng);趙定濤;;危機(jī)事件社會(huì)影響的評(píng)估與分析[J];中國(guó)軟科學(xué);2006年06期

相關(guān)博士學(xué)位論文 前2條

1 魏玖長(zhǎng);危機(jī)事件社會(huì)影響的分析與評(píng)估研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

2 吳麗輝;個(gè)性化的Web信息采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年

相關(guān)碩士學(xué)位論文 前9條

1 鮑宗泛;廣域網(wǎng)數(shù)據(jù)庫(kù)查詢系統(tǒng)的研究與開(kāi)發(fā)[D];浙江大學(xué);2004年

2 張磊;基于P2P的信息共享Agent研究[D];浙江大學(xué);2005年

3 陳默;基于神經(jīng)網(wǎng)絡(luò)的元搜索引擎[D];浙江大學(xué);2006年

4 許又泉;一種網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的研究與設(shè)計(jì)[D];湖南大學(xué);2006年

5 江濤;元搜索引擎及網(wǎng)頁(yè)分析器的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2006年

6 鄧忠京;基于多線程與代理模式的企業(yè)網(wǎng)絡(luò)機(jī)器人研究[D];暨南大學(xué);2006年

7 王艷芬;基于本體技術(shù)的元搜索引擎XXYJ系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2007年

8 侯凡;文本分類技術(shù)在綜合風(fēng)險(xiǎn)元搜索引擎中的研究與實(shí)現(xiàn)[D];西北大學(xué);2008年

9 種梅;元搜索引擎中的關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2008年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 張魁麟,邵春福,王力劭;基于分布式并行算法的動(dòng)態(tài)交通流分配研究[J];北方交通大學(xué)學(xué)報(bào);2002年05期

2 李廣建,黃];元搜索引擎及其主要技術(shù)[J];情報(bào)科學(xué);2002年02期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李培;;元搜索引擎資源選擇融合方法的研究[J];圖書館工作與研究;2011年08期

2 陳永平;楊思春;毛萬(wàn)勝;蘇新;劉俞;;中文問(wèn)答系統(tǒng)中基于主題和焦點(diǎn)的問(wèn)題理解[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年06期

3 宋立軍;;淺論網(wǎng)絡(luò)數(shù)學(xué)搜索中的數(shù)學(xué)查詢語(yǔ)言與索引的研究[J];科技創(chuàng)新導(dǎo)報(bào);2011年21期

4 熊晶;王愛(ài)民;徐建良;;基于領(lǐng)域本體的信息檢索優(yōu)化策略[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年08期

5 ;掌中資源站[J];電腦迷;2011年11期

6 崇芬;;模擬暗房操作,讓照片呈現(xiàn)奧頓效果[J];電腦愛(ài)好者;2011年11期

7 齊書陽(yáng);;平板神話[J];電腦愛(ài)好者;2011年09期

8 成劍英;;網(wǎng)絡(luò)環(huán)境下高校教師個(gè)性化教學(xué)資源庫(kù)的構(gòu)建[J];江西行政學(xué)院學(xué)報(bào);2011年03期

9 何光虹;趙英凱;李彥文;;網(wǎng)絡(luò)信息監(jiān)測(cè)采集技術(shù)在中醫(yī)藥情報(bào)研究中的應(yīng)用[J];醫(yī)學(xué)信息(上旬刊);2011年09期

10 潘加宇;;CMMI1.3[J];程序員;2010年11期

相關(guān)會(huì)議論文 前10條

1 陽(yáng)小華;劉振宇;譚敏生;劉杰;左貴啟;;元搜索引擎查詢結(jié)果的合成方法[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

2 李慧;張民;宋源清;;網(wǎng)絡(luò)搜索引擎[A];2009全國(guó)計(jì)算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會(huì)議論文集[C];2009年

3 孟奇奎;;一種基于數(shù)據(jù)庫(kù)和用戶反饋信息的元搜索引擎數(shù)據(jù)庫(kù)選擇算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

4 余晉;鄧志鴻;田敬;唐世渭;;PinkySearch:基于聚類的元搜索引擎[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年

5 吳冷冬;童云海;唐世渭;;面向在線音樂(lè)視頻的元搜索引擎VMS[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年

6 夏小玲;祁博民;廖順和;;基于Web服務(wù)和元搜索引擎的數(shù)字圖書館中元數(shù)據(jù)互操作框架[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年

7 陳偉雄;馬少平;步建華;;基于元搜索引擎的多關(guān)鍵詞檢索技術(shù)[A];廣東省電機(jī)工程學(xué)會(huì)2003-2004年度優(yōu)秀論文集[C];2005年

8 梁偉賢;;網(wǎng)絡(luò)搜索引擎發(fā)展現(xiàn)狀的探討[A];2007中國(guó)科協(xié)年會(huì)——通信與信息發(fā)展高層論壇論文集[C];2007年

9 周小平;梁一平;鄧左祥;;元搜索引擎研究[A];2009年中國(guó)高校通信類院系學(xué)術(shù)研討會(huì)論文集[C];2009年

10 吳遠(yuǎn)紅;徐妙君;范銀琛;;元搜索引擎中基于OWA算子的查詢結(jié)果合成研究[A];2007年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年

相關(guān)重要報(bào)紙文章 前10條

1 武萍;CAD應(yīng)用的下一個(gè)焦點(diǎn)[N];中華建筑報(bào);2008年

2 朱玲;協(xié)同:國(guó)產(chǎn)CAD的突破口[N];科技日?qǐng)?bào);2007年

3 本報(bào)記者  鄭昊 徐穎;網(wǎng)絡(luò)地址資源:中小企業(yè)爭(zhēng)奪的新焦點(diǎn)[N];陜西日?qǐng)?bào);2006年

4 張琳;安全電子商務(wù)成為新焦點(diǎn)[N];網(wǎng)絡(luò)世界;2007年

5 李佳師;虛擬化、商業(yè)智能 微軟下一代平臺(tái)的焦點(diǎn)[N];中國(guó)電子報(bào);2008年

6 周童;SolidWorks 2008為設(shè)計(jì)注入靈感[N];計(jì)算機(jī)世界;2008年

7 加寶;U盤殺毒技術(shù)成行業(yè)競(jìng)爭(zhēng)新焦點(diǎn)[N];通信信息報(bào);2007年

8 雷穎;中小企業(yè)實(shí)施ERP的成功因素[N];財(cái)會(huì)信報(bào);2007年

9 高雪娟;未來(lái)競(jìng)爭(zhēng)有三個(gè)焦點(diǎn)[N];中國(guó)計(jì)算機(jī)報(bào);2006年

10 IDC中國(guó)軟件與服務(wù)研究部研究主管經(jīng)理 韓國(guó)華;軟件外包和中小企業(yè)市場(chǎng)被看好[N];計(jì)算機(jī)世界;2007年

相關(guān)博士學(xué)位論文 前3條

1 李紅梅;智能元搜索引擎關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2009年

2 李強(qiáng);基于本體論的個(gè)性化和社會(huì)化元搜索引擎的研究[D];浙江大學(xué);2006年

3 劉煒;智能元搜索引擎中個(gè)性化模式庫(kù)的研究[D];太原理工大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 王金棟;元搜索引擎調(diào)度策略及結(jié)果排序算法的研究[D];燕山大學(xué);2010年

2 王新;一種垂直元搜索引擎的研究[D];西北大學(xué);2010年

3 馮冰潔;后綴樹算法在元搜索引擎中的應(yīng)用[D];暨南大學(xué);2010年

4 張?chǎng)?基于本體論的領(lǐng)域元搜索引擎的研究與設(shè)計(jì)[D];蘭州大學(xué);2010年

5 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

6 劉林;基于語(yǔ)義的元搜索引擎關(guān)鍵技術(shù)研究[D];河南工業(yè)大學(xué);2010年

7 程賓;基于用戶興趣模型的元搜索引擎的研究[D];山東科技大學(xué);2010年

8 王春艷;元搜索引擎的研究與實(shí)現(xiàn)[D];吉林大學(xué);2011年

9 劉海;建立基于元搜索引擎的語(yǔ)音庫(kù)查詢收集系統(tǒng)[D];淮北師范大學(xué);2011年

10 李亞;元搜索引擎的個(gè)性化技術(shù)研究[D];燕山大學(xué);2011年



本文編號(hào):2522798

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2522798.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b3fe5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com