Paperopen中的OA論文垂直蜘蛛設(shè)計(jì)
本文選題:開(kāi)放閱讀 + 搜索引擎; 參考:《情報(bào)雜志》2008年06期
【摘要】:描述了Paperopen項(xiàng)目中OA期刊論文蜘蛛的總體設(shè)計(jì)方案、蜘蛛調(diào)度機(jī)制、論文全文文件命名原則、數(shù)據(jù)庫(kù)設(shè)計(jì)以及頁(yè)面爬取和蜘蛛調(diào)度需要注意的問(wèn)題,提出通過(guò)插件技術(shù)可解決一些雜志社網(wǎng)站存在的論文全文鏈接轉(zhuǎn)向問(wèn)題。Paperopen采用deep web技術(shù)能夠獲取隱藏在數(shù)據(jù)庫(kù)后面的論文數(shù)據(jù)。采用該方案設(shè)計(jì)的蜘蛛工作正常,每天可爬取論文1萬(wàn)篇左右,大大提高執(zhí)行效率。
[Abstract]:This paper describes the overall design scheme, spider scheduling mechanism, naming principle of full text file, database design, page crawling and spider scheduling in Paperopen project. This paper puts forward that using plug-in technology can solve the problem of full-text link turning in some magazines' websites. Paperopen can obtain the paper data hidden behind the database by using deep web technology. The spider designed by this scheme works normally and can crawl about 10, 000 papers a day, which greatly improves the execution efficiency.
【作者單位】: 西北工業(yè)大學(xué)機(jī)電學(xué)院 西北工業(yè)大學(xué)機(jī)電學(xué)院 陜西省科技信息研究所 陜西省科技信息研究所
【基金】:陜西省科學(xué)技術(shù)研究發(fā)展計(jì)劃項(xiàng)目“科技論文開(kāi)放獲取搜索引擎研究”(編號(hào):2007K04-11)
【分類號(hào)】:TP317.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報(bào)科學(xué);2007年01期
2 邵斐;孫濟(jì)慶;;一種適用于動(dòng)態(tài)網(wǎng)頁(yè)的網(wǎng)絡(luò)蜘蛛爬行策略研究[J];情報(bào)雜志;2007年05期
相關(guān)碩士學(xué)位論文 前1條
1 王駿;基于垂直搜索引擎技術(shù)的房源信息分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2006年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 祝偉華;李嘉毅;劉斌斌;;二手汽車交易信息垂直搜索網(wǎng)的設(shè)計(jì)[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年08期
2 趙洋;滕桂法;張玉新;何冬梅;;基于Internet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計(jì)[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2009年06期
3 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期
4 陳洪猛;;基于垂直搜索技術(shù)的搜索引擎解決方案[J];電腦應(yīng)用技術(shù);2008年01期
5 劉金亮;吳芳;孟海江;;智能化垂直搜索系統(tǒng)的構(gòu)建[J];電腦知識(shí)與技術(shù);2010年02期
6 縣小平;;主題搜索引擎的PageRank算法研究[J];甘肅高師學(xué)報(bào);2011年05期
7 康亞娟;;站內(nèi)搜索的研究與實(shí)現(xiàn)[J];信息技術(shù);2011年08期
8 梁秀娟;;互聯(lián)網(wǎng)信息服務(wù)商用模式研究進(jìn)展[J];決策與信息(財(cái)經(jīng)觀察);2008年06期
9 吳飛;吳兵;申志斌;;新一代網(wǎng)絡(luò)教學(xué)平臺(tái)特征和技術(shù)難點(diǎn)的分析與探討[J];開(kāi)放教育研究;2009年01期
10 高一波;趙先章;孫碩;黃河;;面向垂直搜索引擎的基于知識(shí)的語(yǔ)義關(guān)聯(lián)算法[J];計(jì)算機(jī)工程;2009年11期
相關(guān)博士學(xué)位論文 前2條
1 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 陳志剛;網(wǎng)絡(luò)Flash資源爬行器的設(shè)計(jì)與實(shí)現(xiàn)[D];山東師范大學(xué);2011年
3 文星;基于位置感知的Web文本搜索技術(shù)研究[D];大連海事大學(xué);2011年
4 李琚彪;質(zhì)檢輿情監(jiān)控系統(tǒng)中信息檢索的研究[D];北京郵電大學(xué);2011年
5 周兵;基于分布式精準(zhǔn)采集的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
6 劉歡;職位匹配系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2011年
7 劉志偉;數(shù)學(xué)搜索引擎研究[D];蘭州大學(xué);2011年
8 趙思佳;基于規(guī)則引擎的個(gè)性化網(wǎng)頁(yè)爬蟲(chóng)研究[D];中南大學(xué);2010年
9 樊峻;基于CORESEEK的中文信息搜索系統(tǒng)的研究與應(yīng)用[D];安徽理工大學(xué);2011年
10 張贏;個(gè)性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期
2 黃建蓮;中國(guó)搜索引擎服務(wù)市場(chǎng)的現(xiàn)狀及發(fā)展[J];華北科技學(xué)院學(xué)報(bào);2005年03期
3 赫楓齡,左萬(wàn)利;用有向圖法解決網(wǎng)頁(yè)爬行中循環(huán)鏈接問(wèn)題[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2004年03期
4 鐘濤,陳新明,萬(wàn)鈞,張世永;中文文本W(wǎng)EB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2001年17期
5 張曉剛,李明樹(shù);智能搜索引擎技術(shù)的研究與發(fā)展[J];計(jì)算機(jī)工程與應(yīng)用;2001年24期
6 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
7 沈紅芳;互聯(lián)網(wǎng)搜索引擎及其功能優(yōu)化模型[J];情報(bào)科學(xué);2000年01期
8 朱華;中文搜索引擎結(jié)構(gòu)初探[J];情報(bào)科學(xué);2001年11期
9 郝鳳英;垂直網(wǎng)站及其信息服務(wù)模式[J];情報(bào)理論與實(shí)踐;2002年02期
10 黃水清;江蘇科技信息網(wǎng)指南車搜索引擎的設(shè)計(jì)與探討[J];情報(bào)學(xué)報(bào);2000年06期
相關(guān)博士學(xué)位論文 前1條
1 李廣建;個(gè)性化網(wǎng)絡(luò)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2002年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡(luò)與信息;1999年09期
2 ;關(guān)鍵詞搜索[J];每周電腦報(bào);2000年38期
3 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期
4 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報(bào);2001年01期
5 周毅華;從搜索引擎的分類看其應(yīng)用技巧[J];圖書(shū)館理論與實(shí)踐;2002年06期
6 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書(shū)館學(xué)研究;2002年05期
7 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期
8 林中;GOOGLE搜索引擎的關(guān)鍵詞檢索[J];中國(guó)信息導(dǎo)報(bào);2003年03期
9 封劍待封喉;吸星大法“搜”天下 笑傲網(wǎng)絡(luò)任我行——搜索引擎絕對(duì)專題[J];網(wǎng)絡(luò)與信息;2003年07期
10 閆凡蕾;建設(shè)站內(nèi)搜索的好幫手——Search Engine Maker[J];少年電世界;2003年08期
相關(guān)會(huì)議論文 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
3 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
4 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
6 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
7 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年
相關(guān)重要報(bào)紙文章 前10條
1 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年
2 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年
3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年
4 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門戶[N];中國(guó)計(jì)算機(jī)報(bào);2005年
5 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年
6 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國(guó)經(jīng)營(yíng)報(bào);2005年
7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年
8 本報(bào)記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國(guó)證券報(bào);2006年
9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年
10 姜蕊;問(wèn)天下誰(shuí)識(shí)搜索?[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
9 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
10 費(fèi)巍;搜索引擎檢索功能的性能評(píng)價(jià)研究[D];武漢大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年
2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
3 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
4 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年
5 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年
6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年
7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
8 李建平;智能化WEB信息搜索引擎的研究與實(shí)現(xiàn)[D];大慶石油學(xué)院;2003年
9 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實(shí)踐[D];新疆大學(xué);2004年
10 歐建斌;基于Web挖掘與信息分類的個(gè)性化搜索引擎研究[D];暨南大學(xué);2010年
本文編號(hào):1830610
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1830610.html