數(shù)字圖書館主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
[Abstract]:This paper puts forward the overall system design of constructing the subject search engine of digital library. A preprocessing system is used to select high quality seed sites to produce Web subject definition data. Under the coordination of system controller, each subject crawler synchronously collects Web resources recommended by crawlers. The downloaded resources are classified by text and recognized by topic, and the downloaded Web resources are stored in the subject database according to the subject classification, and the index is established through the global information base, and the general interface is accessed to retrieve the resources according to the subject. Based on the characteristics of digital library, the design of multi-thread theme crawler is proposed, and a novel algorithm of URL topic correlation shearing is proposed, which provides an important design for realizing the prototype of the subject search engine of digital library. The final system is formed by extending the system based on the open source Lucene platform. The experimental results show that this work is quite effective, especially the correlation discriminant algorithm, which has quite innovative and practical application value.
【作者單位】: 溫州大學(xué)圖書館;華中科技大學(xué)軟件學(xué)院;溫州大學(xué)甌江學(xué)院;
【基金】:溫州大學(xué)校級(jí)科研基金資助項(xiàng)目(2007L029)
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 程妮;科學(xué)搜索引擎Scirus研究[J];現(xiàn)代圖書情報(bào)技術(shù);2005年03期
2 侯震宇;基于Fish算法的實(shí)時(shí)搜索系統(tǒng)的實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2002年06期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王艷輝,吳斌,王柏;電信社群網(wǎng)絡(luò)靜態(tài)幾何性質(zhì)分析研究[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2005年02期
2 邱均平,張洋;網(wǎng)絡(luò)信息計(jì)量學(xué)綜述[J];高校圖書館工作;2005年01期
3 王柏;吳巍;徐超群;吳斌;;復(fù)雜網(wǎng)絡(luò)可視化研究綜述[J];計(jì)算機(jī)科學(xué);2007年04期
4 王鳳霞,張景,常曉;電子教務(wù)門戶研究與設(shè)計(jì)[J];計(jì)算機(jī)工程;2005年08期
5 高琰;谷士文;唐t;;基于鏈接分析的Web社區(qū)發(fā)現(xiàn)技術(shù)的研究[J];計(jì)算機(jī)應(yīng)用研究;2006年07期
6 譚永欽,周興苗;科技文獻(xiàn)搜索引擎Scirus淺談[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2005年21期
7 李向偉;曹博;;時(shí)間參數(shù)在HITS算法中的應(yīng)用及改進(jìn)[J];蘭州工業(yè)高等?茖W(xué)校學(xué)報(bào);2006年02期
8 蔣亞琳;;對(duì)三種學(xué)術(shù)搜索引擎的析評(píng)[J];情報(bào)探索;2007年01期
9 楊光;鏈接分析在企業(yè)競(jìng)爭情報(bào)活動(dòng)中的應(yīng)用[J];圖書情報(bào)工作;2005年01期
10 周倩;;共鏈分析方法的發(fā)展與應(yīng)用研究[J];圖書情報(bào)工作;2006年10期
相關(guān)博士學(xué)位論文 前10條
1 陳定權(quán);自動(dòng)主題搜索的應(yīng)用研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
2 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
3 樂小虬;非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2006年
4 賈自艷;Web信息智能獲取若干關(guān)鍵問題研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
5 田永鴻;基于上下文的統(tǒng)計(jì)關(guān)系學(xué)習(xí)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
6 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
7 鄧波;分布式序敏感查詢處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2006年
8 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
9 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 田艷芳;數(shù)字圖書館中數(shù)據(jù)預(yù)處理子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2001年
2 王鳳霞;研究生電子教務(wù)信息門戶研究與開發(fā)[D];西安理工大學(xué);2004年
3 董志勇;Web信息檢索中基于超鏈接的網(wǎng)頁評(píng)估算法的研究[D];河海大學(xué);2004年
4 劉翠娟;Web應(yīng)用中靜態(tài)測(cè)試的研究[D];西北大學(xué);2004年
5 馬征;基于本體的Web頁面分類挖掘[D];中南大學(xué);2004年
6 王斐;基于增量反饋和自適應(yīng)機(jī)制的主題爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2005年
7 趙艷芳;面向Internet的個(gè)性化信息服務(wù)的研究[D];云南師范大學(xué);2005年
8 閆宏斌;研究生網(wǎng)絡(luò)教學(xué)門戶的研究與開發(fā)[D];大連理工大學(xué);2006年
9 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年
10 吳相智;基于XML的Web數(shù)據(jù)抽取技術(shù)的研究[D];中南大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 張捷,王娟萍;科學(xué)搜索引擎——SCIRUS的檢索模式與評(píng)述[J];津圖學(xué)刊;2003年04期
2 曹玉霞;搜索引擎新思維[J];現(xiàn)代圖書情報(bào)技術(shù);2000年05期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李春茜,萬堅(jiān)軍;數(shù)字圖書館及其信息組織與檢索淺識(shí)[J];圖書館理論與實(shí)踐;2001年01期
2 段梅,李小梅;淺談數(shù)字圖書館[J];太原科技;2001年02期
3 寧淑華;數(shù)字圖書館與著作權(quán)保護(hù)[J];現(xiàn)代情報(bào);2001年05期
4 劉志賢;論數(shù)字圖書館的合理使用[J];情報(bào)雜志;2002年09期
5 邱文杰;高校發(fā)展數(shù)字圖書館的對(duì)策淺談[J];桂林航天工業(yè)高等專科學(xué)校學(xué)報(bào);2002年04期
6 王鑫鑫;曹高輝;;XML及其在數(shù)字圖書館中的應(yīng)用[J];圖書情報(bào)論壇;2002年02期
7 張志美,董建成;數(shù)字圖書館服務(wù)模式初探[J];高校圖書館工作;2003年02期
8 ;聯(lián)合光華推出《中文經(jīng)典數(shù)字圖書館》[J];電腦采購周刊;2003年36期
9 鄧少雯;網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館的安全與防范措施[J];圖書館論壇;2004年04期
10 王存祥,任曉華;高校數(shù)字圖書館安全解決方案[J];安康師專學(xué)報(bào);2004年05期
相關(guān)會(huì)議論文 前10條
1 劉穎;;論數(shù)字圖書館的信息構(gòu)建[A];華北地區(qū)高校圖協(xié)第二十四屆學(xué)術(shù)年會(huì)論文(文章)匯編[C];2010年
2 郭啟智;;關(guān)于數(shù)字圖書館有關(guān)問題的探討[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年
3 符翠;;數(shù)字圖書館建設(shè)探討[A];新環(huán)境下圖書館建設(shè)與發(fā)展——第六屆中國社區(qū)和鄉(xiāng)鎮(zhèn)圖書館發(fā)展戰(zhàn)略研討會(huì)征文集(下冊(cè))[C];2007年
4 王愛華;張銘;陳捷;楊冬青;唐世渭;;基于形式本體的數(shù)字圖書館內(nèi)容元數(shù)據(jù)的創(chuàng)建[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
5 高翔;;淺談網(wǎng)站模式下的數(shù)字圖書館資源建設(shè)[A];華北地區(qū)高校圖協(xié)第二十四屆學(xué)術(shù)年會(huì)論文(文章)匯編[C];2010年
6 喻浩;潘薇;;數(shù)字圖書館支撐技術(shù)及其發(fā)展[A];數(shù)字圖書館資源建設(shè)與發(fā)展學(xué)術(shù)研討會(huì)暨中國農(nóng)學(xué)會(huì)農(nóng)業(yè)圖書館分會(huì)理事工作會(huì)議會(huì)議資料[C];2007年
7 潘淑春;喻浩;;數(shù)字圖書館建設(shè)及其運(yùn)行模式研究[A];數(shù)字圖書館資源建設(shè)與發(fā)展學(xué)術(shù)研討會(huì)暨中國農(nóng)學(xué)會(huì)農(nóng)業(yè)圖書館分會(huì)理事工作會(huì)議會(huì)議資料[C];2007年
8 張小玲;;數(shù)字圖書館建設(shè)的一種新思路[A];北京交通大學(xué)圖書館——第四屆研討會(huì)論文集[C];2004年
9 杜小勇;袁媛;錢防震;高鳳榮;馬文峰;;數(shù)字圖書館個(gè)性化推薦系統(tǒng)DLPers的設(shè)計(jì)與實(shí)現(xiàn)[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
10 陳文革;;數(shù)字圖書館發(fā)展現(xiàn)狀[A];福建省圖書館學(xué)會(huì)2001年年會(huì)論文集[C];2001年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 延宏;數(shù)字圖書館:服務(wù)如何個(gè)性化[N];科技日?qǐng)?bào);2008年
2 本報(bào)記者 洪黎明;數(shù)字出版與數(shù)字圖書館的互動(dòng)[N];人民郵電;2008年
3 本報(bào)記者 諸葛漪;國內(nèi)數(shù)字圖書館為何“起大早趕晚集”[N];解放日?qǐng)?bào);2009年
4 張宇;走在“云端”的數(shù)字圖書館[N];中國文化報(bào);2010年
5 本報(bào)記者 姜天驕 文化部副部長 楊志今;讓數(shù)字圖書館資源惠及更多基層群眾[N];經(jīng)濟(jì)日?qǐng)?bào);2010年
6 本報(bào)記者 吳娜;讓每個(gè)縣都有數(shù)字圖書館[N];光明日?qǐng)?bào);2010年
7 記者 陳磊;我國數(shù)字圖書館侵權(quán)盜版現(xiàn)象普遍存在[N];科技日?qǐng)?bào);2010年
8 本報(bào)記者 任麗梅;數(shù)字圖書館奠定文化共享平臺(tái)[N];中國改革報(bào);2010年
9 記者 王曉敏;建設(shè)舟山海洋數(shù)字圖書館[N];舟山日?qǐng)?bào);2011年
10 耿儷洳;嘉興數(shù)字圖書館——足不出戶盡享便利服務(wù)[N];中國文化報(bào);2011年
相關(guān)博士學(xué)位論文 前10條
1 于曉燕;基于網(wǎng)格的數(shù)字圖書館模式構(gòu)建研究[D];南開大學(xué);2010年
2 周麗霞;數(shù)字圖書館版權(quán)獲取研究[D];吉林大學(xué);2011年
3 孫坦;數(shù)字圖書館理論與發(fā)展模式研究[D];中國科學(xué)院文獻(xiàn)情報(bào)中心;2000年
4 關(guān)欣;數(shù)字圖書館知識(shí)管理研究[D];吉林大學(xué);2010年
5 許增福;DL環(huán)境下的信息資源管理及知識(shí)發(fā)現(xiàn)研究[D];哈爾濱工程大學(xué);2005年
6 杜文華;本體的構(gòu)建及其在數(shù)字圖書館中的應(yīng)用研究[D];武漢大學(xué);2005年
7 卓文飛;中國農(nóng)業(yè)數(shù)字圖書館信息集成服務(wù)系統(tǒng)研究[D];中國農(nóng)業(yè)科學(xué)院;2008年
8 韓毅;語義網(wǎng)格環(huán)境下數(shù)字圖書館知識(shí)組織策略與應(yīng)用研究[D];吉林大學(xué);2008年
9 牟冬梅;數(shù)字圖書館知識(shí)組織語義互聯(lián)策略及其應(yīng)用研究[D];吉林大學(xué);2009年
10 劉煒;基于本體的數(shù)字圖書館語義互操作[D];復(fù)旦大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 羅宏;數(shù)字圖書館著作權(quán)風(fēng)險(xiǎn)規(guī)避研究[D];四川大學(xué);2004年
2 羅龍艷;數(shù)字圖書館資源主題信息門戶的設(shè)計(jì)與實(shí)現(xiàn)研究[D];四川大學(xué);2004年
3 田艷芳;數(shù)字圖書館中數(shù)據(jù)預(yù)處理子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2001年
4 戴洪霞;數(shù)字圖書館信息資源建設(shè)研究[D];東北師范大學(xué);2002年
5 闞忠良;數(shù)字圖書館中基于結(jié)構(gòu)和內(nèi)容的文本信息檢索技術(shù)的研究[D];黑龍江大學(xué);2002年
6 賀玲玲;數(shù)字圖書館運(yùn)行機(jī)制與管理模式研究[D];國防科學(xué)技術(shù)大學(xué);2003年
7 曹樹新;圖書館自動(dòng)化管理信息系統(tǒng)[D];大連理工大學(xué);2005年
8 辛霄恩;網(wǎng)絡(luò)文獻(xiàn)數(shù)字化方案[D];華東師范大學(xué);2001年
9 丁會(huì)平;移動(dòng)數(shù)字圖書館內(nèi)容管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2004年
10 李冠楠;基于主題圖的數(shù)字圖書館信息資源整合研究[D];華中師范大學(xué);2011年
,本文編號(hào):2179018
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2179018.html