基于Lucene的Ftp搜索引擎的設(shè)計(jì)
本文關(guān)鍵詞: Ftp搜索引擎 Lucene XML 分詞 出處:《圖書(shū)情報(bào)工作》2006年04期 論文類(lèi)型:期刊論文
【摘要】:針對(duì)當(dāng)前網(wǎng)絡(luò)中所使用的基于數(shù)據(jù)庫(kù)的Ftp搜索引擎沒(méi)有標(biāo)準(zhǔn)資源文檔且不支持中文分詞和動(dòng)態(tài)數(shù)據(jù)更新的缺陷,提出基于Lucene這個(gè)功能強(qiáng)大的全文索引引擎工具包的Ftp搜索引擎的設(shè)計(jì)方案。此Ftp搜索引擎不僅能夠自動(dòng)生成標(biāo)準(zhǔn)格式的XML資源文檔,而且采用基于字典的前向最大匹配中文分詞法在Lucene中動(dòng)態(tài)更新全文索引。該設(shè)計(jì)還能夠?qū)z索關(guān)鍵字進(jìn)行中英文混合分析和檢索。
[Abstract]:The Ftp search engine based on database used in the current network has no standard resource document and does not support Chinese word segmentation and dynamic data update. The design scheme of Ftp search engine based on Lucene, a powerful full-text index engine toolkit, is proposed. This Ftp search engine can not only automatically generate standard format XML resource documents. Furthermore, the full-text index is dynamically updated in Lucene by using the dictionary based maximum matching Chinese word segmentation method. The design can also analyze and retrieve the keywords in both Chinese and English.
【作者單位】: 華中科技大學(xué)圖書(shū)館 華中科技大學(xué)控制科學(xué)與工程系 華中科技大學(xué)控制科學(xué)與工程系
【分類(lèi)號(hào)】:G354
【正文快照】: Ftp服務(wù)器是Interaaet上所使用的最主要的服務(wù)器之一,因此在Ftp服務(wù)器上保存有大量的共享軟件、技術(shù)資料和多媒體數(shù)據(jù)等各種文件。每個(gè)Ftp服務(wù)器都有若干個(gè)目錄,且其目錄和文件結(jié)構(gòu)比較復(fù)雜,所以要在Ftp服務(wù)器上找到用戶所需要的文件并不是一件容易的事情,若要在多個(gè)Ftp服務(wù)
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 張運(yùn)凱,劉宏忠,郭宏剛;FTP搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];河北師范大學(xué)學(xué)報(bào);2005年01期
2 趙汀,孟祥武;基于LUCENEAPI的中文全文數(shù)據(jù)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年20期
3 張汛淶;搜索引擎的設(shè)計(jì)剖析[J];計(jì)算機(jī)工程與科學(xué);2002年04期
4 吳棟,滕育平;中文信息檢索引擎中的分詞與檢索技術(shù)[J];計(jì)算機(jī)應(yīng)用;2004年07期
5 高琰,谷士文,譚立球,費(fèi)耀平;基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];微機(jī)發(fā)展;2004年10期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年05期
2 孫素芬;羅長(zhǎng)壽;張峻峰;于峰;張樹(shù)亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
3 李巍巍;;全文檢索引擎工具包Lucene的結(jié)構(gòu)與索引原理的研究[J];才智;2008年09期
4 肖紅;劉淑華;;一種文本多級(jí)分類(lèi)方法研究[J];長(zhǎng)江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷;2008年02期
5 謝紅薇;王棟;;基于Web文本挖掘中的一種中文分詞算法研究[J];電腦開(kāi)發(fā)與應(yīng)用;2007年07期
6 王利峰;;動(dòng)態(tài)索引樹(shù)文本聚類(lèi)方法中節(jié)點(diǎn)閥值的優(yōu)化[J];電腦開(kāi)發(fā)與應(yīng)用;2010年09期
7 鄭志波;;搜索器的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年01期
8 周珍娟;張字平;陸玲;;基于Lucene2.0的電子文獻(xiàn)全文檢索系統(tǒng)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年23期
9 郭屹;;對(duì)中文自動(dòng)分詞機(jī)制的研究和改進(jìn)[J];電腦知識(shí)與技術(shù);2008年07期
10 劉磊安;符志強(qiáng);;基于Lucene.net網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2010年08期
相關(guān)會(huì)議論文 前5條
1 李明宙;羅艷;王宗義;;Lucene全文檢索引擎的研究及應(yīng)用[A];廣西計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
2 馬春雷;;基于向量空間模型的中文文本檢索研究[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
3 王虎;王潛平;;對(duì)整詞二分自動(dòng)分詞機(jī)制的改進(jìn)[A];中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究——第七屆中文信息處理國(guó)際會(huì)議論文集[C];2007年
4 張玉連;張敏;張波;;一種無(wú)詞典分詞方法的分析與研究[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
5 楊喜權(quán);張一鳴;王大勇;;基于特征碼的大規(guī)模XML文檔去重算法研究[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
相關(guān)博士學(xué)位論文 前4條
1 杜亞軍;搜索引擎智能行為的研究及實(shí)現(xiàn)[D];西南交通大學(xué);2005年
2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
3 姜韶華;科研項(xiàng)目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年
4 陳家贏;對(duì)地觀測(cè)傳感器信息資源建模和管理研究[D];武漢大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 劉洋;基于本體的醫(yī)保審計(jì)知識(shí)庫(kù)構(gòu)建研究[D];哈爾濱工程大學(xué);2010年
2 巫昌凱;企業(yè)知識(shí)庫(kù)系統(tǒng)中復(fù)雜查詢系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
3 徐德玉;中文文檔內(nèi)容相似度檢測(cè)方法研究[D];長(zhǎng)春工業(yè)大學(xué);2010年
4 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學(xué);2010年
5 范慧;以博客內(nèi)容為對(duì)象的個(gè)性化搜索研究[D];華中科技大學(xué);2010年
6 吳政;面向僑務(wù)信息主題的搜索引擎[D];華僑大學(xué);2003年
7 常曉燕;基于Java的新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2004年
8 王軍;中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2004年
9 歐歌;專(zhuān)題式Web信息獲取技術(shù)研究[D];北京化工大學(xué);2005年
10 姜杰;專(zhuān)業(yè)搜索引擎分布式Robot設(shè)計(jì)研究[D];南京師范大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 鐘濤,陳新明,萬(wàn)鈞,張世永;中文文本W(wǎng)EB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2001年17期
2 嚴(yán)威,趙政;開(kāi)發(fā)中文搜索引擎漢語(yǔ)處理的關(guān)鍵技術(shù)[J];計(jì)算機(jī)工程;1999年06期
3 李曉明,劉建國(guó);搜索引擎技術(shù)及趨勢(shì)[J];中國(guó)計(jì)算機(jī)用戶;2000年09期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馬歡;;XML在電子商務(wù)中的應(yīng)用[J];China's Foreign Trade;2011年14期
2 周拴龍;;Lucene.net中文分詞算法分析[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2011年03期
3 李恒;;元數(shù)據(jù)管理系統(tǒng)的研究與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年13期
4 謝峰;;雙XML模式在異構(gòu)數(shù)據(jù)交換中的應(yīng)用研究[J];黑龍江科技信息;2011年21期
5 劉智琦;徐奕奕;;XML在電子商務(wù)中的應(yīng)用[J];黑龍江科技信息;2011年20期
6 顧錦江;;基于AS技術(shù)的計(jì)算機(jī)網(wǎng)絡(luò)虛擬實(shí)驗(yàn)的開(kāi)發(fā)[J];計(jì)算機(jī)應(yīng)用與軟件;2011年07期
7 周強(qiáng);;XML在動(dòng)態(tài)網(wǎng)頁(yè)中的應(yīng)用[J];科技傳播;2011年15期
8 朱興統(tǒng);許波;;一種基于粗糙集理論的XML數(shù)據(jù)挖掘模型[J];科學(xué)技術(shù)與工程;2011年20期
9 周長(zhǎng)敏;唐型基;;XML技術(shù)在考試系統(tǒng)中的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2011年23期
10 陳愛(ài)華;;基于XML和Web Service的異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)交換[J];武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年04期
相關(guān)會(huì)議論文 前10條
1 郭志懋;周傲英;;XML數(shù)據(jù)的在線過(guò)濾[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML數(shù)據(jù)的關(guān)系存儲(chǔ)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 丁峰;王煜;姚延濤;沈鈞毅;;從XML模式到數(shù)據(jù)庫(kù)模式[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
4 談子敬;施伯樂(lè);;XML導(dǎo)出數(shù)據(jù)庫(kù)表的實(shí)現(xiàn)與應(yīng)用[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
5 羅道峰;孟小峰;;一種面向XML文檔的基于角色的擴(kuò)展訪問(wèn)控制方法[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
6 鄭駿;王焱;錢(qián)衛(wèi)寧;周傲英;;XML相似相關(guān)結(jié)構(gòu)庫(kù)的構(gòu)造及其應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
7 吳剛;于亞新;王國(guó)仁;于戈;;并行XML文檔數(shù)據(jù)分片技術(shù)研究[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
8 王靜;孟小峰;王珊;;以目標(biāo)節(jié)點(diǎn)為導(dǎo)向的XML路徑查詢處理[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
9 王鵬飛;洪曉光;;基于XML大文檔的動(dòng)態(tài)索引[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
10 肖冰;廖湖聲;鄭玉明;;數(shù)據(jù)集成系統(tǒng)中的XML延遲處理技術(shù)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
相關(guān)重要報(bào)紙文章 前10條
1 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 陳華 李曉明;國(guó)內(nèi)外FTP搜索引擎比較[N];計(jì)算機(jī)世界;2002年
2 秦林;《XML完全探索》[N];中華讀書(shū)報(bào);2001年
3 本報(bào)記者 李瀛寰;XML推了網(wǎng)絡(luò)一把[N];中國(guó)計(jì)算機(jī)報(bào);2000年
4 ;分化并不能阻止XML發(fā)展[N];中國(guó)計(jì)算機(jī)報(bào);2000年
5 ;為XML標(biāo)準(zhǔn)定標(biāo)準(zhǔn)[N];中國(guó)計(jì)算機(jī)報(bào);2001年
6 IDG電訊;Microsoft、IBM共同制定XML標(biāo)準(zhǔn)[N];計(jì)算機(jī)世界;2000年
7 北京郵電大學(xué) 張劍;XML與HTML的結(jié)合(上)[N];計(jì)算機(jī)世界;2001年
8 本報(bào)記者 陸 杰;XML叢林的新秀[N];中華讀書(shū)報(bào);2002年
9 北京郵電大學(xué) 張劍;XML技術(shù)預(yù)覽[N];計(jì)算機(jī)世界;2001年
10 北京郵電大學(xué) 張劍;XML與HTML的結(jié)合(下)[N];計(jì)算機(jī)世界;2001年
相關(guān)博士學(xué)位論文 前10條
1 沈潔;基于自動(dòng)機(jī)的XML數(shù)據(jù)過(guò)濾研究[D];哈爾濱工程大學(xué);2010年
2 殷麗鳳;不完全信息環(huán)境下XML數(shù)據(jù)庫(kù)規(guī)范化問(wèn)題的研究[D];哈爾濱理工大學(xué);2009年
3 葉曉峰;基于XML的沖壓模具設(shè)計(jì)知識(shí)重用技術(shù)研究[D];華中科技大學(xué);2010年
4 張晨靜;XML關(guān)鍵字過(guò)濾技術(shù)[D];復(fù)旦大學(xué);2011年
5 汪源;XML事務(wù)模型及并發(fā)控制研究[D];浙江大學(xué);2006年
6 許建軍;對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵字搜索研究[D];復(fù)旦大學(xué);2007年
7 劉喜平;XML文檔搜索中的查詢處理技術(shù)研究[D];江西財(cái)經(jīng)大學(xué);2010年
8 李荷華;面向智能體的化工過(guò)程運(yùn)行系統(tǒng)信息集成模型研究[D];華南理工大學(xué);2003年
9 朱曉冬;數(shù)字博物館關(guān)鍵技術(shù)研究[D];西北大學(xué);2004年
10 陳廷斌;基于XML/Web服務(wù)的供應(yīng)鏈信息集成技術(shù)與方法研究[D];大連理工大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 趙善明;基于Lucene的主題搜索引擎研究[D];西安電子科技大學(xué);2008年
2 王冬坡;基于Lucene的主題搜索引擎的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2010年
3 劉鶯迎;基于lucene中文全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];鄭州大學(xué);2009年
4 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
5 高欣;基于Lucene的全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];天津師范大學(xué);2010年
6 吳代文;基于Lucene的二次全文檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
7 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學(xué);2011年
8 杜先撰;基于Lucene全文索引系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2011年
9 周月紅;基于Lucene的站內(nèi)搜索引擎的設(shè)計(jì)與開(kāi)發(fā)[D];華東理工大學(xué);2011年
10 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長(zhǎng)春理工大學(xué);2010年
,本文編號(hào):1442603
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1442603.html