天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

FileFinder:桌面搜索引擎的設(shè)計與實現(xiàn)

發(fā)布時間:2019-11-10 12:57
【摘要】:為了滿足用戶對桌面搜索引擎準確、快速、易用的迫切要求,將通用搜索技術(shù)、垂直搜索技術(shù)中"先建立索引再進行搜索"的搜索機制和若干功能借鑒到桌面搜索技術(shù),設(shè)計并實現(xiàn)了桌面搜索引擎FileFinder。功能測試驗證了該軟件不僅實現(xiàn)了關(guān)鍵字搜索、文件類型搜索等常用功能,而且具有結(jié)果匹配度排序、在搜索結(jié)果中再次搜索、以文件附加屬性進行搜索等其他桌面搜索引擎不具備而用戶需要的功能。對比測試結(jié)果既體現(xiàn)了FileFinder在搜索速度上與Windows桌面搜索引擎相比的優(yōu)勢,也表明在不實現(xiàn)全文檢索功能的前提下,FileFinder建立索引的時間僅約為Google桌面搜索引擎的一半。
【圖文】:

層次關(guān)系,倒排索引


終的分析結(jié)果發(fā)往索引系統(tǒng),索引系統(tǒng)首先得到倒排索引(invertedindex)[9]表存入內(nèi)存,再將倒排索引表寫入磁盤,稱為倒排文件;搜索過程即Lucene根據(jù)用戶提供的關(guān)鍵字/詞,從倒排索引文件中找到與關(guān)鍵字/詞相匹配的數(shù)據(jù)源,并計算每個數(shù)據(jù)源的匹配度,再由應(yīng)用程序?qū)?shù)據(jù)源按匹配度順序返回給用戶的過程。倒排索引是目前搜索引擎公司最對搜索引擎最常用的存儲方式,Lu-cene正是使用了倒排索引作為其索引結(jié)構(gòu)。限于篇幅,本文對Lucene的索引結(jié)構(gòu)不再詳述。圖1搜索應(yīng)用與Lucene的層次關(guān)系4音樂、圖像文件的屬性信息如第2節(jié)所述,FileFinder?qū)@取音樂文件的TAG屬·2628·

模塊圖,搜索引擎,模塊,索引器


Finder這3個模塊中索引器模塊的實現(xiàn)是最關(guān)鍵的,因為要根據(jù)什么內(nèi)容進行搜索,就要索引相關(guān)的信息,因此索引的建立部分是整個軟件的核心,也是決定整個軟件功能的部分。本節(jié)將對索引器模塊進行詳細介紹。索引器模塊實現(xiàn)分詞和建立索引文件,是整個軟件框架的核心;FileFinder的一個優(yōu)勢,即文件屬性的獲取和利用,也是通過索引器模塊來實施的;此外,索引的速度對Filefinder軟件搜索的效率至關(guān)重要。因此,索引器模塊使用3個子模塊(獲取文件子模塊、獲取信息子模塊和寫信圖2FileFinder搜索引擎組成模塊息到索引子模塊)以流水線方式并行執(zhí)行磁盤文件掃描、獲取并處理數(shù)據(jù)、建立索引文件的工作。5.1獲取文件子模塊如圖2所示,索引器模塊中獲取文件子模塊的功能是遍歷磁盤或者根據(jù)用戶需要遍歷某個磁盤分區(qū)或某個目錄/子目錄,獲取其中的文件。當需要獲取的文件數(shù)量比較多時,該操作耗時很大,從整個索引器模塊的3個子模塊分別遍歷獲取文件,分析文件,建立索引整個過程來看,絕大部分時間是耗費在遍歷磁盤以及寫索引文件到磁盤,因此本項目使用操作系統(tǒng)提供的3個Win32API函數(shù)Find-FirstFile,,FindNextFile和FindClose來完成獲取文件子模塊的工作以提高速度。5.2獲取信息子模塊從軟件架構(gòu)來看,獲取信息子模塊為索引器模塊提供文件屬性、MP3屬性、圖片屬性等信息,是整個軟件功能的重要組成部分和難點所在。由于不同文件的屬性信息存放形式不同,如音樂文件屬性信息是MP3文件末尾的128個字節(jié),而圖片的EXIF信息是以十六進制表示的數(shù)組,不能直接讀取數(shù)組值

【相似文獻】

相關(guān)期刊論文 前10條

1 黃曉冬;Invisible Web研究綜述[J];情報科學(xué);2004年09期

2 ;第四屆全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(SEWM2006)在山東大學(xué)舉行[J];山東大學(xué)學(xué)報(理學(xué)版);2006年03期

3 那罡;;移動搜索的“簡單”邏輯[J];中國計算機用戶;2006年26期

4 蔡建超;郭一平;王亮;;基于Lucene.Net校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[J];計算機技術(shù)與發(fā)展;2006年11期

5 ;網(wǎng)絡(luò)[J];電腦愛好者;2007年04期

6 ;使用搜索引擎的另類技巧[J];計算機與網(wǎng)絡(luò);2007年06期

7 孫成福;;網(wǎng)絡(luò)搜索引擎的技巧與使用[J];福建電腦;2008年02期

8 楊志;;元數(shù)據(jù)在中文搜索引擎的應(yīng)用研究[J];科技信息(科學(xué)教研);2008年09期

9 陳春陽;;對互聯(lián)網(wǎng)搜索引擎的初步認識[J];硅谷;2009年10期

10 沈鑫;;如何“優(yōu)+”搜索引擎賬戶[J];成功營銷;2009年08期

相關(guān)會議論文 前10條

1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

2 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

3 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年

4 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年

5 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年

6 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年

7 陳磊;茹立云;馬少平;;基于用戶日志挖掘的搜索引擎廣告效果分析[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

8 申琪君;;電子地圖搜索引擎比較[A];中國地理學(xué)會2007年學(xué)術(shù)年會論文摘要集[C];2007年

9 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

10 薩曉靜;;網(wǎng)絡(luò)化生存下的圖書館改革之路[A];福建省圖書館學(xué)會2008年學(xué)術(shù)年會論文集[C];2008年

相關(guān)重要報紙文章 前10條

1 博文邋譯;你的隱私 搜索引擎知道[N];計算機世界;2007年

2 楊潔;搜索引擎營銷市場生變[N];中國計算機報;2007年

3 劉文君;搜索引擎也在尋求創(chuàng)新[N];大眾科技報;2007年

4 ;法國挑戰(zhàn)谷歌推出衛(wèi)星地圖搜索引擎[N];人民日報;2006年

5 MirrorCity.net技術(shù)總監(jiān) 姚浩;讓搜索引擎回歸最初夢想[N];中國文化報;2008年

6 本報記者 操秀英;國雙科技以技術(shù)加服務(wù)贏得市場[N];科技日報;2009年

7 趙敏;“魚群理論”破解搜索營銷謎局[N];中國企業(yè)報;2007年

8 本報記者 樊哲高;搜索引擎三國紛爭 中文市場兩軍對壘[N];中國電子報;2009年

9 EndTo;優(yōu)化Meta討好搜索引擎[N];電腦報;2009年

10 本報記者 馬文方;Yebol:從思維科學(xué)導(dǎo)出搜索引擎[N];中國計算機報;2010年

相關(guān)博士學(xué)位論文 前10條

1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

7 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

8 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

9 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學(xué);2010年

10 黃河;農(nóng)業(yè)復(fù)雜自適應(yīng)搜索模型研究及實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

2 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

3 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年

4 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年

5 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年

6 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

7 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年

8 張朝斌;企業(yè)級搜索引擎的優(yōu)化設(shè)計與實現(xiàn)[D];華南理工大學(xué);2010年

9 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計與實現(xiàn)[D];浙江工商大學(xué);2011年

10 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學(xué);2011年



本文編號:2558880

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2558880.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶06f7e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com