FileFinder:桌面搜索引擎的設(shè)計與實現(xiàn)
【圖文】:
終的分析結(jié)果發(fā)往索引系統(tǒng),索引系統(tǒng)首先得到倒排索引(invertedindex)[9]表存入內(nèi)存,再將倒排索引表寫入磁盤,稱為倒排文件;搜索過程即Lucene根據(jù)用戶提供的關(guān)鍵字/詞,從倒排索引文件中找到與關(guān)鍵字/詞相匹配的數(shù)據(jù)源,并計算每個數(shù)據(jù)源的匹配度,再由應(yīng)用程序?qū)?shù)據(jù)源按匹配度順序返回給用戶的過程。倒排索引是目前搜索引擎公司最對搜索引擎最常用的存儲方式,Lu-cene正是使用了倒排索引作為其索引結(jié)構(gòu)。限于篇幅,本文對Lucene的索引結(jié)構(gòu)不再詳述。圖1搜索應(yīng)用與Lucene的層次關(guān)系4音樂、圖像文件的屬性信息如第2節(jié)所述,FileFinder?qū)@取音樂文件的TAG屬·2628·
Finder這3個模塊中索引器模塊的實現(xiàn)是最關(guān)鍵的,因為要根據(jù)什么內(nèi)容進行搜索,就要索引相關(guān)的信息,因此索引的建立部分是整個軟件的核心,也是決定整個軟件功能的部分。本節(jié)將對索引器模塊進行詳細介紹。索引器模塊實現(xiàn)分詞和建立索引文件,是整個軟件框架的核心;FileFinder的一個優(yōu)勢,即文件屬性的獲取和利用,也是通過索引器模塊來實施的;此外,索引的速度對Filefinder軟件搜索的效率至關(guān)重要。因此,索引器模塊使用3個子模塊(獲取文件子模塊、獲取信息子模塊和寫信圖2FileFinder搜索引擎組成模塊息到索引子模塊)以流水線方式并行執(zhí)行磁盤文件掃描、獲取并處理數(shù)據(jù)、建立索引文件的工作。5.1獲取文件子模塊如圖2所示,索引器模塊中獲取文件子模塊的功能是遍歷磁盤或者根據(jù)用戶需要遍歷某個磁盤分區(qū)或某個目錄/子目錄,獲取其中的文件。當需要獲取的文件數(shù)量比較多時,該操作耗時很大,從整個索引器模塊的3個子模塊分別遍歷獲取文件,分析文件,建立索引整個過程來看,絕大部分時間是耗費在遍歷磁盤以及寫索引文件到磁盤,因此本項目使用操作系統(tǒng)提供的3個Win32API函數(shù)Find-FirstFile,,FindNextFile和FindClose來完成獲取文件子模塊的工作以提高速度。5.2獲取信息子模塊從軟件架構(gòu)來看,獲取信息子模塊為索引器模塊提供文件屬性、MP3屬性、圖片屬性等信息,是整個軟件功能的重要組成部分和難點所在。由于不同文件的屬性信息存放形式不同,如音樂文件屬性信息是MP3文件末尾的128個字節(jié),而圖片的EXIF信息是以十六進制表示的數(shù)組,不能直接讀取數(shù)組值
【相似文獻】
相關(guān)期刊論文 前10條
1 黃曉冬;Invisible Web研究綜述[J];情報科學(xué);2004年09期
2 ;第四屆全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(SEWM2006)在山東大學(xué)舉行[J];山東大學(xué)學(xué)報(理學(xué)版);2006年03期
3 那罡;;移動搜索的“簡單”邏輯[J];中國計算機用戶;2006年26期
4 蔡建超;郭一平;王亮;;基于Lucene.Net校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[J];計算機技術(shù)與發(fā)展;2006年11期
5 ;網(wǎng)絡(luò)[J];電腦愛好者;2007年04期
6 ;使用搜索引擎的另類技巧[J];計算機與網(wǎng)絡(luò);2007年06期
7 孫成福;;網(wǎng)絡(luò)搜索引擎的技巧與使用[J];福建電腦;2008年02期
8 楊志;;元數(shù)據(jù)在中文搜索引擎的應(yīng)用研究[J];科技信息(科學(xué)教研);2008年09期
9 陳春陽;;對互聯(lián)網(wǎng)搜索引擎的初步認識[J];硅谷;2009年10期
10 沈鑫;;如何“優(yōu)+”搜索引擎賬戶[J];成功營銷;2009年08期
相關(guān)會議論文 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
3 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
4 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
5 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
6 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年
7 陳磊;茹立云;馬少平;;基于用戶日志挖掘的搜索引擎廣告效果分析[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
8 申琪君;;電子地圖搜索引擎比較[A];中國地理學(xué)會2007年學(xué)術(shù)年會論文摘要集[C];2007年
9 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
10 薩曉靜;;網(wǎng)絡(luò)化生存下的圖書館改革之路[A];福建省圖書館學(xué)會2008年學(xué)術(shù)年會論文集[C];2008年
相關(guān)重要報紙文章 前10條
1 博文邋譯;你的隱私 搜索引擎知道[N];計算機世界;2007年
2 楊潔;搜索引擎營銷市場生變[N];中國計算機報;2007年
3 劉文君;搜索引擎也在尋求創(chuàng)新[N];大眾科技報;2007年
4 ;法國挑戰(zhàn)谷歌推出衛(wèi)星地圖搜索引擎[N];人民日報;2006年
5 MirrorCity.net技術(shù)總監(jiān) 姚浩;讓搜索引擎回歸最初夢想[N];中國文化報;2008年
6 本報記者 操秀英;國雙科技以技術(shù)加服務(wù)贏得市場[N];科技日報;2009年
7 趙敏;“魚群理論”破解搜索營銷謎局[N];中國企業(yè)報;2007年
8 本報記者 樊哲高;搜索引擎三國紛爭 中文市場兩軍對壘[N];中國電子報;2009年
9 EndTo;優(yōu)化Meta討好搜索引擎[N];電腦報;2009年
10 本報記者 馬文方;Yebol:從思維科學(xué)導(dǎo)出搜索引擎[N];中國計算機報;2010年
相關(guān)博士學(xué)位論文 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
8 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
9 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學(xué);2010年
10 黃河;農(nóng)業(yè)復(fù)雜自適應(yīng)搜索模型研究及實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
2 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
3 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年
4 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年
5 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年
6 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
7 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年
8 張朝斌;企業(yè)級搜索引擎的優(yōu)化設(shè)計與實現(xiàn)[D];華南理工大學(xué);2010年
9 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計與實現(xiàn)[D];浙江工商大學(xué);2011年
10 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學(xué);2011年
本文編號:2558880
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2558880.html