基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn).pdf 全文
本文關(guān)鍵詞:基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
西北工業(yè)大學(xué)
碩士學(xué)位論文
基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn)
姓名:羅玫
申請(qǐng)學(xué)位級(jí)別:碩士
專業(yè):軟件工程
指導(dǎo)教師:張?jiān)?
座機(jī)電話號(hào)碼
西北T業(yè)大學(xué)碩十學(xué)位論文
摘要
摘要
在互聯(lián)網(wǎng)蓬勃發(fā)展的今天,互聯(lián)網(wǎng)上的信息更是浩如煙海。人們在享受互聯(lián)
網(wǎng)帶來的便利的同時(shí),也面臨著一個(gè)問題,如何在龐大的信息中準(zhǔn)確、快速的找
到自己所需要的信息,由此互聯(lián)網(wǎng)搜索引擎應(yīng)運(yùn)而生。目前的w曲搜索引擎技術(shù)
正成為計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界爭相研究、開發(fā)的對(duì)象。
搜索引擎是指在互聯(lián)網(wǎng)上專門提供查詢服務(wù)的一類網(wǎng)站,這些網(wǎng)站通過網(wǎng)絡(luò)
搜索軟件或網(wǎng)站登陸等方式,收集互聯(lián)網(wǎng)上大量網(wǎng)站的頁面,經(jīng)過加工處理后建
庫,從而能夠?qū)τ脩籼岢龅母鞣N查詢作出響應(yīng),提供用戶所需的信息。
本文利用開源的hccne引擎架構(gòu)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)可復(fù)用、可擴(kuò)展的搜索引
擎系統(tǒng)Hicode,能夠用來專門搜索web和本地?cái)?shù)據(jù)中具有程序語言源代碼的文件,
能夠有效的定位用戶所需要的某段程序源碼及其源文件所在的位置。
本文先介紹了Luccne以及搜索引擎系統(tǒng)Hicode中要用到的開源工具。然后利
用Java技術(shù)對(duì)搜索引擎的三個(gè)核心部分即爬蟲、索引和搜索進(jìn)行了實(shí)現(xiàn)。爬蟲部
分采用了Java的多線程機(jī)制,,使用線程池管理多個(gè)抓取線程,并發(fā)抓取網(wǎng)頁。索
引和搜索部分利用hcene引擎架構(gòu),實(shí)現(xiàn)了比hcene自定義的中文分詞更有效的
中文分詞,還引
本文關(guān)鍵詞:基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):49153
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/49153.html