基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn).pdf 全文
本文關(guān)鍵詞:基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
西北工業(yè)大學(xué)
碩士學(xué)位論文
基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn)
姓名:羅玫
申請(qǐng)學(xué)位級(jí)別:碩士
專(zhuān)業(yè):軟件工程
指導(dǎo)教師:張?jiān)?
座機(jī)電話(huà)號(hào)碼
西北T業(yè)大學(xué)碩十學(xué)位論文
摘要
摘要
在互聯(lián)網(wǎng)蓬勃發(fā)展的今天,互聯(lián)網(wǎng)上的信息更是浩如煙海。人們?cè)谙硎芑ヂ?lián)
網(wǎng)帶來(lái)的便利的同時(shí),也面臨著一個(gè)問(wèn)題,如何在龐大的信息中準(zhǔn)確、快速的找
到自己所需要的信息,由此互聯(lián)網(wǎng)搜索引擎應(yīng)運(yùn)而生。目前的w曲搜索引擎技術(shù)
正成為計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界爭(zhēng)相研究、開(kāi)發(fā)的對(duì)象。
搜索引擎是指在互聯(lián)網(wǎng)上專(zhuān)門(mén)提供查詢(xún)服務(wù)的一類(lèi)網(wǎng)站,這些網(wǎng)站通過(guò)網(wǎng)絡(luò)
搜索軟件或網(wǎng)站登陸等方式,收集互聯(lián)網(wǎng)上大量網(wǎng)站的頁(yè)面,經(jīng)過(guò)加工處理后建
庫(kù),從而能夠?qū)τ脩?hù)提出的各種查詢(xún)作出響應(yīng),提供用戶(hù)所需的信息。
本文利用開(kāi)源的hccne引擎架構(gòu)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)可復(fù)用、可擴(kuò)展的搜索引
擎系統(tǒng)Hicode,能夠用來(lái)專(zhuān)門(mén)搜索web和本地?cái)?shù)據(jù)中具有程序語(yǔ)言源代碼的文件,
能夠有效的定位用戶(hù)所需要的某段程序源碼及其源文件所在的位置。
本文先介紹了Luccne以及搜索引擎系統(tǒng)Hicode中要用到的開(kāi)源工具。然后利
用Java技術(shù)對(duì)搜索引擎的三個(gè)核心部分即爬蟲(chóng)、索引和搜索進(jìn)行了實(shí)現(xiàn)。爬蟲(chóng)部
分采用了Java的多線(xiàn)程機(jī)制,,使用線(xiàn)程池管理多個(gè)抓取線(xiàn)程,并發(fā)抓取網(wǎng)頁(yè)。索
引和搜索部分利用hcene引擎架構(gòu),實(shí)現(xiàn)了比hcene自定義的中文分詞更有效的
中文分詞,還引
本文關(guān)鍵詞:基于LUCENE2.0的源代碼搜索引擎架構(gòu)的實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):49153
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/49153.html