天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Java技術(shù)的搜索引擎研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2016-07-14 08:34

  本文關(guān)鍵詞:基于Java技術(shù)的搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


《西南交通大學(xué)》 2006年

基于Java技術(shù)的搜索引擎研究與實(shí)現(xiàn)

何世林  

【摘要】:在互聯(lián)網(wǎng)蓬勃發(fā)展的今天,互聯(lián)網(wǎng)上的信息更是浩如煙海。人們?cè)谙硎芑ミB網(wǎng)帶來(lái)的便利的同時(shí),卻面臨著一個(gè)如何在如此海量的內(nèi)容中準(zhǔn)確、快捷地找到自己所需要的信息的問(wèn)題,由此互聯(lián)網(wǎng)搜索引擎應(yīng)運(yùn)而生。當(dāng)前對(duì)于搜索引擎的研究是互聯(lián)網(wǎng)技術(shù)中最熱門(mén)的領(lǐng)域。 本文對(duì)搜索引擎的原理、組成、數(shù)據(jù)結(jié)構(gòu)、工作流程等方面做了深入而細(xì)致地研究與分析。搜索引擎的未來(lái)發(fā)展方向是個(gè)性化、智能化。對(duì)于不同類(lèi)型的用戶群搜索相同的內(nèi)容將得到不同的更適合用戶的搜索結(jié)果,這就是搜索引擎的個(gè)性化;而智能化則指搜索引擎具有自我學(xué)習(xí)的功能,能自動(dòng)地適應(yīng)用戶的查詢需求,并能對(duì)用戶進(jìn)行智能分類(lèi)從而為搜索引擎的個(gè)性化提供依據(jù)。 在理論研究的基礎(chǔ)上,本文還利用Java技術(shù)對(duì)搜索引擎的三個(gè)核心部分即網(wǎng)絡(luò)蜘蛛、網(wǎng)頁(yè)索引、搜索進(jìn)行了實(shí)現(xiàn)。網(wǎng)絡(luò)蜘蛛部分采用了非遞歸爬取方式和Java的多線程機(jī)制,利用一個(gè)基于內(nèi)存的作業(yè)隊(duì)列管理器負(fù)責(zé)網(wǎng)頁(yè)抓取過(guò)程中URL鏈接的加入、分配、處理等作業(yè),同時(shí)使用線程池管理多個(gè)抓取線程,并發(fā)抓取網(wǎng)頁(yè)。索引和搜索部分借助Lucene全文搜索引擎庫(kù)中的Java類(lèi)進(jìn)行實(shí)現(xiàn)。Lucene是Apache軟件基金會(huì)的一個(gè)開(kāi)源項(xiàng)目,完全由Java實(shí)現(xiàn),適用于需要全文搜索能力的應(yīng)用程序,并具有良好的跨平臺(tái)能力。最后采用JSP(Java Server Pages)技術(shù)設(shè)計(jì)了一個(gè)簡(jiǎn)易的搜索引擎客戶端。

【關(guān)鍵詞】:
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類(lèi)號(hào)】:TP391.3
【目錄】:

  • 第1章 緒論9-15
  • 1.1 概述9
  • 1.2 搜索引擎的現(xiàn)狀9-13
  • 1.2.1 搜索引擎的發(fā)展歷史9-10
  • 1.2.2 搜索引擎的分類(lèi)10-12
  • 1.2.3 當(dāng)前主流搜索引擎簡(jiǎn)介12-13
  • 1.3 本文研究的主要內(nèi)容13-15
  • 第2章 基本組成及數(shù)據(jù)結(jié)構(gòu)15-28
  • 2.1 基本組成及工作流程16-18
  • 2.2 存儲(chǔ)結(jié)構(gòu)18-23
  • 2.2.1 頁(yè)面存儲(chǔ)庫(kù)18-19
  • 2.2.2 詞典庫(kù)19-20
  • 2.2.3 Hits列表20-23
  • 2.3 索引結(jié)構(gòu)23-28
  • 2.3.1 文檔索引庫(kù)24-25
  • 2.3.2 前向索引表25-26
  • 2.3.3 后向索引表26-28
  • 第3章 網(wǎng)頁(yè)抓取技術(shù)28-39
  • 3.1 抓取技術(shù)的協(xié)議分析28-31
  • 3.1.1 通信協(xié)議28-30
  • 3.1.2 HTML解析30-31
  • 3.2 網(wǎng)頁(yè)抓取方法31-34
  • 3.3 網(wǎng)頁(yè)抓取應(yīng)考慮的問(wèn)題34-39
  • 3.3.1 抓取周期分析34-35
  • 3.3.2 抓取內(nèi)容分析35-36
  • 3.3.3 網(wǎng)絡(luò)蜘蛛的排斥機(jī)制36-39
  • 第4章 索引技術(shù)及搜索39-50
  • 4.1 網(wǎng)頁(yè)內(nèi)容分析39-43
  • 4.1.1 什么是中文分詞39-40
  • 4.1.2 中文分詞技術(shù)40-41
  • 4.1.3 索引的建立41-43
  • 4.2 頁(yè)面優(yōu)先度算法43-47
  • 4.2.1 基于鏈接分析的算法43-46
  • 4.2.2 基于網(wǎng)頁(yè)內(nèi)容的算法46-47
  • 4.3 搜索及結(jié)果排序47-50
  • 第5章 搜索引擎的軟件實(shí)現(xiàn)50-74
  • 5.1 軟件開(kāi)發(fā)環(huán)境50-56
  • 5.1.1 Java的Internet連接技術(shù)50-51
  • 5.1.2 Java中的中文處理51-53
  • 5.1.3 Java的多線程機(jī)制53-55
  • 5.1.4 JDBC應(yīng)用55-56
  • 5.2 網(wǎng)絡(luò)蜘蛛的實(shí)現(xiàn)56-59
  • 5.3 利用LUCENE實(shí)現(xiàn)索引和搜索59-74
  • 5.3.1 Lucene的核心類(lèi)61-64
  • 5.3.2 利用Lucene實(shí)現(xiàn)索引和搜索64-74
  • 結(jié)論74-77
  • 致謝77-78
  • 參考文獻(xiàn)78-82
  • 攻讀碩士學(xué)位期間發(fā)表的論文82
  • 下載全文 更多同類(lèi)文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 劉金亮;蘇琳;石云;;基于Nutch的垂直搜索技術(shù)研究[J];電腦知識(shí)與技術(shù);2011年24期

    2 劉金松;;搜索引擎的原理及spider程序淺析[J];電腦知識(shí)與技術(shù);2011年25期

    3 ;李彥宏論搜索引擎三個(gè)定律[J];新電子;2001年02期

    4 相春雷;;2009年中國(guó)搜索引擎市場(chǎng)趨勢(shì)分析[J];軟件世界;2010年02期

    5 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年Z1期

    6 馬玥;;王小川:絕境之外[J];中國(guó)經(jīng)濟(jì)和信息化;2011年12期

    7 鄭曉波;;智能電網(wǎng)中基于電力資源庫(kù)的搜索引擎的研究[J];硅谷;2011年14期

    8 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評(píng)價(jià)[J];數(shù)字技術(shù)與應(yīng)用;2011年06期

    9 ;創(chuàng)新工業(yè)搜索引擎[J];中國(guó)制造業(yè)信息化;2011年12期

    10 胡風(fēng)華;王磊;;基于知識(shí)庫(kù)系統(tǒng)的智能搜索引擎研究[J];中國(guó)新技術(shù)新產(chǎn)品;2011年18期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 李賀華;付鶴崗;;多Agent Web信息檢索應(yīng)用研究[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年

    2 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年

    3 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

    4 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

    5 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

    6 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

    7 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

    8 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

    9 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年

    10 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 秦可;[N];中國(guó)工業(yè)報(bào);2007年

    2 海磊;[N];中國(guó)電腦教育報(bào);2005年

    3 江蘇 劉波;[N];中國(guó)電腦教育報(bào);2000年

    4 主持人 陳建棟;[N];光明日?qǐng)?bào);2005年

    5 本報(bào)記者 陳建棟;[N];光明日?qǐng)?bào);2005年

    6 曾正樂(lè);[N];經(jīng)濟(jì)日?qǐng)?bào);2005年

    7 本報(bào)記者 秦海波;[N];經(jīng)濟(jì)日?qǐng)?bào);2005年

    8 FN記者 柳立;[N];金融時(shí)報(bào);2005年

    9 閆輝;[N];計(jì)算機(jī)世界;2005年

    10 本報(bào)記者 李劍;[N];通信信息報(bào);2005年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

    2 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

    3 李群;主題搜索引擎聚類(lèi)算法的研究[D];北京林業(yè)大學(xué);2011年

    4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

    5 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

    6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

    7 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

    8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

    9 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

    10 王德吉;復(fù)雜環(huán)境下自適應(yīng)智能決策支持系統(tǒng)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 薛建春;垂直搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2007年

    2 何世林;基于Java技術(shù)的搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2006年

    3 任嚴(yán);基于網(wǎng)絡(luò)視頻業(yè)務(wù)的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2008年

    4 胡曉翠;站點(diǎn)搜索引擎的研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2009年

    5 張維維;搜索引擎的研究與實(shí)現(xiàn)[D];長(zhǎng)春理工大學(xué);2008年

    6 葉昭暉;網(wǎng)絡(luò)信息雷達(dá)系統(tǒng)的研究與設(shè)計(jì)[D];國(guó)防科學(xué)技術(shù)大學(xué);2005年

    7 許彥彬;基于Java技術(shù)的生物資源專(zhuān)業(yè)搜索引擎的研究與開(kāi)發(fā)[D];昆明理工大學(xué);2004年

    8 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年

    9 郭謝;基于Web Community識(shí)別的專(zhuān)業(yè)搜索引擎研究[D];浙江大學(xué);2006年

    10 沈堅(jiān);一種專(zhuān)題式搜索引擎Spider的設(shè)計(jì)與實(shí)現(xiàn)[D];北京化工大學(xué);2008年


      本文關(guān)鍵詞:基于Java技術(shù)的搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



    本文編號(hào):70758

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/70758.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶2233e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
    91免费一区二区三区| 婷婷激情四射在线观看视频| 午夜午夜精品一区二区| 亚洲妇女黄色三级视频| 亚洲妇女作爱一区二区三区| 国产高清在线不卡一区| 噜噜中文字幕一区二区| 国产午夜在线精品视频| 激情丁香激情五月婷婷| 国产午夜精品美女露脸视频| 中文字幕一区二区三区大片| 日韩欧美高清国内精品| 丰满少妇高潮一区二区| 精品国产av一区二区三区不卡蜜| 欧美乱视频一区二区三区| 精品综合欧美一区二区三区| 中文字幕一区二区久久综合| 亚洲最新中文字幕在线视频 | 色好吊视频这里只有精| av中文字幕一区二区三区在线| 精品国产亚洲av久一区二区三区| 欧美日韩在线第一页日韩| 日本在线高清精品人妻| 日本黄色高清视频久久| 加勒比日本欧美在线观看| 日本午夜乱色视频在线观看| 婷婷亚洲综合五月天麻豆| 亚洲美女国产精品久久| 天堂热东京热男人天堂| 99一级特黄色性生活片| 美女被后入福利在线观看| 国产又黄又猛又粗又爽的片| 中文字幕区自拍偷拍区| 亚洲伦片免费偷拍一区| 国产内射一级一片内射高清视频| 国产精品一区二区不卡中文| 日本黄色美女日本黄色| 夜夜躁狠狠躁日日躁视频黑人| 久久精品国产在热亚洲| 九九热视频经典在线观看| 男生和女生哪个更好色 |