天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Lucene的垂直搜索引擎的研究與實現(xiàn)

發(fā)布時間:2017-10-15 12:31

  本文關(guān)鍵詞:基于Lucene的垂直搜索引擎的研究與實現(xiàn)


  更多相關(guān)文章: 垂直搜索引擎 Heritrix Lucene HtmlParser 中文分詞算法


【摘要】:隨著互聯(lián)網(wǎng)上的信息不斷膨脹以及信息形式的日漸多元化,通用搜索引擎所需要采集、索引和查詢的內(nèi)容越來越多,然而面對龐大的搜索返回結(jié)果,用戶尋找自己所需要的信息是一件很費力的事情。所以,一個專注于特定領(lǐng)域的、數(shù)據(jù)全面深入、更新及時、注重專業(yè)化與結(jié)構(gòu)分析的垂直搜索引擎應(yīng)運(yùn)而生,如何準(zhǔn)確、及時地返回結(jié)構(gòu)化的信息,以及如何實現(xiàn)垂直搜索引擎在特定領(lǐng)域中的應(yīng)用具有重要的研究意義。 在搜索引擎領(lǐng)域,中文分詞對搜索結(jié)果排名的影響非常大,因為搜索引擎在建立索引和檢索結(jié)果的過程中,都需要先分詞。本文在深入研究基于理解的分詞、基于統(tǒng)計的分詞和基于詞典的分詞、以及歧義詞和未登錄詞處理的基礎(chǔ)上,設(shè)計了一種基于字典的字符串匹配方法和基于統(tǒng)計相結(jié)合的分詞算法,其中基于字典的方法采用逆向最大匹配方法。算法中的詞典由核心詞典和臨時詞典組成,并且核心詞典采用二級哈希存儲結(jié)構(gòu),在此基礎(chǔ)上使用整詞二分法的首字哈希查找技術(shù),可在兼顧結(jié)構(gòu)簡單、空間占用小的情況下提高查找效率。臨時詞典采用單字哈希以簡化其構(gòu)造和維護(hù)。統(tǒng)計策略是解決歧義問題及未登錄詞問題的關(guān)鍵,一個好的統(tǒng)計策略的制定至關(guān)重要。本文計算詞頻的統(tǒng)計策略來解決新詞的識別,其中新詞包括未登錄詞和歧義詞。實驗證明,改進(jìn)后的分詞算法在經(jīng)過不斷的統(tǒng)計與學(xué)習(xí)之后,分詞準(zhǔn)確率保持在98%左右,選擇合適的語料,經(jīng)過不斷地統(tǒng)計與學(xué)習(xí),其性能得到很大的提高并能滿足具體領(lǐng)域的應(yīng)用。 在改進(jìn)的中文分詞算法基礎(chǔ)上,本文針對手機(jī)信息的特點和手機(jī)產(chǎn)品詳細(xì)信息的搜索需求進(jìn)行需求分析,在Eclipse開發(fā)環(huán)境中利用Lucene開源框架實現(xiàn)了一個可在Tomcat服務(wù)器上運(yùn)行的手機(jī)信息垂直搜索引擎系統(tǒng)。該系統(tǒng)的設(shè)計方案為:首先改進(jìn)Heritrix爬蟲框架,在Heritrix開源爬蟲框架中定制特定的抓取手機(jī)網(wǎng)頁的類,對互聯(lián)網(wǎng)上電子商務(wù)網(wǎng)站中的手機(jī)信息進(jìn)行采集,然后使用正則表達(dá)式和HtmlParser提取網(wǎng)頁內(nèi)容,并在系統(tǒng)中加入中文分詞算法對信息進(jìn)行處理,同時構(gòu)建手機(jī)信息詞庫,建立手機(jī)信息數(shù)據(jù)庫和索引結(jié)構(gòu),實現(xiàn)用于接收用戶查詢信息的檢索功能,最后將查詢結(jié)果返回給用戶。通過系統(tǒng)測試,本文設(shè)計的手機(jī)信息垂直搜索引擎返回的結(jié)果準(zhǔn)確率高、性能良好,能夠滿足用戶需要,該設(shè)計方法具有可借鑒性,可在其他領(lǐng)域應(yīng)用。
【關(guān)鍵詞】:垂直搜索引擎 Heritrix Lucene HtmlParser 中文分詞算法
【學(xué)位授予單位】:成都理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 引言10-13
  • 1.1 研究背景10-11
  • 1.2 研究現(xiàn)狀11-12
  • 1.3 研究內(nèi)容12-13
  • 第2章 垂直搜索引擎的關(guān)鍵技術(shù)13-22
  • 2.1 垂直搜索引擎概述13-15
  • 2.1.1 垂直搜索引擎簡介13
  • 2.1.2 垂直搜索的特點13-14
  • 2.1.3 垂直搜索引擎框架14-15
  • 2.2 Heritrix網(wǎng)絡(luò)爬蟲簡介15-17
  • 2.2.1 Heritrix的工作流程及其構(gòu)架15
  • 2.2.2 Heritrix主要組件包含的類15-17
  • 2.3 Lucene全文搜索框架17-22
  • 2.3.1 Lucene的索引18-21
  • 2.3.1.1 Lucene的索引記錄19-20
  • 2.3.1.2 Lucene的索引工具20-21
  • 2.3.2 Lucene的搜索方式21-22
  • 第3章 中文分詞算法22-38
  • 3.1 中文分詞技術(shù)概述22-25
  • 3.1.1 中文分詞代表23-24
  • 3.1.2 中文分詞系統(tǒng)的評價標(biāo)準(zhǔn)24-25
  • 3.2 中文分詞算法的分類25
  • 3.2.1 基于字符串匹配的分詞方法25
  • 3.2.2 基于理解的分詞方法25
  • 3.2.3 基于統(tǒng)計的分詞方法25
  • 3.3 中文分詞技術(shù)面臨的問題25-28
  • 3.3.1 歧義識別26-27
  • 3.3.2 未登錄詞的識別27-28
  • 3.4 中文分詞算法28-34
  • 3.4.1 算法設(shè)計所針對的問題28
  • 3.4.2 分詞詞典的設(shè)計28-31
  • 3.4.3 統(tǒng)計策略的設(shè)計31
  • 3.4.4 語料庫的獲取31-32
  • 3.4.5 分詞算法32-34
  • 3.5 實驗結(jié)果分析34-38
  • 3.5.1 綜合性能測試一34-35
  • 3.5.2 綜合性能測試二35-36
  • 3.5.3 分全率和分詞效率實驗36
  • 3.5.4 歧義詞和未登錄詞處理能力測試36-38
  • 第4章 手機(jī)信息垂直搜索引擎系統(tǒng)分析38-43
  • 4.1 系統(tǒng)功能模塊分析38-39
  • 4.2 系統(tǒng)功能模塊概述39-43
  • 4.2.1 網(wǎng)頁抓取模塊39
  • 4.2.2 網(wǎng)頁預(yù)處理和索引模塊39-40
  • 4.2.2.1 網(wǎng)頁凈化與消重39-40
  • 4.2.2.2 PageRank算法40
  • 4.2.3 用戶檢索模塊40-41
  • 4.2.4 后臺管理模塊41-43
  • 第5章 垂直搜索引擎的系統(tǒng)設(shè)計與實現(xiàn)43-62
  • 5.1 網(wǎng)頁抓取模塊設(shè)計43-46
  • 5.1.1 網(wǎng)頁抓取流程43-44
  • 5.1.2 網(wǎng)頁抓取邏輯44-46
  • 5.2 網(wǎng)頁信息解析模塊設(shè)計46-48
  • 5.3 詞庫的建立48
  • 5.4 數(shù)據(jù)庫與索引結(jié)構(gòu)48-53
  • 5.4.1 Product類49
  • 5.4.2 數(shù)據(jù)庫結(jié)構(gòu)49
  • 5.4.3 數(shù)據(jù)庫處理類49-50
  • 5.4.4 索引結(jié)構(gòu)50
  • 5.4.5 索引處理類50-51
  • 5.4.6 綜合處理類51-53
  • 5.5 用戶檢索模塊設(shè)計53-62
  • 5.5.1 信息檢索的實現(xiàn)53-54
  • 5.5.2 檢索結(jié)果的排序54-55
  • 5.5.3 搜索引擎后臺55-57
  • 5.5.4 Bean類的設(shè)計57
  • 5.5.5 Web頁面設(shè)計與實現(xiàn)57-60
  • 5.5.6 手機(jī)垂直搜索引擎系統(tǒng)性能評價60-62
  • 結(jié)論62-64
  • 致謝64-65
  • 參考文獻(xiàn)65-67
  • 攻讀學(xué)位期間取得學(xué)術(shù)成果67

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 吳漢榮;曾勇軍;;Simply Hired:職位搜索新天地[J];電腦與電信;2009年03期

2 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機(jī)研究與發(fā)展;2000年04期

3 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機(jī)工程與應(yīng)用;2002年11期

4 何克抗,徐輝,孫波;書面漢語自動分詞專家系統(tǒng)設(shè)計原理[J];中文信息學(xué)報;1991年02期

5 揭春雨,劉源,梁南元;漢語自動分詞實用系統(tǒng)CASS的設(shè)計和實現(xiàn)[J];中文信息學(xué)報;1991年04期

6 徐秉錚,詹劍,賀前華;基于神經(jīng)網(wǎng)絡(luò)的分詞方法[J];中文信息學(xué)報;1993年02期

7 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期

8 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報科學(xué);2010年03期

9 王冬;雷景生;;一種基于PageRank的頁面排序改進(jìn)算法[J];微電子學(xué)與計算機(jī);2009年04期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年

2 杜佳倫;面向用戶體驗需求的垂直搜索引擎的研究[D];吉林大學(xué);2011年

3 李宜兵;基于搜索引擎網(wǎng)頁排序算法研究[D];沈陽理工大學(xué);2011年

4 楊成寶;我國搜索引擎市場發(fā)展趨勢與策略研究[D];山東大學(xué);2011年

5 任麗蕓;搜索引擎中文分詞技術(shù)研究[D];重慶理工大學(xué);2011年

6 仇亞東;面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究[D];南京農(nóng)業(yè)大學(xué);2010年

7 陳潔惠;搜索引擎排序算法的研究[D];河海大學(xué);2007年

8 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計[D];華東師范大學(xué);2007年

9 李廣麗;垂直搜索引擎的研究與設(shè)計[D];華東交通大學(xué);2008年

10 任軍;基于網(wǎng)頁結(jié)構(gòu)特征的垂直搜索引擎研究與實現(xiàn)[D];上海交通大學(xué);2008年



本文編號:1037135

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1037135.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9166a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品一区二区三区日韩av| 国产精品欧美一区两区| 欧美日韩国产成人高潮| 国产成人国产精品国产三级| 亚洲国产成人一区二区在线观看| 日韩夫妻午夜性生活视频| 亚洲av成人一区二区三区在线| 男人把女人操得嗷嗷叫| 九九热在线视频精品免费| 国产不卡视频一区在线| 色偷偷亚洲女人天堂观看| 亚洲国产性生活高潮免费视频| 中文字幕无线码一区欧美| 日本婷婷色大香蕉视频在线观看| 青青久久亚洲婷婷中文网| 中文字幕欧美视频二区| 国产成人精品资源在线观看| 91精品国产品国语在线不卡 | 日韩精品免费一区三区| 国产一区欧美午夜福利| 99久久精品久久免费| 91一区国产中文字幕| 精品香蕉国产一区二区三区| 丝袜诱惑一区二区三区| 91欧美一区二区三区成人| 国产超薄黑色肉色丝袜| 扒开腿狂躁女人爽出白浆av| 99热中文字幕在线精品| 欧美自拍偷自拍亚洲精品| 亚洲第一区欧美日韩在线| 微拍一区二区三区福利| 成人国产激情福利久久| 国产精品蜜桃久久一区二区| 免费精品一区二区三区| 中文字幕一区二区三区大片| 激情内射亚洲一区二区三区| 最新国产欧美精品91| 女人高潮被爽到呻吟在线观看| 又大又长又粗又黄国产| 大尺度剧情国产在线视频| 国产美女精品午夜福利视频 |