天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Lucene的全文信息檢索技術(shù)的研究與應(yīng)用

發(fā)布時(shí)間:2018-07-07 18:20

  本文選題:搜索引擎 + 全文檢索 ; 參考:《江南大學(xué)》2012年碩士論文


【摘要】:隨著網(wǎng)絡(luò)信息資源急劇增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)逐漸成為了一個(gè)海量信息空間,人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來便利的同時(shí)也被淹沒在信息的汪洋中,如何從海量網(wǎng)絡(luò)信息中獲取潛在的、有價(jià)值的信息,已成為眾多互聯(lián)網(wǎng)用戶所面臨的一個(gè)極其重要的問題。在這種迫切需求下,信息檢索技術(shù)和網(wǎng)絡(luò)搜索引擎便應(yīng)運(yùn)而生,并成為互聯(lián)網(wǎng)中重要的應(yīng)用和研究課題。 Lucene是一個(gè)全文檢索框架,開發(fā)人員可以方便地在其基礎(chǔ)上進(jìn)行二次開發(fā),設(shè)計(jì)實(shí)現(xiàn)快捷的專業(yè)搜索引擎。雖然Lucene功能強(qiáng)大、配置靈活,但是僅作為一個(gè)檢索框架而言,缺少信息采集模塊,還不能實(shí)現(xiàn)完整的搜索引擎功能,同時(shí)Lucene自帶的中文分詞器也不能有效的切分處理中文詞匯,因此,本文選取Lucene作為研究對(duì)象。 論文首先深入分析了Lucene整體框架結(jié)構(gòu),包括建立索引、檢索索引文件以及結(jié)果集排序工作過程和原理。接著,介紹了網(wǎng)頁(yè)采集技術(shù)和網(wǎng)絡(luò)爬蟲Heritrix,深入研究其框架結(jié)構(gòu)及核心部件的工作原理,并對(duì)網(wǎng)頁(yè)爬蟲的功能做了如下的改進(jìn)工作:針對(duì)爬蟲下載內(nèi)容復(fù)雜冗余問題,通過篩選URL鏈接方法,使爬蟲忽略不符合條件的網(wǎng)頁(yè),從而過濾下載內(nèi)容,減少存儲(chǔ)空間的浪費(fèi);針對(duì)爬蟲抓取速率不高問題,通過修改部分源碼,取消附加robots協(xié)議對(duì)爬蟲抓取過程的限制,從而提高了爬蟲抓取效率;針對(duì)Heritrix默認(rèn)采用主機(jī)名隊(duì)列分配策略在抓取單一網(wǎng)站頁(yè)面時(shí),導(dǎo)致的抓取隊(duì)列過長(zhǎng)及部分線程阻塞問題,設(shè)計(jì)ELF散列算法,新建了一個(gè)隊(duì)列分配策略,把URL盡量平均分到各個(gè)隊(duì)列中去,從而提高抓取的速度。本文通過實(shí)驗(yàn)證明,上述三個(gè)優(yōu)化方案達(dá)到預(yù)期目標(biāo)。 論文闡述了四種常見的中文分詞算法,三種經(jīng)典詞典文件組織方式,并進(jìn)行比較分析,在歸納各自優(yōu)缺點(diǎn)的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)改進(jìn)的中文分詞器。改進(jìn)后的分詞器采用了三級(jí)索引詞典文件組織方式,該文件組織方式融合了表格詞典結(jié)構(gòu)方式實(shí)現(xiàn)方法簡(jiǎn)單、空間占用少、維護(hù)更新容易以及樹形詞典結(jié)構(gòu)詞條查找效率高的優(yōu)點(diǎn),從而有效地減小詞典空間,實(shí)現(xiàn)詞條的快速查詢。設(shè)計(jì)并采用了改進(jìn)的最大正向匹配中文分詞算法,算法的主要過程是:從左至右順序遍歷待切分語(yǔ)句,計(jì)算首字散列值,在一級(jí)索引中匹配該散列值,匹配成功,將下一個(gè)字符加到前綴字符串中,計(jì)算新字符串長(zhǎng)度,在二級(jí)索引中匹配該長(zhǎng)度,匹配成功,計(jì)算新字符串散列值,在三級(jí)索引中匹配該散列值,匹配成功,記錄當(dāng)前已匹配字符串的長(zhǎng)度,繼續(xù)加入下一個(gè)字符,直到完成索引中當(dāng)前首字最長(zhǎng)的詞條。改進(jìn)后的中文分詞算法運(yùn)用了類似TRIE索引樹的逐字匹配算法,消除了傳統(tǒng)正向最大匹配算法的切分盲點(diǎn),同時(shí),避免多次無效二分查找,提高了分詞效率。論文通過算法的時(shí)間復(fù)雜度和實(shí)驗(yàn)分析證明,改進(jìn)后的分詞器提高了中文分詞速度和準(zhǔn)確性。 最后,綜合上述理論、技術(shù)和算法研究,應(yīng)用J2EE架構(gòu)技術(shù)實(shí)現(xiàn)了一個(gè)全文信息檢索系統(tǒng),滿足了用戶快速準(zhǔn)確地檢索信息的需求。
[Abstract]:With the rapid growth of network information resources , the Internet has become a huge space of information , and people have been submerged in the ocean of the information while enjoying the convenience of the Internet . How to obtain the potential and valuable information from the mass network information has become an extremely important problem for many Internet users . In this urgent need , the information retrieval technology and the web search engine are born and become an important application and research subject in the Internet .

Lucene is a full - text search framework , and the developer can easily develop and design a professional search engine on the basis of it . Although Lucene is powerful and flexible , it lacks the information acquisition module as a search framework , and can not realize the complete search engine function . At the same time , Lucene ' s own Chinese classifier cannot effectively cut the Chinese vocabulary . Therefore , Lucene is selected as the research object .

This paper first analyzes Lucene ' s whole frame structure , including the process and principle of indexing , retrieving index file and result set ordering .

This paper describes four common Chinese word segmentation algorithms , three classical dictionary file organization methods and comparative analysis .

Finally , based on the theory , technology and algorithm research , a full - text information retrieval system is implemented using J2EE architecture technology , which meets the need of user to retrieve information quickly and accurately .
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉遷;賈惠波;;中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J];計(jì)算機(jī)工程與應(yīng)用;2006年03期

2 李雪瑩,劉寶旭,許榕生;字符串匹配技術(shù)研究[J];計(jì)算機(jī)工程;2004年22期

3 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報(bào);2007年03期

4 孫茂松,左正平,黃昌寧;漢語(yǔ)自動(dòng)分詞詞典機(jī)制的實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2000年01期

5 楊文峰,陳光英,李星;基于PATRICIA tree的漢語(yǔ)自動(dòng)分詞詞典機(jī)制[J];中文信息學(xué)報(bào);2001年03期

6 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期

7 張?jiān)魄?吳正荊;網(wǎng)絡(luò)全文檢索系統(tǒng)的實(shí)現(xiàn)技術(shù)及其未來發(fā)展[J];情報(bào)科學(xué);2003年10期

8 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期

9 向暉;郭一平;王亮;;基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2006年08期

10 高琰,谷士文,譚立球,費(fèi)耀平;基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];微機(jī)發(fā)展;2004年10期

相關(guān)碩士學(xué)位論文 前1條

1 胡曉博;面向特定領(lǐng)域的專業(yè)搜索引擎的架構(gòu)與實(shí)現(xiàn)方法[D];哈爾濱工程大學(xué);2007年

,

本文編號(hào):2105837

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2105837.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2b3f4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
深夜日本福利在线观看| 久久国产精品热爱视频| 亚洲黄香蕉视频免费看| 亚洲一区二区三区熟女少妇| 欧美中文字幕一区在线| 大香蕉伊人精品在线观看| 大香伊蕉欧美一区二区三区| 精品熟女少妇一区二区三区| 中文字幕免费观看亚洲视频| 亚洲日本中文字幕视频在线观看 | 中国美女偷拍福利视频| 黄色国产自拍在线观看| 国产精品成人一区二区在线| 亚洲国产香蕉视频在线观看| 在线免费国产一区二区三区| 色播五月激情五月婷婷| 免费特黄一级一区二区三区| 国产剧情欧美日韩中文在线| 欧美一级黄片欧美精品| 激情偷拍一区二区三区视频| 91插插插外国一区二区婷婷| 五月激情综合在线视频| 一二区中文字幕在线观看| 日韩免费国产91在线| 成人亚洲国产精品一区不卡| 国产免费人成视频尤物| 亚洲一区二区三区熟女少妇| 国产免费一区二区三区av大片 | 欧美黑人精品一区二区在线| 国产老熟女超碰一区二区三区| 欧美一区二区不卡专区| 小草少妇视频免费看视频| 亚洲高清一区二区高清| 成人午夜在线视频观看| 男女一进一出午夜视频| 免费在线观看激情小视频 | 亚洲国产成人精品一区刚刚| 微拍一区二区三区福利| 日本美国三级黄色aa| 亚洲一区二区福利在线| 黑鬼糟蹋少妇资源在线观看|