天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于多級Hash分詞的全文搜索引擎的研究

發(fā)布時間:2016-09-21 12:08

  本文關鍵詞:基于多級Hash分詞的全文搜索引擎的研究,由筆耕文化傳播整理發(fā)布。


《北京郵電大學》 2008年

基于多級Hash分詞的全文搜索引擎的研究

蘇亮  

【摘要】: 中文分詞作為現(xiàn)代搜索引擎技術的重要基礎,一直以來是人們研究的熱點和難點。Lucene是一個成熟、開源的軟件項目,是一個高性能的信息檢索和查詢工具,通過對Lucene源代碼的分析和編程實驗,讓我們領略到了Lucene的精髓。由于其提供了一套簡單卻十分強大的核心API,使得我們可以快速得將它集成到我們自己應用程序中。但是,Lucene的核心包和擴展包對中文分詞采取類似英文的機械式切分方法。然而由于中英文之間在形式上存在著巨大的差異,這種切分方法的分詞效果是非常低效的。本文在通過對Lucene分詞的結(jié)構的分析,設計出了一種基于Hash的Lucene的高效機械分詞方法。 目前信息處理用的詞典機制主要有整詞二分、TRIE索引樹、逐字二分等幾種方法,其中TRIE索引樹和逐字二分機制查詢效率較高。這幾種詞典機制都是以排序的線性表來提高查詢效率,數(shù)據(jù)結(jié)構比較復雜且查詢速度較慢。本文主要工作是分析了幾種常用詞典構造方法的優(yōu)缺點,針對分詞中特定的查詢條件,設計并實現(xiàn)了基于Hash的分詞詞典,同時分析了基于Hash的分詞詞典的性能。 本文在此研究基礎上開發(fā)出了個人桌面搜索引擎系統(tǒng),索引和搜索部分利用Lucene引擎架構,實現(xiàn)了比Lucene自帶的中文分詞更有效的中文分詞。文章最后在系統(tǒng)設計和實現(xiàn)的基礎上,對中文分詞進行了速度和準確率的測試,并在此基礎上提出了今后努力的方向。

【關鍵詞】:
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2008
【分類號】:TP391.1
【目錄】:

  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-11
  • 1.1 課題背景和意義9-10
  • 1.2 主要工作和貢獻10
  • 1.3 本論文的組織10-11
  • 第二章 中文分詞算法11-22
  • 2.1 中文分詞的研究進展11-13
  • 2.1.1 主要的幾種分詞方法11-13
  • 2.1.2 基于 Hash的機械分詞13
  • 2.2 常用的三種分詞詞典13-19
  • 2.2.1 整詞二分的分詞詞典機制14-15
  • 2.2.2 TRIE索引樹的分詞詞典機制15-17
  • 2.2.3 基于逐字二分的詞典機制17
  • 2.2.4 三種分詞詞機制的實驗結(jié)果17-19
  • 2.3 多級 Hash的詞典機制19-21
  • 2.4 本章小結(jié)21-22
  • 第三章 基于 Lucene的分詞技術研究22-42
  • 3.1 Lucene概述22-28
  • 3.1.1 全文檢索22
  • 3.1.2 Lucene的特點22-23
  • 3.1.3 Lucene的結(jié)構23-24
  • 3.1.4 Lucene的工作流程24
  • 3.1.5 Lucene的與索引相關的類24-27
  • 3.1.6 Lucene的與查詢相關的類27-28
  • 3.2 Lucene的分析器28-31
  • 3.2.1 Lucene分析器的結(jié)構28-29
  • 3.2.2 Lucene的分析器29-30
  • 3.2.3 Lucene的查詢30-31
  • 3.3 Lucene的分析器的研究31-34
  • 3.3.1 分析器的結(jié)構分析31-32
  • 3.3.2 新的分析器的實現(xiàn)32-34
  • 3.4 基于 Hash的機械分詞34-36
  • 3.4.1 Hash算法34-35
  • 3.4.2 詞典的格式35-36
  • 3.5 多級 Hash分詞的實現(xiàn)36-41
  • 3.5.1 分詞模塊36-38
  • 3.5.2 索引模塊38-40
  • 3.5.3 搜索模塊40-41
  • 3.6 本章小結(jié)41-42
  • 第四章 桌面搜索引擎系統(tǒng)的設計和實現(xiàn)42-58
  • 4.1 系統(tǒng)總體結(jié)構42-43
  • 4.2 開發(fā)環(huán)境介紹43
  • 4.2.1 硬件環(huán)境43
  • 4.2.2 軟件資源43
  • 4.3 桌面搜索引擎系統(tǒng) CoSou的實現(xiàn)43-52
  • 4.3.1 索引建立模塊44-49
  • 4.3.2 查詢模塊49-52
  • 4.4 實驗設計與結(jié)果分析52-57
  • 4.4.1 測試環(huán)境搭建52-53
  • 4.4.2 分詞的衡量因素53
  • 4.4.3 實驗過程53-57
  • 4.5 本章小結(jié)57-58
  • 第五章 總結(jié)和展望58-59
  • 5.1 總結(jié)58
  • 5.2 下一步工作58-59
  • 參考文獻59-61
  • 致謝61-62
  • 攻讀學位期間發(fā)表的論文62
  • 下載全文 更多同類文獻

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 劉兆偉;黃永峰;;面向主題搜索引擎的實現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期

    2 周拴龍;;Lucene.net中文分詞算法分析[J];鄭州大學學報(理學版);2011年03期

    3 付光;;面向招聘信息主題搜索引擎的研究與設計[J];廣西教育;2011年18期

    4 ;李彥宏論搜索引擎三個定律[J];新電子;2001年02期

    5 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期

    6 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計算機與網(wǎng)絡;2010年Z1期

    7 馬玥;;王小川:絕境之外[J];中國經(jīng)濟和信息化;2011年12期

    8 魏蕾如;;基于搜索引擎的網(wǎng)絡中文信息檢索工具評價[J];數(shù)字技術與應用;2011年06期

    9 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期

    10 鄒燕飛;于成尊;趙亮;;基于Lucene的文本搜索引擎的設計和實現(xiàn)[J];計算機與現(xiàn)代化;2011年09期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年

    2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年

    3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年

    4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年

    5 劉凡平;高艷華;于炯;張偉;;基于關鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年

    6 湯薇;曾艷;;構建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年

    7 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年

    8 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年

    9 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年

    10 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 清華大學IT可用性實驗室;[N];計算機世界;2005年

    2 姜蕊;[N];中國商報;2006年

    3 主持人 陳建棟;[N];光明日報;2005年

    4 本報記者 陳建棟;[N];光明日報;2005年

    5 曾正樂;[N];經(jīng)濟日報;2005年

    6 本報記者 秦海波;[N];經(jīng)濟日報;2005年

    7 FN記者 柳立;[N];金融時報;2005年

    8 閆輝;[N];計算機世界;2005年

    9 本報記者 李劍;[N];通信信息報;2005年

    10 華夏;[N];江蘇科技報;2008年

    中國博士學位論文全文數(shù)據(jù)庫 前10條

    1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年

    2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年

    3 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年

    4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年

    5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年

    6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年

    7 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年

    8 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年

    9 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年

    10 楊傳耀;中文信息檢索索引模型及相關技術研究[D];復旦大學;2007年

    中國碩士學位論文全文數(shù)據(jù)庫 前10條

    1 劉琨;搜索引擎的研究與實現(xiàn)[D];西安電子科技大學;2004年

    2 高磊;基于LUCENE的搜索引擎研究與實現(xiàn)[D];武漢理工大學;2007年

    3 謝騁超;基于語義的數(shù)據(jù)庫全文檢索系統(tǒng)[D];浙江大學;2006年

    4 閆繼鋼;搜索引擎的研究與實現(xiàn)[D];蘭州大學;2009年

    5 蘇亮;基于多級Hash分詞的全文搜索引擎的研究[D];北京郵電大學;2008年

    6 馮斌;基于Lucene小型搜索引擎的研究與實現(xiàn)[D];武漢理工大學;2008年

    7 全俊林;面向OA系統(tǒng)的個性化搜索引擎設計與實現(xiàn)[D];武漢理工大學;2007年

    8 劉宏偉;搜索引擎中中文WEB文本自動分類研究[D];暨南大學;2007年

    9 徐財應;基于Lucene的搜索引擎技術的研究與改進[D];長春理工大學;2010年

    10 張彬;基于lucene的搜索引擎[D];上海師范大學;2010年


      本文關鍵詞:基于多級Hash分詞的全文搜索引擎的研究,,由筆耕文化傳播整理發(fā)布。



    本文編號:119432

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/119432.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權申明:資料由用戶d85fb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com