天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于多級Hash分詞的全文搜索引擎的研究

發(fā)布時間:2016-09-21 12:08

  本文關(guān)鍵詞:基于多級Hash分詞的全文搜索引擎的研究,由筆耕文化傳播整理發(fā)布。


《北京郵電大學(xué)》 2008年

基于多級Hash分詞的全文搜索引擎的研究

蘇亮  

【摘要】: 中文分詞作為現(xiàn)代搜索引擎技術(shù)的重要基礎(chǔ),一直以來是人們研究的熱點(diǎn)和難點(diǎn)。Lucene是一個成熟、開源的軟件項(xiàng)目,是一個高性能的信息檢索和查詢工具,通過對Lucene源代碼的分析和編程實(shí)驗(yàn),讓我們領(lǐng)略到了Lucene的精髓。由于其提供了一套簡單卻十分強(qiáng)大的核心API,使得我們可以快速得將它集成到我們自己應(yīng)用程序中。但是,Lucene的核心包和擴(kuò)展包對中文分詞采取類似英文的機(jī)械式切分方法。然而由于中英文之間在形式上存在著巨大的差異,這種切分方法的分詞效果是非常低效的。本文在通過對Lucene分詞的結(jié)構(gòu)的分析,設(shè)計(jì)出了一種基于Hash的Lucene的高效機(jī)械分詞方法。 目前信息處理用的詞典機(jī)制主要有整詞二分、TRIE索引樹、逐字二分等幾種方法,其中TRIE索引樹和逐字二分機(jī)制查詢效率較高。這幾種詞典機(jī)制都是以排序的線性表來提高查詢效率,數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜且查詢速度較慢。本文主要工作是分析了幾種常用詞典構(gòu)造方法的優(yōu)缺點(diǎn),針對分詞中特定的查詢條件,設(shè)計(jì)并實(shí)現(xiàn)了基于Hash的分詞詞典,同時分析了基于Hash的分詞詞典的性能。 本文在此研究基礎(chǔ)上開發(fā)出了個人桌面搜索引擎系統(tǒng),索引和搜索部分利用Lucene引擎架構(gòu),實(shí)現(xiàn)了比Lucene自帶的中文分詞更有效的中文分詞。文章最后在系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)的基礎(chǔ)上,對中文分詞進(jìn)行了速度和準(zhǔn)確率的測試,并在此基礎(chǔ)上提出了今后努力的方向。

【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP391.1
【目錄】:

  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-11
  • 1.1 課題背景和意義9-10
  • 1.2 主要工作和貢獻(xiàn)10
  • 1.3 本論文的組織10-11
  • 第二章 中文分詞算法11-22
  • 2.1 中文分詞的研究進(jìn)展11-13
  • 2.1.1 主要的幾種分詞方法11-13
  • 2.1.2 基于 Hash的機(jī)械分詞13
  • 2.2 常用的三種分詞詞典13-19
  • 2.2.1 整詞二分的分詞詞典機(jī)制14-15
  • 2.2.2 TRIE索引樹的分詞詞典機(jī)制15-17
  • 2.2.3 基于逐字二分的詞典機(jī)制17
  • 2.2.4 三種分詞詞機(jī)制的實(shí)驗(yàn)結(jié)果17-19
  • 2.3 多級 Hash的詞典機(jī)制19-21
  • 2.4 本章小結(jié)21-22
  • 第三章 基于 Lucene的分詞技術(shù)研究22-42
  • 3.1 Lucene概述22-28
  • 3.1.1 全文檢索22
  • 3.1.2 Lucene的特點(diǎn)22-23
  • 3.1.3 Lucene的結(jié)構(gòu)23-24
  • 3.1.4 Lucene的工作流程24
  • 3.1.5 Lucene的與索引相關(guān)的類24-27
  • 3.1.6 Lucene的與查詢相關(guān)的類27-28
  • 3.2 Lucene的分析器28-31
  • 3.2.1 Lucene分析器的結(jié)構(gòu)28-29
  • 3.2.2 Lucene的分析器29-30
  • 3.2.3 Lucene的查詢30-31
  • 3.3 Lucene的分析器的研究31-34
  • 3.3.1 分析器的結(jié)構(gòu)分析31-32
  • 3.3.2 新的分析器的實(shí)現(xiàn)32-34
  • 3.4 基于 Hash的機(jī)械分詞34-36
  • 3.4.1 Hash算法34-35
  • 3.4.2 詞典的格式35-36
  • 3.5 多級 Hash分詞的實(shí)現(xiàn)36-41
  • 3.5.1 分詞模塊36-38
  • 3.5.2 索引模塊38-40
  • 3.5.3 搜索模塊40-41
  • 3.6 本章小結(jié)41-42
  • 第四章 桌面搜索引擎系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)42-58
  • 4.1 系統(tǒng)總體結(jié)構(gòu)42-43
  • 4.2 開發(fā)環(huán)境介紹43
  • 4.2.1 硬件環(huán)境43
  • 4.2.2 軟件資源43
  • 4.3 桌面搜索引擎系統(tǒng) CoSou的實(shí)現(xiàn)43-52
  • 4.3.1 索引建立模塊44-49
  • 4.3.2 查詢模塊49-52
  • 4.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析52-57
  • 4.4.1 測試環(huán)境搭建52-53
  • 4.4.2 分詞的衡量因素53
  • 4.4.3 實(shí)驗(yàn)過程53-57
  • 4.5 本章小結(jié)57-58
  • 第五章 總結(jié)和展望58-59
  • 5.1 總結(jié)58
  • 5.2 下一步工作58-59
  • 參考文獻(xiàn)59-61
  • 致謝61-62
  • 攻讀學(xué)位期間發(fā)表的論文62
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 劉兆偉;黃永峰;;面向主題搜索引擎的實(shí)現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期

    2 周拴龍;;Lucene.net中文分詞算法分析[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2011年03期

    3 付光;;面向招聘信息主題搜索引擎的研究與設(shè)計(jì)[J];廣西教育;2011年18期

    4 ;李彥宏論搜索引擎三個定律[J];新電子;2001年02期

    5 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期

    6 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年Z1期

    7 馬玥;;王小川:絕境之外[J];中國經(jīng)濟(jì)和信息化;2011年12期

    8 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評價[J];數(shù)字技術(shù)與應(yīng)用;2011年06期

    9 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期

    10 鄒燕飛;于成尊;趙亮;;基于Lucene的文本搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2011年09期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

    2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

    3 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2001年

    4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

    5 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集[C];2010年

    6 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會2008年年會論文集[C];2008年

    7 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計(jì)算學(xué)術(shù)會議論文集[C];2005年

    8 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年

    9 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年

    10 陳援非;何哲;朱珍民;;基于普適計(jì)算的個性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計(jì)算學(xué)術(shù)會議(PCC'06)論文集[C];2006年

    中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

    1 清華大學(xué)IT可用性實(shí)驗(yàn)室;[N];計(jì)算機(jī)世界;2005年

    2 姜蕊;[N];中國商報(bào);2006年

    3 主持人 陳建棟;[N];光明日報(bào);2005年

    4 本報(bào)記者 陳建棟;[N];光明日報(bào);2005年

    5 曾正樂;[N];經(jīng)濟(jì)日報(bào);2005年

    6 本報(bào)記者 秦海波;[N];經(jīng)濟(jì)日報(bào);2005年

    7 FN記者 柳立;[N];金融時報(bào);2005年

    8 閆輝;[N];計(jì)算機(jī)世界;2005年

    9 本報(bào)記者 李劍;[N];通信信息報(bào);2005年

    10 華夏;[N];江蘇科技報(bào);2008年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

    2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

    3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

    4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

    5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

    6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

    7 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年

    8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

    9 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

    10 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年

    2 高磊;基于LUCENE的搜索引擎研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2007年

    3 謝騁超;基于語義的數(shù)據(jù)庫全文檢索系統(tǒng)[D];浙江大學(xué);2006年

    4 閆繼鋼;搜索引擎的研究與實(shí)現(xiàn)[D];蘭州大學(xué);2009年

    5 蘇亮;基于多級Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年

    6 馮斌;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2008年

    7 全俊林;面向OA系統(tǒng)的個性化搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];武漢理工大學(xué);2007年

    8 劉宏偉;搜索引擎中中文WEB文本自動分類研究[D];暨南大學(xué);2007年

    9 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長春理工大學(xué);2010年

    10 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年


      本文關(guān)鍵詞:基于多級Hash分詞的全文搜索引擎的研究,,由筆耕文化傳播整理發(fā)布。



    本文編號:119432

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/119432.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶d85fb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
    妻子的新妈妈中文字幕| 日韩人妻免费视频一专区| 少妇激情在线免费观看| 午夜福利大片亚洲一区| 女人精品内射国产99| 日韩特级黄片免费在线观看 | 99国产成人免费一区二区| 日韩在线精品视频观看| 中文字幕亚洲视频一区二区| 黑丝袜美女老师的小逼逼| 好吊日视频这里都是精品| 精品国模一区二区三区欧美| 日本久久精品在线观看| 日韩欧美高清国内精品| 成人免费在线视频大香蕉| 东京热一二三区在线免| 中文字幕五月婷婷免费| 亚洲国产四季欧美一区| 丝袜诱惑一区二区三区| 日本91在线观看视频| 老司机精品视频免费入口| 91人人妻人人爽人人狠狠| 欧美成人精品一区二区久久| 黑鬼糟蹋少妇资源在线观看 | 国产亚洲神马午夜福利| 亚洲综合色婷婷七月丁香| 国产精品久久久久久久久久久痴汉| 伊人网免费在线观看高清版 | 日韩人妻av中文字幕| 国产欧美日韩精品一区二区| 久久福利视频视频一区二区| 亚洲精品福利视频在线观看| 三级理论午夜福利在线看| 视频一区日韩经典中文字幕| 免费在线观看欧美喷水黄片| 99免费人成看国产片| 激情亚洲内射一区二区三区| 麻豆最新出品国产精品| 国产传媒一区二区三区| 亚洲精品日韩欧美精品| 欧美成人高清在线播放|