基于雙分詞器的醫(yī)療類網(wǎng)站站內搜索研究與實現(xiàn)
發(fā)布時間:2017-04-06 04:00
本文關鍵詞:基于雙分詞器的醫(yī)療類網(wǎng)站站內搜索研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:站內搜索引擎技術是搜索引擎技術的一個重要分支,專門適用于醫(yī)療信息類網(wǎng)站的站內搜索引擎可以幫助醫(yī)生和患者更加快捷方便的查找和定位信息,同時,針對適用于醫(yī)療信息類網(wǎng)站站內搜索性能指標需要更高于通用搜索引擎的特點,本文研究設計并實現(xiàn)一個適用于醫(yī)療信息類網(wǎng)站的基于雙分詞器的站內搜索系統(tǒng)具有一定的研究價值和實用價值。 本文開篇介紹了研究的背景和意義,并隨后介紹了站內搜索的相關知識及一般構建站內搜索引擎的幾種方式。通過對比分析,選擇使用通用搜索引擎技術來解決適用于醫(yī)療信息類網(wǎng)站的站內搜索問題。緊接著,,進一步介紹了通用搜索引擎及通用搜索中的關鍵技術。然后,介紹了幾種用戶搭建通用搜索引擎的兩種方式,并通過對比分析,選擇了使用開源全文搜索引擎框架Nutch來二次開發(fā)實現(xiàn)適用于醫(yī)療信息類網(wǎng)站站內搜索引擎;谝陨系难芯亢头治,本文主要做了以下兩分面的工作: 首先,本文根據(jù)醫(yī)療服務類網(wǎng)站站內最重要信息基本與醫(yī)生和疾病及癥狀相關的特點,以及用戶訪問此類網(wǎng)站查詢信息時輸入查詢條件基本是醫(yī)生與疾病癥狀關鍵字的結合的查詢習慣,在對開源搜索引擎框架Nutch進行了定制和二次開發(fā)的基礎上,針對通用站內搜索無法正確處理錯別字查詢條件、拼音查詢條件以及在通用站內搜索中排序合理性較差等問題,提出了一種基于雙分詞器的醫(yī)療類網(wǎng)站站內搜索模型。該模型將Nutch默認中文分詞器替換為基于字典庫的庖丁分詞器(Paoding-Tokenizer)并擴展其字典庫,同時嵌入另一個擁有特殊字典的自己編寫的分詞器,并且利用這個特殊分詞器來處理幾乎全部的用戶輸入,切分出輸入中的醫(yī)生姓名和疾病及癥狀名稱關鍵字,并忽略其他的無關信息,僅將這些關鍵字提交給索引器去檢索索引庫。 其次,本文對基于雙分詞的站內搜索模型和單分詞器的傳統(tǒng)站內搜索模型進行了詳細的對比實驗,實驗內容不僅包括常規(guī)的查詢時間、查準率、排序合理性參數(shù)等搜索引擎性能指標,還詳細分析了不同類別關鍵詞組成的長查詢語句在兩種站內搜索引擎模型下的性能表現(xiàn),從而得出基于雙分詞器的站內搜索模型在長查詢語句條件下相比傳統(tǒng)單分詞器搜索模型在搜索引擎性能指標上表現(xiàn)的更有優(yōu)勢。除此之外,對基于雙分詞的站內搜索模型是否可以正確理解拼音查詢和由拼音引起的錯別字查詢進行了實驗分析,實驗表明該站內搜索系統(tǒng)是可以對上述兩類查詢進行正確的處理的。
【關鍵詞】:醫(yī)療類網(wǎng)站 站內搜索 雙分詞器結構 拼音檢索 搜索排序
【學位授予單位】:鄭州大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092;TP391.3
【目錄】:
- 摘要4-6
- Abstract6-13
- 1 緒論13-17
- 1.1 研究背景和意義13-14
- 1.2 國內外研究現(xiàn)狀14
- 1.3 本文研究內容14-15
- 1.4 本文組織結構15-17
- 2 站內搜索及通用搜索引擎關鍵技術17-26
- 2.1 站內搜索概述17-19
- 2.1.1 站內搜索引擎的實現(xiàn)技術17-18
- 2.1.2 方案選擇及優(yōu)勢18-19
- 2.2 通用搜索引擎的發(fā)展及分類19-21
- 2.2.1 通用搜索引擎的發(fā)展19-20
- 2.2.2 通用搜索引擎的分類20-21
- 2.3 通用搜索引擎的組成21-23
- 2.4 通用搜索引擎中的關鍵技術23-25
- 2.4.1 搜索引擎中的分詞技術23-24
- 2.4.2 通用搜索引擎中的排序技術24-25
- 2.5 本章小結25-26
- 3 通用搜索搭建方式介紹及原生系統(tǒng)搭建26-38
- 3.1 用戶搭建通用搜索的主要技術路線26-27
- 3.1.1 多開源工具的結合26
- 3.1.2 開源搜索引擎框架26-27
- 3.1.3 兩種構建方式對比27
- 3.2 Nutch 簡介27-32
- 3.2.1 Nutch 架構27-29
- 3.2.2 Nutch 工作原理及流程29-30
- 3.2.3 Nutch 插件機制30-32
- 3.3 原生 Nutch 系統(tǒng)的實現(xiàn)32-37
- 3.3.1 Nutch 運行環(huán)境搭建32
- 3.3.2 Nutch 基本配置32-33
- 3.3.3 Nutch 抓取頁面配置與執(zhí)行33
- 3.3.4 Nutch 在 Tomcat 下配置33-37
- 3.4 本章小結37-38
- 4 基于雙分詞器站內搜索系統(tǒng)實現(xiàn)38-51
- 4.1 原生系統(tǒng)的不足38-41
- 4.1.1 單字切分的分詞程序38
- 4.1.2 低效復雜的 Nutch 排序算法38-41
- 4.2 基于雙分詞器站內搜索模型的提出41-44
- 4.2.1 對用戶輸入查詢的分析41-42
- 4.2.2 基于雙分詞器站內搜索模型定義42-44
- 4.3 基于雙分詞器站內搜索模型的實現(xiàn)44-50
- 4.3.1 模型中 StandardTokenizer 的實現(xiàn)44-47
- 4.3.2 模型中 SpecialTokenizer 的實現(xiàn)47-50
- 4.4 本章小結50-51
- 5 對比實驗51-60
- 5.1 查詢結果數(shù)和查詢時間對比51-54
- 5.2 查準率和排序合理性對比54-58
- 5.3 拼音及模糊查詢對比58-59
- 5.4 本章小結59-60
- 6 總結與展望60-62
- 6.1 本文工作總結60-61
- 6.2 下一步工作展望61-62
- 參考文獻62-63
- 致謝63
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 翟鳳文;赫楓齡;左萬利;;字典與統(tǒng)計相結合的中文分詞方法[J];小型微型計算機系統(tǒng);2006年09期
2 朱潛;吳辰鈮;朱志良;劉洪娟;;Hadoop云平臺下Nutch中文分詞的研究與實現(xiàn)[J];小型微型計算機系統(tǒng);2013年12期
本文關鍵詞:基于雙分詞器的醫(yī)療類網(wǎng)站站內搜索研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:288184
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/288184.html
最近更新
教材專著