天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于自然語(yǔ)言理解的中文搜索引擎

發(fā)布時(shí)間:2016-06-09 09:02

  本文關(guān)鍵詞:基于自然語(yǔ)言理解的中文搜索引擎,由筆耕文化傳播整理發(fā)布。


《河北科技大學(xué)》 2011年

基于自然語(yǔ)言理解的中文搜索引擎

劉海濤  

【摘要】:進(jìn)入21世紀(jì),“信息爆炸”時(shí)代已經(jīng)到來。海量信息的產(chǎn)生和存儲(chǔ)一方面豐富了網(wǎng)絡(luò)資源給人們的生活帶來了極大的便利;另一方面,信息的過濾、篩選成為了人們合理利用信息的重要方面。搜索引擎就是一種幫助人們?cè)诤棋木W(wǎng)絡(luò)資源中尋找所需信息的工具。本文對(duì)中文搜索引擎的設(shè)計(jì)和開發(fā)進(jìn)行了深入研究,并以高等藝術(shù)教育網(wǎng)站作為平臺(tái)實(shí)現(xiàn)了支持中文自然語(yǔ)言理解的搜索引擎。 為了用戶方便的使用搜索引擎尋找互聯(lián)網(wǎng)上的信息,搜索引擎的使用方法應(yīng)當(dāng)更加人性化,并可以為不同領(lǐng)域的非計(jì)算機(jī)專業(yè)人員提供便利。人們?cè)絹碓较M梢允褂萌祟愃莆、熟悉的自然語(yǔ)言操控計(jì)算機(jī)程序。帶有自然語(yǔ)言理解的搜索引擎自然成為了一個(gè)重要的研究方向。本文所研究目的就是使得搜索引擎可以在一定程度上理解人類的自然語(yǔ)言,從自然語(yǔ)言中抽取出關(guān)鍵內(nèi)容并用于檢索,最終達(dá)到搜索引擎和自然語(yǔ)言用戶之間的良好銜接,可以在兩者之間建立起更高效,更深層的信息傳遞。 本文使用Lucene作為研究平臺(tái),在此基礎(chǔ)上開發(fā)出帶有自然語(yǔ)言理解的高等藝術(shù)教育網(wǎng)站的搜索引擎。中文文本的特點(diǎn)是沒有空格作為詞匯與詞匯之間的間隔,因此本文采用了詞庫(kù)匹配的方法對(duì)自然語(yǔ)言文本進(jìn)新了分詞。在詞典的設(shè)計(jì)上,我們采用了以首字為鍵的散列表結(jié)構(gòu)。在進(jìn)行查詢結(jié)果的排序時(shí),將用戶輸入的文本和現(xiàn)有的文本都映射成一個(gè)n維的向量,然后在兩個(gè)向量之間定義了相似性的度量方法,并按照該方法對(duì)搜索引擎的返回結(jié)果進(jìn)行排序。在實(shí)現(xiàn)時(shí),網(wǎng)站的整體架構(gòu)使用Java語(yǔ)言平臺(tái),但是其中也有一些功能模塊以C++語(yǔ)言編寫的DLL形式實(shí)現(xiàn)。因此還對(duì)Java平臺(tái)調(diào)用DLL的方式方法進(jìn)行了研究。 最后,我們對(duì)該搜索引擎的性能進(jìn)行了實(shí)驗(yàn)性的驗(yàn)證,最終的試驗(yàn)結(jié)果表明該設(shè)計(jì)思路是可行的,實(shí)際應(yīng)用是有效的,它有效地提高了搜索引擎檢索出的信息的質(zhì)量以及顯著增強(qiáng)了搜索引擎的交互能力。

【關(guān)鍵詞】:
【學(xué)位授予單位】:河北科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP391.3
【目錄】:

  • 摘要4-5
  • Abstract5-8
  • 第1章 緒論8-13
  • 1.1 課題研究的背景及意義8-9
  • 1.1.1 課題研究的背景8-9
  • 1.1.2 課題研究的意義9
  • 1.2 搜索引擎研究現(xiàn)狀分析9-11
  • 1.2.1 搜索引擎的發(fā)展歷史9-10
  • 1.2.2 搜索引擎的基本分類10-11
  • 1.3 本文主要研究?jī)?nèi)容11-12
  • 1.4 論文結(jié)構(gòu)安排12-13
  • 第2章 搜索引擎技術(shù)研究13-20
  • 2.1 全文搜索引擎13-14
  • 2.2 Lucene 的內(nèi)部架構(gòu)14-15
  • 2.3 Lucene 信息流解析15-16
  • 2.4 Lucene 文件索引16-18
  • 2.4.1 Lucene 中的數(shù)據(jù)類型16
  • 2.4.2 Lucene 索引文件組織結(jié)構(gòu)16-18
  • 2.5 文件搜索模型18-19
  • 2.5.1 布爾模型18-19
  • 2.5.2 擴(kuò)展的布爾模型19
  • 2.5.3 概率模型19
  • 2.5.4 向量空間模型19
  • 2.6 本章小結(jié)19-20
  • 第3章 自然語(yǔ)言理解研究20-26
  • 3.1 自然語(yǔ)言理解簡(jiǎn)介20-21
  • 3.2 基于自然語(yǔ)言理解的搜索引擎21-24
  • 3.2.1 自然語(yǔ)言理解查詢22-23
  • 3.2.2 自然語(yǔ)言理解的流程23-24
  • 3.3 智能化查詢的交互24-25
  • 3.4 本章小結(jié)25-26
  • 第4章 基于自然語(yǔ)言處理的搜索引擎模型的實(shí)現(xiàn)及其相關(guān)技術(shù)26-47
  • 4.1 高等藝術(shù)教育網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)26-31
  • 4.1.1 高等藝術(shù)教育網(wǎng)站總體設(shè)計(jì)26-27
  • 4.1.2 高等藝術(shù)教育網(wǎng)站詳細(xì)設(shè)計(jì)27-31
  • 4.2 Lucene 的內(nèi)置搜索模塊31-36
  • 4.2.1 Lucene 詞匯分析器32-35
  • 4.2.2 Lucene 的中文詞匯分析器35-36
  • 4.3 Lucene 的中文搜索引擎實(shí)現(xiàn)36-40
  • 4.3.1 Lucene 中文分詞方法36-37
  • 4.3.2 高等藝術(shù)教育網(wǎng)站的分詞詞典設(shè)計(jì)37-38
  • 4.3.3 中文分詞器的具體實(shí)現(xiàn)38-40
  • 4.4 自動(dòng)完成模塊的實(shí)現(xiàn)40-43
  • 4.5 在Java 中調(diào)用DLL43-46
  • 4.6 本章小結(jié)46-47
  • 第5章 高等藝術(shù)教育網(wǎng)站的應(yīng)用性能評(píng)估47-55
  • 5.1 網(wǎng)站功能簡(jiǎn)介47
  • 5.2 功能模塊介紹47-49
  • 5.3 高等藝術(shù)教育網(wǎng)站使用性測(cè)試49-53
  • 5.3.1 用戶滿意度調(diào)查50-52
  • 5.3.2 搜索引擎性能測(cè)試52-53
  • 5.4 現(xiàn)有不足和今后的改進(jìn)53-55
  • 結(jié)論55-56
  • 參考文獻(xiàn)56-59
  • 攻讀碩士學(xué)位期間所發(fā)表的論文59-60
  • 致謝60-61
  • 個(gè)人簡(jiǎn)歷61
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 ;中文搜索引擎淺析[J];網(wǎng)絡(luò)與信息;1999年08期

    2 劉立新;;搜索引擎——互聯(lián)網(wǎng)前進(jìn)的動(dòng)力引擎[J];互聯(lián)網(wǎng)天地;2004年10期

    3 ;中文搜索引擎的比較研究[J];軟件世界;2000年10期

    4 ;每周e人[J];每周電腦報(bào);2000年21期

    5 吳鳳玉,柳家英;中文搜索引擎檢索語(yǔ)言研究[J];津圖學(xué)刊;2002年03期

    6 王立群;;搜索比武論輸贏[J];IT時(shí)代周刊;2003年18期

    7 王來儉;;網(wǎng)站推薦之狂搜網(wǎng)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2006年31期

    8 ;2005年搜索引擎發(fā)展及未來展望[J];計(jì)算機(jī)與網(wǎng)絡(luò);2006年02期

    9 林軍;;中文搜索的江湖水很深[J];IT時(shí)代周刊;2009年14期

    10 劉菲菲;;誰(shuí)比谷歌更好用? 五大中文搜索引擎橫評(píng)[J];網(wǎng)絡(luò)與信息;2010年05期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 苗傳江;;HNC理論的句類[A];面向21世紀(jì)的科技進(jìn)步與社會(huì)經(jīng)濟(jì)發(fā)展(上冊(cè))[C];1999年

    2 康海燕;樊孝忠;馬禮;;自然語(yǔ)言理解的檢索技術(shù)在數(shù)字圖書館中的應(yīng)用[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

    3 郭晨;;漢語(yǔ)語(yǔ)音技術(shù)[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年

    4 陳曉紅;何曉潔;李一智;;自然語(yǔ)言理解在智能決策支持系統(tǒng)人機(jī)接口中的應(yīng)用[A];全國(guó)青年管理科學(xué)與系統(tǒng)科學(xué)論文集(第2卷)[C];1993年

    5 樂明;馮志偉;;RST的理論發(fā)展和工程應(yīng)用綜述[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

    6 車萬翔;劉挺;李生;;語(yǔ)義角色標(biāo)注的方法與挑戰(zhàn)[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

    7 車萬翔;劉挺;李生;;自動(dòng)淺層語(yǔ)義分析[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

    8 李成城;;基于修辭結(jié)構(gòu)理論的自動(dòng)文摘研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

    9 樂明;馮志偉;;篇章修辭結(jié)構(gòu)樹庫(kù)概述[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

    10 ;HNC(概念層次網(wǎng)絡(luò))理論[A];中國(guó)中文信息學(xué)會(huì)第六次全國(guó)會(huì)員代表大會(huì)暨成立二十五周年學(xué)術(shù)會(huì)議中文信息處理重大成果匯報(bào)展資料匯編[C];2006年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 上海 朱玉;[N];電子報(bào);2001年

    2 網(wǎng)易公司聯(lián)合首席技術(shù)執(zhí)行官 許良杰;[N];國(guó)際金融報(bào);2000年

    3 雨田;[N];通信產(chǎn)業(yè)報(bào);2000年

    4 記者 孫進(jìn);[N];第一財(cái)經(jīng)日?qǐng)?bào);2010年

    5 李斌;[N];福建日?qǐng)?bào);2000年

    6 孫爽 清華大學(xué)經(jīng)濟(jì)外交研究中心;[N];中國(guó)社會(huì)科學(xué)報(bào);2010年

    7 ;[N];廣州日?qǐng)?bào);2003年

    8 張曉鶯;[N];江蘇科技報(bào);2009年

    9 北京 朱艷;[N];中國(guó)電腦教育報(bào);2000年

    10 本報(bào)記者 李延生;[N];中國(guó)企業(yè)報(bào);2001年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 劉根輝;計(jì)算語(yǔ)用學(xué)基礎(chǔ)理論及其應(yīng)用研究[D];華中科技大學(xué);2005年

    2 張蕾;概念結(jié)構(gòu)及其應(yīng)用[D];西北工業(yè)大學(xué);2001年

    3 樂明;漢語(yǔ)財(cái)經(jīng)評(píng)論的修辭結(jié)構(gòu)標(biāo)注及篇章研究[D];中國(guó)傳媒大學(xué);2006年

    4 楊蕓;漢語(yǔ)隱喻識(shí)別與解釋計(jì)算模型研究[D];廈門大學(xué);2008年

    5 許中衛(wèi);基于雙向搜索的ILP算法構(gòu)建漢語(yǔ)語(yǔ)義自動(dòng)切分系統(tǒng)[D];安徽大學(xué);2006年

    6 朱宏輝;基于知識(shí)驅(qū)動(dòng)的擬人智能控制系統(tǒng)若干關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2006年

    7 劉忠;性質(zhì)語(yǔ)意理論的提出與自然語(yǔ)言理解及其實(shí)現(xiàn)的研究[D];華東師范大學(xué);2004年

    8 段鷹;復(fù)雜生產(chǎn)系統(tǒng)決策若干關(guān)鍵技術(shù)研究[D];重慶大學(xué);2009年

    9 李晗靜;基于自然語(yǔ)言處理的空間概念建模研究[D];哈爾濱工業(yè)大學(xué);2007年

    10 王朝霞;專利知識(shí)獲取及其支持概念創(chuàng)新設(shè)計(jì)的方法研究[D];浙江大學(xué);2009年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 劉海濤;基于自然語(yǔ)言理解的中文搜索引擎[D];河北科技大學(xué);2011年

    2 蔡霞;基于自然語(yǔ)言理解的個(gè)性化Web 數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)方法研究[D];浙江工業(yè)大學(xué);2003年

    3 程培濤;機(jī)械產(chǎn)品設(shè)計(jì)領(lǐng)域自然語(yǔ)言理解中的概念從屬樹研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2005年

    4 王會(huì)彩;面向領(lǐng)域的自然語(yǔ)言理解中歧義處理、控制及其在產(chǎn)品設(shè)計(jì)中的應(yīng)用[D];西安電子科技大學(xué);2010年

    5 焦海濤;機(jī)械設(shè)計(jì)領(lǐng)域自然語(yǔ)言理解知識(shí)庫(kù)構(gòu)建研究[D];西安電子科技大學(xué);2004年

    6 楊俊梅;產(chǎn)品設(shè)計(jì)中含有特殊動(dòng)詞復(fù)合句的自然語(yǔ)言理解的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2005年

    7 李海林;自然語(yǔ)言理解及其在機(jī)務(wù)信息規(guī)范化中的應(yīng)用[D];南京航空航天大學(xué);2004年

    8 億珍珍;面向產(chǎn)品設(shè)計(jì)的自然語(yǔ)言理解語(yǔ)義分析研究[D];西安電子科技大學(xué);2004年

    9 趙亮;自然語(yǔ)言理解中基于本體的概念區(qū)分研究及其在智能儀器設(shè)計(jì)領(lǐng)域的應(yīng)用[D];西安電子科技大學(xué);2011年

    10 胡樹楷;機(jī)械產(chǎn)品設(shè)計(jì)中的自然語(yǔ)言理解復(fù)合句語(yǔ)義分析[D];西安電子科技大學(xué);2005年


      本文關(guān)鍵詞:基于自然語(yǔ)言理解的中文搜索引擎,由筆耕文化傳播整理發(fā)布。

    ,

    本文編號(hào):55136

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/55136.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶1331e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com