天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于文本挖掘的輕量級(jí)搜索引擎

發(fā)布時(shí)間:2017-05-23 20:02

  本文關(guān)鍵詞:基于文本挖掘的輕量級(jí)搜索引擎,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的信息總量在人類進(jìn)入互聯(lián)網(wǎng)時(shí)代后出現(xiàn)了爆炸式的增長(zhǎng),一般的跨國(guó)互聯(lián)網(wǎng)的公司每天的數(shù)據(jù)吞吐量都在幾十PB,如何有效的利用這些信息資源日益成為人們關(guān)注和研究的焦點(diǎn);ヂ(lián)網(wǎng)的信息的數(shù)據(jù)格式也從web2.0時(shí)代可以呈現(xiàn)了多樣化的發(fā)展,有視頻,音頻,鏈接和圖像等等。如何在面對(duì)著這些海量信息時(shí)候,很好的利用這些信息,并且挖掘出對(duì)自己有用的資料或者信息是互聯(lián)網(wǎng)IT公司所面臨的重大問題,因此,一個(gè)性能優(yōu)越可以承擔(dān)數(shù)億網(wǎng)名的訪問量的的搜索引擎就顯得非常必要。搜索引擎就是為了解決這樣的難題應(yīng)用而生。通過網(wǎng)絡(luò)爬蟲獲取大量的相關(guān)資料和信息,采用機(jī)器學(xué)習(xí)或者數(shù)據(jù)挖掘的算法進(jìn)行數(shù)據(jù)挖掘,進(jìn)一步分類和提取,將用戶最想要的搜索信息返回給用戶。搜索引擎作為互聯(lián)網(wǎng)發(fā)展至關(guān)重要的一種應(yīng)用,已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn),搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應(yīng)用中不多見的以核心技術(shù)為其命脈的領(lǐng)域。當(dāng)今時(shí)代比較成功的商業(yè)搜索引擎是美國(guó)的Google搜索引擎,其次緊隨其后是最大的中文搜索引擎中國(guó)的百度公司。美國(guó)微軟公司和雅虎合作推出的必應(yīng)搜索引擎也在美國(guó)占據(jù)了30%的市場(chǎng)份額,目前中國(guó)奇虎公司在中國(guó)的市場(chǎng)份額僅次于百度,也是一個(gè)異軍突起的新生搜索引擎,上述的搜索引擎基本構(gòu)成了主流的成功的并且成熟的商業(yè)搜索引擎。目前主流搜索引擎主要使用的Memcache緩存系統(tǒng)已經(jīng)出現(xiàn)了性能瓶頸,一些公司幾千臺(tái)的Memcached集群很常見Memcached和redis都基于內(nèi)存,Memcached偏向cache,Redis更多扮演數(shù)據(jù)庫的角色,支持更豐富的數(shù)據(jù)類型;論到單個(gè)核上的性能,在單條數(shù)據(jù)不大的情況下,Redis會(huì)更好。因?yàn)镽edis是單線程的,只能使用一個(gè)核。而Memcached是多線程的,所以對(duì)一個(gè)實(shí)例來說,性能上肯定是Redis占優(yōu)勢(shì)。Redis和Memcached不同的地方在于前者并沒有選擇libevent。libevent為了迎合通用性造成代碼龐大(目前Redis代碼還不到libevent的1/3)及犧牲了在特定平臺(tái)的不少性能。Redis用libevent中兩個(gè)文件修改實(shí)現(xiàn)了自己的epoll event loop。所以本論文采用的Redis更多扮演的是數(shù)據(jù)庫的功能,其自帶數(shù)據(jù)持久化。在小型數(shù)據(jù)量和單線程模式的效率是遠(yuǎn)遠(yuǎn)領(lǐng)先于傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)Memcached內(nèi)存對(duì)象緩存系統(tǒng)。本論文的引擎屬于目錄式的搜索引擎,重點(diǎn)著力解決上述緩存和性能優(yōu)化問題。主要用于為某中小學(xué)教育資源網(wǎng)站提供資源搜索服務(wù)。從架構(gòu)設(shè)計(jì)模式到底層細(xì)節(jié)各個(gè)層次優(yōu)化如下:(1) 系統(tǒng)架構(gòu)層面,采用TCP傳輸協(xié)議和Epoll多路轉(zhuǎn)接。傳統(tǒng)的搜索引擎基于POSIX平臺(tái)的服務(wù)器采用UDP傳輸協(xié)議和poll的I/O多路轉(zhuǎn)接,連接不穩(wěn)定,傳輸數(shù)據(jù)不可靠,系統(tǒng)層面因?yàn)閜oll多次執(zhí)行系統(tǒng)態(tài)到內(nèi)核態(tài)的拷貝,資源消耗巨大。而本論文的連接可靠穩(wěn)定,監(jiān)聽輪詢大大降低了服務(wù)器負(fù)載。從架構(gòu)執(zhí)行層面要優(yōu)于傳統(tǒng)的搜索引擎。(2)改進(jìn)了距離編輯算法,并且應(yīng)用到中文中,使得用戶搜索詞糾錯(cuò)機(jī)制可以實(shí)現(xiàn)中文文本糾錯(cuò),進(jìn)行糾錯(cuò)及聯(lián)想推薦,提供候選詞集,降低用戶學(xué)習(xí)成本和提高用戶的工作效率,而傳統(tǒng)的搜索引擎沒有提供糾錯(cuò)候選項(xiàng)和糾錯(cuò)功能。(3) 改進(jìn)了傳統(tǒng)的索引技術(shù),提出了內(nèi)存磁盤協(xié)同并行索引改進(jìn)算法,可以迅速精準(zhǔn)定位到網(wǎng)頁庫中的用戶查詢文檔,同時(shí)在文本挖掘的過程中計(jì)算網(wǎng)頁文檔關(guān)聯(lián)度上提高了效率,也節(jié)省了內(nèi)存消耗。(4) 處理用戶歷史查詢記錄緩存時(shí)采用Redis這種基于內(nèi)存可持久化,日志型的數(shù)據(jù)庫取代傳統(tǒng)的Memcached分布式高速緩存系統(tǒng),提升緩存的處理效率。(5)采用Hash Map,處理數(shù)據(jù)庫,相對(duì)于傳統(tǒng)的Map,數(shù)據(jù)的存儲(chǔ)和查找時(shí)間消耗大大降低。實(shí)驗(yàn)數(shù)據(jù)主要采用復(fù)旦大學(xué)語料庫。實(shí)驗(yàn)測(cè)試方法為橫向縱向?qū)Ρ葴y(cè)試,最后實(shí)驗(yàn)測(cè)試結(jié)果顯示:?jiǎn)未畏⻊?wù)平均時(shí)間從5ms以上縮短到不到1ms,實(shí)際性能提升近100倍。
【關(guān)鍵詞】:Linux 搜索引擎 TCP 多線程 Redis
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要5-7
  • Abstract7-9
  • 第1章 緒論9-19
  • 1.1 研究背景和意義9-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-17
  • 1.2.1 微軟必應(yīng)搜索引擎11-12
  • 1.2.2 谷歌搜索引擎12-13
  • 1.2.3 360搜索引擎13-14
  • 1.2.4 百度搜索引擎14-17
  • 1.3 本論文研究?jī)?nèi)容和特色17
  • 1.4 論文組織結(jié)構(gòu)17-19
  • 第2章 相關(guān)理論19-27
  • 2.1 文本挖掘19-20
  • 2.1.1 文本挖掘的概念19
  • 2.1.2 文本挖掘的過程19-20
  • 2.1.3 文本挖掘關(guān)鍵技術(shù)和文本關(guān)聯(lián)分析20
  • 2.2 搜索引擎20-25
  • 2.2.1 倒排索引技術(shù)21-22
  • 2.2.2 關(guān)鍵詞tf-idf權(quán)重22-23
  • 2.2.3 搜索引擎的性能評(píng)價(jià)指標(biāo)23-25
  • 2.3 本章小結(jié)25-27
  • 第3章 基于文本挖掘的搜索引擎系統(tǒng)27-35
  • 3.1 文本相似度(關(guān)聯(lián)度)的挖掘27-29
  • 3.1.1 分詞27
  • 3.1.2 生成兩篇文檔的單詞集合27-28
  • 3.1.3 合并兩篇文檔的單詞集合28
  • 3.1.4 生成兩篇文檔的特征向量28
  • 3.1.5 計(jì)算兩篇文檔的余弦相似度28-29
  • 3.2 建立搜索引擎的索引29-32
  • 3.2.1 建立詞典倒排索引29-30
  • 3.2.2 建立單詞和網(wǎng)頁的倒排索引30-31
  • 3.2.3 建立頁面單詞權(quán)重索引和頁面模索引31-32
  • 3.3 處理用戶查詢32-33
  • 3.3.1 查詢?cè)~糾錯(cuò)32
  • 3.3.2 找到包含用戶查詢?cè)~的文檔集合32
  • 3.3.3 對(duì)候選文檔集合進(jìn)行排序32-33
  • 3.4 本章小結(jié)33-35
  • 第4章 輕量級(jí)搜索引擎的性能優(yōu)化35-43
  • 4.1 利用epoll模型代替?zhèn)鹘y(tǒng)的select,poll模型35-36
  • 4.2 建立用戶查詢歷史紀(jì)錄緩存36-38
  • 4.2.1 查詢?cè)~糾錯(cuò)結(jié)果緩存36-37
  • 4.2.2 查詢?cè)~和標(biāo)題摘要緩存37
  • 4.2.3 標(biāo)題和標(biāo)題對(duì)應(yīng)的內(nèi)容緩存37-38
  • 4.3 改進(jìn)傳統(tǒng)的距離編輯算法38-40
  • 4.4 改進(jìn)搜索引擎的索引算法40-42
  • 4.4.1 實(shí)現(xiàn)方法和算法40-42
  • 4.4.2 改進(jìn)算法試驗(yàn)結(jié)果與分析42
  • 4.5 使用多線程取代多進(jìn)程42
  • 4.6 本章小結(jié)42-43
  • 第5章 搜索引擎系統(tǒng)實(shí)現(xiàn)43-53
  • 5.1 系統(tǒng)結(jié)構(gòu)和運(yùn)行流程圖43-44
  • 5.2 相關(guān)類及其說明44-49
  • 5.3 功能說明49-52
  • 5.3.1 主線程49-50
  • 5.3.2 工作線程工作流程50-51
  • 5.3.3 緩存線程管理系統(tǒng)緩存51-52
  • 5.3.4 查詢流程52
  • 5.4 本章小結(jié)52-53
  • 第6章 實(shí)驗(yàn)及結(jié)果分析53-57
  • 6.1 處理漢字的編輯距離53
  • 6.2 建立磁盤緩存文件53
  • 6.3 網(wǎng)頁搜索53-54
  • 6.3.1 建立倒排索引53-54
  • 6.3.2 網(wǎng)頁查詢功能測(cè)試54
  • 6.3.3 加入緩存管理線程管理歷史記錄緩存54
  • 6.4 論文實(shí)驗(yàn)過程中遇到的疑難問題和解決方案54-55
  • 6.5 本章小結(jié)55-57
  • 第7章 總結(jié)和展望57-59
  • 參考文獻(xiàn)59-63
  • 致謝63-65
  • 在校期間發(fā)表的論文65

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫 前1條

1 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期


  本文關(guān)鍵詞:基于文本挖掘的輕量級(jí)搜索引擎,由筆耕文化傳播整理發(fā)布。



本文編號(hào):388939

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/388939.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c87d7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com