天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于文本挖掘的輕量級搜索引擎

發(fā)布時間:2017-05-23 20:02

  本文關(guān)鍵詞:基于文本挖掘的輕量級搜索引擎,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的信息總量在人類進入互聯(lián)網(wǎng)時代后出現(xiàn)了爆炸式的增長,一般的跨國互聯(lián)網(wǎng)的公司每天的數(shù)據(jù)吞吐量都在幾十PB,如何有效的利用這些信息資源日益成為人們關(guān)注和研究的焦點。互聯(lián)網(wǎng)的信息的數(shù)據(jù)格式也從web2.0時代可以呈現(xiàn)了多樣化的發(fā)展,有視頻,音頻,鏈接和圖像等等。如何在面對著這些海量信息時候,很好的利用這些信息,并且挖掘出對自己有用的資料或者信息是互聯(lián)網(wǎng)IT公司所面臨的重大問題,因此,一個性能優(yōu)越可以承擔(dān)數(shù)億網(wǎng)名的訪問量的的搜索引擎就顯得非常必要。搜索引擎就是為了解決這樣的難題應(yīng)用而生。通過網(wǎng)絡(luò)爬蟲獲取大量的相關(guān)資料和信息,采用機器學(xué)習(xí)或者數(shù)據(jù)挖掘的算法進行數(shù)據(jù)挖掘,進一步分類和提取,將用戶最想要的搜索信息返回給用戶。搜索引擎作為互聯(lián)網(wǎng)發(fā)展至關(guān)重要的一種應(yīng)用,已經(jīng)成為互聯(lián)網(wǎng)各個領(lǐng)域的制高點,搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應(yīng)用中不多見的以核心技術(shù)為其命脈的領(lǐng)域。當(dāng)今時代比較成功的商業(yè)搜索引擎是美國的Google搜索引擎,其次緊隨其后是最大的中文搜索引擎中國的百度公司。美國微軟公司和雅虎合作推出的必應(yīng)搜索引擎也在美國占據(jù)了30%的市場份額,目前中國奇虎公司在中國的市場份額僅次于百度,也是一個異軍突起的新生搜索引擎,上述的搜索引擎基本構(gòu)成了主流的成功的并且成熟的商業(yè)搜索引擎。目前主流搜索引擎主要使用的Memcache緩存系統(tǒng)已經(jīng)出現(xiàn)了性能瓶頸,一些公司幾千臺的Memcached集群很常見Memcached和redis都基于內(nèi)存,Memcached偏向cache,Redis更多扮演數(shù)據(jù)庫的角色,支持更豐富的數(shù)據(jù)類型;論到單個核上的性能,在單條數(shù)據(jù)不大的情況下,Redis會更好。因為Redis是單線程的,只能使用一個核。而Memcached是多線程的,所以對一個實例來說,性能上肯定是Redis占優(yōu)勢。Redis和Memcached不同的地方在于前者并沒有選擇libevent。libevent為了迎合通用性造成代碼龐大(目前Redis代碼還不到libevent的1/3)及犧牲了在特定平臺的不少性能。Redis用libevent中兩個文件修改實現(xiàn)了自己的epoll event loop。所以本論文采用的Redis更多扮演的是數(shù)據(jù)庫的功能,其自帶數(shù)據(jù)持久化。在小型數(shù)據(jù)量和單線程模式的效率是遠遠領(lǐng)先于傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)Memcached內(nèi)存對象緩存系統(tǒng)。本論文的引擎屬于目錄式的搜索引擎,重點著力解決上述緩存和性能優(yōu)化問題。主要用于為某中小學(xué)教育資源網(wǎng)站提供資源搜索服務(wù)。從架構(gòu)設(shè)計模式到底層細節(jié)各個層次優(yōu)化如下:(1) 系統(tǒng)架構(gòu)層面,采用TCP傳輸協(xié)議和Epoll多路轉(zhuǎn)接。傳統(tǒng)的搜索引擎基于POSIX平臺的服務(wù)器采用UDP傳輸協(xié)議和poll的I/O多路轉(zhuǎn)接,連接不穩(wěn)定,傳輸數(shù)據(jù)不可靠,系統(tǒng)層面因為poll多次執(zhí)行系統(tǒng)態(tài)到內(nèi)核態(tài)的拷貝,資源消耗巨大。而本論文的連接可靠穩(wěn)定,監(jiān)聽輪詢大大降低了服務(wù)器負載。從架構(gòu)執(zhí)行層面要優(yōu)于傳統(tǒng)的搜索引擎。(2)改進了距離編輯算法,并且應(yīng)用到中文中,使得用戶搜索詞糾錯機制可以實現(xiàn)中文文本糾錯,進行糾錯及聯(lián)想推薦,提供候選詞集,降低用戶學(xué)習(xí)成本和提高用戶的工作效率,而傳統(tǒng)的搜索引擎沒有提供糾錯候選項和糾錯功能。(3) 改進了傳統(tǒng)的索引技術(shù),提出了內(nèi)存磁盤協(xié)同并行索引改進算法,可以迅速精準定位到網(wǎng)頁庫中的用戶查詢文檔,同時在文本挖掘的過程中計算網(wǎng)頁文檔關(guān)聯(lián)度上提高了效率,也節(jié)省了內(nèi)存消耗。(4) 處理用戶歷史查詢記錄緩存時采用Redis這種基于內(nèi)存可持久化,日志型的數(shù)據(jù)庫取代傳統(tǒng)的Memcached分布式高速緩存系統(tǒng),提升緩存的處理效率。(5)采用Hash Map,處理數(shù)據(jù)庫,相對于傳統(tǒng)的Map,數(shù)據(jù)的存儲和查找時間消耗大大降低。實驗數(shù)據(jù)主要采用復(fù)旦大學(xué)語料庫。實驗測試方法為橫向縱向?qū)Ρ葴y試,最后實驗測試結(jié)果顯示:單次服務(wù)平均時間從5ms以上縮短到不到1ms,實際性能提升近100倍。
【關(guān)鍵詞】:Linux 搜索引擎 TCP 多線程 Redis
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
  • 摘要5-7
  • Abstract7-9
  • 第1章 緒論9-19
  • 1.1 研究背景和意義9-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-17
  • 1.2.1 微軟必應(yīng)搜索引擎11-12
  • 1.2.2 谷歌搜索引擎12-13
  • 1.2.3 360搜索引擎13-14
  • 1.2.4 百度搜索引擎14-17
  • 1.3 本論文研究內(nèi)容和特色17
  • 1.4 論文組織結(jié)構(gòu)17-19
  • 第2章 相關(guān)理論19-27
  • 2.1 文本挖掘19-20
  • 2.1.1 文本挖掘的概念19
  • 2.1.2 文本挖掘的過程19-20
  • 2.1.3 文本挖掘關(guān)鍵技術(shù)和文本關(guān)聯(lián)分析20
  • 2.2 搜索引擎20-25
  • 2.2.1 倒排索引技術(shù)21-22
  • 2.2.2 關(guān)鍵詞tf-idf權(quán)重22-23
  • 2.2.3 搜索引擎的性能評價指標23-25
  • 2.3 本章小結(jié)25-27
  • 第3章 基于文本挖掘的搜索引擎系統(tǒng)27-35
  • 3.1 文本相似度(關(guān)聯(lián)度)的挖掘27-29
  • 3.1.1 分詞27
  • 3.1.2 生成兩篇文檔的單詞集合27-28
  • 3.1.3 合并兩篇文檔的單詞集合28
  • 3.1.4 生成兩篇文檔的特征向量28
  • 3.1.5 計算兩篇文檔的余弦相似度28-29
  • 3.2 建立搜索引擎的索引29-32
  • 3.2.1 建立詞典倒排索引29-30
  • 3.2.2 建立單詞和網(wǎng)頁的倒排索引30-31
  • 3.2.3 建立頁面單詞權(quán)重索引和頁面模索引31-32
  • 3.3 處理用戶查詢32-33
  • 3.3.1 查詢詞糾錯32
  • 3.3.2 找到包含用戶查詢詞的文檔集合32
  • 3.3.3 對候選文檔集合進行排序32-33
  • 3.4 本章小結(jié)33-35
  • 第4章 輕量級搜索引擎的性能優(yōu)化35-43
  • 4.1 利用epoll模型代替?zhèn)鹘y(tǒng)的select,poll模型35-36
  • 4.2 建立用戶查詢歷史紀錄緩存36-38
  • 4.2.1 查詢詞糾錯結(jié)果緩存36-37
  • 4.2.2 查詢詞和標題摘要緩存37
  • 4.2.3 標題和標題對應(yīng)的內(nèi)容緩存37-38
  • 4.3 改進傳統(tǒng)的距離編輯算法38-40
  • 4.4 改進搜索引擎的索引算法40-42
  • 4.4.1 實現(xiàn)方法和算法40-42
  • 4.4.2 改進算法試驗結(jié)果與分析42
  • 4.5 使用多線程取代多進程42
  • 4.6 本章小結(jié)42-43
  • 第5章 搜索引擎系統(tǒng)實現(xiàn)43-53
  • 5.1 系統(tǒng)結(jié)構(gòu)和運行流程圖43-44
  • 5.2 相關(guān)類及其說明44-49
  • 5.3 功能說明49-52
  • 5.3.1 主線程49-50
  • 5.3.2 工作線程工作流程50-51
  • 5.3.3 緩存線程管理系統(tǒng)緩存51-52
  • 5.3.4 查詢流程52
  • 5.4 本章小結(jié)52-53
  • 第6章 實驗及結(jié)果分析53-57
  • 6.1 處理漢字的編輯距離53
  • 6.2 建立磁盤緩存文件53
  • 6.3 網(wǎng)頁搜索53-54
  • 6.3.1 建立倒排索引53-54
  • 6.3.2 網(wǎng)頁查詢功能測試54
  • 6.3.3 加入緩存管理線程管理歷史記錄緩存54
  • 6.4 論文實驗過程中遇到的疑難問題和解決方案54-55
  • 6.5 本章小結(jié)55-57
  • 第7章 總結(jié)和展望57-59
  • 參考文獻59-63
  • 致謝63-65
  • 在校期間發(fā)表的論文65

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J];計算機應(yīng)用研究;2001年09期


  本文關(guān)鍵詞:基于文本挖掘的輕量級搜索引擎,由筆耕文化傳播整理發(fā)布。

,

本文編號:388939

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/388939.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c87d7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com