天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

新聞垂直搜索引擎中文分詞與網(wǎng)頁(yè)去重的應(yīng)用與研究

發(fā)布時(shí)間:2023-06-03 09:03
  自互聯(lián)網(wǎng)誕生以來(lái),網(wǎng)絡(luò)信息每年幾乎都成指數(shù)量增長(zhǎng)。搜索引擎是人們獲得互聯(lián)網(wǎng)信息的重要工具,但是傳統(tǒng)的搜索引擎利用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)上大規(guī)模的搜集到的信息其中很多信息是完全重復(fù)或近似重復(fù)的,還有很多信息是用戶(hù)不需要的,這樣就加重了用戶(hù)使用搜索引擎的負(fù)擔(dān)。而垂直搜索引擎能夠精確的獲得用戶(hù)關(guān)心的相關(guān)領(lǐng)域信息。垂直搜索引擎不像通用搜索引擎那樣,它僅僅搜集某一特定領(lǐng)域相關(guān)的網(wǎng)頁(yè)內(nèi)容。 本文首先描述了垂直搜索引擎的工作原理,并討論了垂直搜索引擎的幾個(gè)關(guān)鍵技術(shù),主要技術(shù)包括:網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、中文分詞技術(shù)、網(wǎng)頁(yè)預(yù)處理技術(shù)、網(wǎng)頁(yè)去重技術(shù)、索引和檢索技術(shù)等。對(duì)包含這幾項(xiàng)關(guān)鍵技術(shù)的功能模塊進(jìn)行了詳細(xì)描述并進(jìn)行具體實(shí)現(xiàn)。 本文設(shè)計(jì)了一個(gè)多線程網(wǎng)絡(luò)爬蟲(chóng),使其高效的爬取互聯(lián)網(wǎng)資源,并使用布隆過(guò)濾器,用來(lái)排除重復(fù)的url;網(wǎng)頁(yè)主題內(nèi)容提取部分實(shí)現(xiàn)了基于網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)和正則表達(dá)式技術(shù)的算法,和其他網(wǎng)頁(yè)主題內(nèi)容提取技術(shù)相比,性能有所提高;網(wǎng)頁(yè)索引部分,采用Lucene技術(shù),高效的建立了倒排索引庫(kù);研究并分析了中文分詞技術(shù),實(shí)現(xiàn)了基于雙向最大匹配法和基于數(shù)學(xué)統(tǒng)計(jì)分析的兩種歧義消除規(guī)則的算法,試驗(yàn)結(jié)果表明,該算法在歧義消除和正確...

【文章頁(yè)數(shù)】:73 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 課題研究背景及意義
    1.2 國(guó)內(nèi)外的研究現(xiàn)狀
    1.3 目前存在的問(wèn)題
    1.4 研究的目標(biāo)和內(nèi)容
        1.4.1 研究目標(biāo)
        1.4.2 研究?jī)?nèi)容
第二章 垂直搜索引擎的關(guān)鍵技術(shù)
    2.1 垂直搜索引擎工作原理
    2.2 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
        2.2.1 網(wǎng)絡(luò)爬蟲(chóng)的特點(diǎn)
        2.2.2 網(wǎng)絡(luò)爬蟲(chóng)的工作原理
        2.2.3 爬蟲(chóng)搜索策略和算法
    2.3 中文分詞技術(shù)
    2.4 網(wǎng)頁(yè)去重技術(shù)
    2.5 本章小結(jié)
第三章 新聞垂直搜索引擎的的總體方案設(shè)計(jì)
    3.1 系統(tǒng)的需求分析
    3.2 系統(tǒng)設(shè)計(jì)要求
    3.3 系統(tǒng)功能模塊設(shè)計(jì)
        3.3.1 系統(tǒng)工作原理
        3.3.2 系統(tǒng)功能模塊設(shè)計(jì)結(jié)構(gòu)圖
    3.4 本章小結(jié)
第四章 新聞垂直搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    4.1 網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        4.1.1 網(wǎng)絡(luò)爬蟲(chóng)的子系統(tǒng)的技術(shù)分析
        4.1.2 網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)
    4.2 網(wǎng)頁(yè)提取模塊設(shè)計(jì)
        4.2.1 網(wǎng)頁(yè)提取模塊技術(shù)分析
        4.2.2 網(wǎng)頁(yè)提取算法設(shè)計(jì)
        4.2.3 網(wǎng)頁(yè)提取模塊的實(shí)現(xiàn)
    4.3 分詞模塊設(shè)計(jì)
        4.3.1 分詞模塊技術(shù)分析
        4.3.2 分詞算法的設(shè)計(jì)
        4.3.3 分詞算法的實(shí)現(xiàn)
    4.4 網(wǎng)頁(yè)去重設(shè)計(jì)
        4.4.1 網(wǎng)頁(yè)去重模塊技術(shù)分析
        4.4.2 網(wǎng)頁(yè)去重算法設(shè)計(jì)
        4.4.3 網(wǎng)頁(yè)去重模塊的實(shí)現(xiàn)
    4.5 索引模塊設(shè)計(jì)
        4.5.1 索引模塊技術(shù)分析
        4.5.2 索引模塊系統(tǒng)實(shí)現(xiàn)
    4.6 本章小結(jié)
第五章 新聞垂直搜索引擎的試驗(yàn)結(jié)果
    5.1 系統(tǒng)開(kāi)發(fā)平臺(tái)
    5.2 網(wǎng)頁(yè)提取模塊試驗(yàn)結(jié)果及分析
    5.3 索引建立試驗(yàn)結(jié)果
    5.4 中文分詞試驗(yàn)
    5.5 去重模塊試驗(yàn)
    5.6 程序最終運(yùn)行結(jié)果
    5.7 本章小結(jié)
第六章 結(jié)論與展望
    6.1 結(jié)論
    6.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝



本文編號(hào):3829040

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3829040.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)af8b0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com