天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

就業(yè)垂直搜索引擎的架構(gòu)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-04-09 13:29
  互聯(lián)網(wǎng)在近幾十年內(nèi)飛速發(fā)展,網(wǎng)絡(luò)上的信息量爆炸式的增長,如何從這些海量信息中快速準(zhǔn)確地提取有價(jià)值的信息已經(jīng)成為人們關(guān)注的焦點(diǎn)。通用搜索引擎通過將互聯(lián)網(wǎng)上大量的信息整理在一個(gè)平臺(tái)上供用戶使用,極大的提高了瀏覽和工作效率,但是存在網(wǎng)頁失效以及知識(shí)過載的問題。而基于“專、精、深”設(shè)計(jì)的垂直搜索引擎,從一定程度上解決上上述問題。它實(shí)現(xiàn)了搜索引擎領(lǐng)域的行業(yè)化分工,為特定領(lǐng)域有特殊需求的人群提供了有價(jià)值的信息和服務(wù)。近幾年來就業(yè)問題已經(jīng)稱為亟待解決的一個(gè)重要問題,通過便利的通道及時(shí)的獲取招聘就業(yè)信息,必將從一定程度上加大畢業(yè)生就業(yè)的可能。本文針對(duì)這種就業(yè)形勢(shì)并基于垂直搜索引擎的理念設(shè)計(jì)并實(shí)現(xiàn)了就業(yè)垂直搜索引擎。本論文對(duì)搜索引擎以及垂直搜索引擎進(jìn)行了理論性的分析,介紹了其實(shí)現(xiàn)原理以及主要分類,闡述了當(dāng)前搜索引擎存在的主要缺點(diǎn)以及垂直搜索引擎的特點(diǎn),并具體介紹了垂直搜索引擎在設(shè)計(jì)實(shí)現(xiàn)過程中涉及的關(guān)鍵技術(shù),Lucene架構(gòu)以及實(shí)現(xiàn)機(jī)制以及垂直搜索引擎相關(guān)頁面設(shè)計(jì)。在信息采集模塊,設(shè)計(jì)了列表頁爬蟲和信息頁爬蟲兩種聚焦網(wǎng)絡(luò)爬蟲。在信息抽取模塊,采用了基于標(biāo)簽的網(wǎng)頁去噪算法實(shí)現(xiàn)對(duì)正文的提取,并設(shè)計(jì)了基于模版及... 

【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:65 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題研究背景及研究意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 搜索引擎與垂直搜索引擎
        1.2.1 搜索引擎
        1.2.2 搜索引擎的分類
        1.2.3 垂直搜索引擎
    1.3 本文的研究內(nèi)容
    1.4 論文章節(jié)安排
第2章 就業(yè)垂直搜索引擎的相關(guān)技術(shù)
    2.1 信息采集技術(shù)詳解
        2.1.1 網(wǎng)絡(luò)爬蟲的基本概念
        2.1.2 通用網(wǎng)絡(luò)爬蟲
        2.1.3 聚焦網(wǎng)絡(luò)爬蟲
    2.2 信息抽取技術(shù)詳解
        2.2.1 網(wǎng)頁去噪技術(shù)詳解
        2.2.2 網(wǎng)頁結(jié)構(gòu)化信息抽取
    2.3 索引檢索模塊詳解
        2.3.1 Lucene全文檢索框架
        2.3.2 中文分詞
        2.3.3 Lucene中自帶的分詞器
        2.3.4 中文分詞算法及工具包
第3章 信息采集模塊的設(shè)計(jì)與實(shí)現(xiàn)
    3.1 列表頁爬蟲
        3.1.1 列表頁爬蟲的設(shè)計(jì)
        3.1.2 列表頁爬蟲的實(shí)現(xiàn)
    3.2 信息頁爬蟲
第4章 信息抽取模塊的分析與詳細(xì)設(shè)計(jì)
    4.1 網(wǎng)頁去噪
        4.1.1 基本概念
        4.1.2 HTML Parser
        4.1.3 基于標(biāo)簽類別的網(wǎng)頁去噪算法
    4.2 結(jié)構(gòu)化信息抽取
第5章 索引檢索模塊的分析與詳細(xì)設(shè)計(jì)
    5.1 職位信息索引
        5.1.1 索引的建立過程
        5.1.2 中文分詞器的選擇
    5.2 職位信息檢索
        5.2.1 全文檢索
        5.2.2 高級(jí)檢索
    5.3 職位信息索引模塊的實(shí)現(xiàn)
    5.4 職位信息檢索模塊的實(shí)現(xiàn)
第6章 就業(yè)垂直搜索引擎的原型系統(tǒng)
第7章 總結(jié)與展望
    7.1 論文工作總結(jié)
    7.2 本文主要工作和貢獻(xiàn)
    7.3 論文的不足
    7.4 展望進(jìn)一步的工作
參考文獻(xiàn)
致謝
附件


【參考文獻(xiàn)】:
期刊論文
[1]垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 王文鈞,李巍.  情報(bào)科學(xué). 2010(03)
[2]基于最大匹配的中文分詞概率算法研究[J]. 何國斌,趙晶璐.  計(jì)算機(jī)工程. 2010(05)
[3]中文分詞和詞性標(biāo)注模型[J]. 劉遙峰,王志良,王傳經(jīng).  計(jì)算機(jī)工程. 2010(04)
[4]Lucene的全文檢索的研究與應(yīng)用[J]. 李永春,丁華福.  計(jì)算機(jī)技術(shù)與發(fā)展. 2010(02)
[5]基于Lucene的面向主題搜索引擎的索引技術(shù)的研究[J]. 任惠靜.  電腦知識(shí)與技術(shù). 2010(04)
[6]基于自適應(yīng)中文分詞和近似SVM的文本分類算法[J]. 馮永,李華,鐘將,葉春曉.  計(jì)算機(jī)科學(xué). 2010(01)
[7]基于詞邊界分類的中文分詞方法[J]. 李壽山,黃居仁.  中文信息學(xué)報(bào). 2010(01)
[8]歸一化的鄰接變化數(shù)方法在中文分詞中的應(yīng)用[J]. 何賽克,王小捷,董遠(yuǎn),張韜政,白雪.  中文信息學(xué)報(bào). 2010(01)
[9]基于貝葉斯網(wǎng)絡(luò)的二元語法中文分詞模型[J]. 劉丹,方衛(wèi)國,周泓.  計(jì)算機(jī)工程. 2010(01)
[10]基于Ontology的信息抽取研究綜述[J]. 陳靜,朱巧明,貢正仙.  計(jì)算機(jī)技術(shù)與發(fā)展. 2007(10)



本文編號(hào):3127705

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3127705.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶06962***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com