天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

垂直搜索引擎主題特征提取及相關(guān)度算法研究

發(fā)布時(shí)間:2016-06-30 23:05

  本文關(guān)鍵詞:垂直搜索引擎主題特征提取及相關(guān)度算法研究,由筆耕文化傳播整理發(fā)布。


《長(zhǎng)安大學(xué)》 2007年

垂直搜索引擎主題特征提取及相關(guān)度算法研究

段一飛  

【摘要】: 搜索引擎是人們獲取海量網(wǎng)絡(luò)信息的首要工具,是網(wǎng)絡(luò)研究和應(yīng)用的關(guān)鍵內(nèi)容。目前隨著Internet信息的爆炸增長(zhǎng)以及信息多元化的發(fā)展,快速有效地獲取需要的相關(guān)信息變得越來(lái)越困難,綜合性的搜索引擎已不能適應(yīng)用戶對(duì)信息檢索的準(zhǔn)確性要求,專業(yè)化的、面向主題的垂直搜索引擎正成為研究的熱點(diǎn)與發(fā)展趨勢(shì)。 本文重點(diǎn)研究中文Web主題信息獲取與檢索技術(shù),設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)以計(jì)算機(jī)專業(yè)技術(shù)文獻(xiàn)信息采集為核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。 論文分析了搜索引擎國(guó)內(nèi)外目前的研究現(xiàn)狀及發(fā)展趨勢(shì),探討了專業(yè)搜索引擎目前主要存在的問(wèn)題及現(xiàn)行專業(yè)搜索引擎所采用的搜索策略存在的缺陷。針對(duì)中文分詞中歧義字段的切分問(wèn)題,提出一種對(duì)中文句子進(jìn)行分詞預(yù)處理的方法,在預(yù)處理的基礎(chǔ)上實(shí)現(xiàn)了一種改進(jìn)的MM算法,使分詞系統(tǒng)在機(jī)械分詞階段具有比MM算法更好的效果。 針對(duì)垂直搜索引擎網(wǎng)絡(luò)蜘蛛搜索路徑的選擇策略問(wèn)題,提出了非貪婪的V-Page-Rank搜索策略,指引網(wǎng)絡(luò)蜘蛛動(dòng)態(tài)調(diào)整下載方向,優(yōu)先下載可能包含有相關(guān)主題內(nèi)容的頁(yè)面,有效地實(shí)現(xiàn)搜索引擎的專業(yè)化。在信息檢索方面,提出了基于向量空間模型的自適應(yīng)分類算法IVSM對(duì)網(wǎng)頁(yè)從內(nèi)容和結(jié)構(gòu)兩方面進(jìn)行相關(guān)性過(guò)濾。 論文提出了基于網(wǎng)頁(yè)分塊的爬行算法。解決了網(wǎng)頁(yè)多主題的困難,并有效地去除了網(wǎng)頁(yè)中的噪音信息,使得網(wǎng)絡(luò)爬行的啟發(fā)信息能準(zhǔn)確地被收集。提出了一種比較理想的垂直搜索引擎設(shè)計(jì)方案,并實(shí)現(xiàn)了一個(gè)面向計(jì)算機(jī)主題的垂直搜索引擎系統(tǒng)CTLS。研究并設(shè)計(jì)出了適合專業(yè)資源采集的分布式Robot體系結(jié)構(gòu)。 最后總結(jié)了面向計(jì)算機(jī)專業(yè)技術(shù)主題的垂直搜索引擎系統(tǒng)的研究和開(kāi)發(fā)經(jīng)驗(yàn),并指出了系統(tǒng)的應(yīng)用前景以及下一步研究的方向。

【關(guān)鍵詞】:
【學(xué)位授予單位】:長(zhǎng)安大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類號(hào)】:TP391.3
【目錄】:

  • 摘要5-6
  • Abstract6-11
  • 第一章 緒論11-20
  • 1.1 課題研究的背景和意義11
  • 1.2 垂直搜索引擎的研究現(xiàn)狀11-13
  • 1.2.1 基于內(nèi)容的搜索11-12
  • 1.2.2 基于鏈接分析的搜索12-13
  • 1.3 課題研究?jī)?nèi)容和技術(shù)難點(diǎn)13-17
  • 1.3.1 網(wǎng)頁(yè)主題特征提取13-15
  • 1.3.2 網(wǎng)頁(yè)主題的相關(guān)度分析15-17
  • 1.4 課題研究的創(chuàng)新點(diǎn)和難點(diǎn)17-20
  • 第二章 搜索引擎發(fā)展概述20-37
  • 2.1 搜索引擎簡(jiǎn)介20-27
  • 2.1.1 搜索引擎產(chǎn)生的背景20
  • 2.1.2 搜索引擎的發(fā)展現(xiàn)狀20-23
  • 2.1.3 搜索引擎的分類23-25
  • 2.1.4 搜索引擎的性能評(píng)價(jià)指標(biāo)25-27
  • 2.2 通用搜索引擎27-33
  • 2.2.1 通用搜索引擎的基本工作原理27-31
  • 2.2.2 通用搜索引擎面臨的挑戰(zhàn)和發(fā)展趨勢(shì)31-33
  • 2.3 垂直搜索引擎33-37
  • 2.3.1 垂直搜索引擎產(chǎn)生的背景33-34
  • 2.3.2 垂直搜索引擎的特點(diǎn)34-35
  • 2.3.3 垂直搜索引擎的發(fā)展35-37
  • 第三章 垂直搜索引擎技術(shù)分析37-55
  • 3.1 垂直搜索引擎工作原理37-43
  • 3.1.1 垂直搜索引擎的系統(tǒng)架構(gòu)37-39
  • 3.1.2 垂直搜索引擎的工作流程39-41
  • 3.1.3 垂直搜索引擎的搜索策略41-43
  • 3.2 信息檢索模型43-47
  • 3.2.1 布爾模型43-44
  • 3.2.2 向量空間模型44-45
  • 3.2.3 概率模型45-46
  • 3.2.4 神經(jīng)網(wǎng)絡(luò)模型46-47
  • 3.3 網(wǎng)絡(luò)機(jī)器人信息采集技術(shù)47-50
  • 3.3.1 Web Spider爬行算法47
  • 3.3.2 Web Spider主題采集策略47-48
  • 3.3.3 Web Spider遍歷優(yōu)先策略48-49
  • 3.3.4 Web Spider頁(yè)面內(nèi)容預(yù)測(cè)技術(shù)49-50
  • 3.4 信息索引技術(shù)50-55
  • 3.4.1 倒排文件索引50-52
  • 3.4.2 后綴樹(shù)與后綴數(shù)組52
  • 3.4.3 Web頁(yè)面的加權(quán)索引52-55
  • 第四章 文檔特征提取模型研究及改進(jìn)55-84
  • 4.1 頁(yè)面解析和中文分詞55-60
  • 4.1.1 頁(yè)面解析的任務(wù)和過(guò)程55-56
  • 4.1.2 中文分詞技術(shù)56-60
  • 4.2 中文分詞算法的改進(jìn)60-68
  • 4.2.1 正向最大匹配(MM)算法60-63
  • 4.2.2 基于MM分詞算法的改進(jìn)63-68
  • 4.3 改進(jìn)的自適應(yīng)分類模型IVSM68-72
  • 4.3.1 現(xiàn)有信息檢索模型的局限性68-69
  • 4.3.2 VSM模型分析69-70
  • 4.3.3 自適應(yīng)分類模型IVSM設(shè)計(jì)70-72
  • 4.4 基于詞語(yǔ)相關(guān)度的特征提取72-84
  • 4.4.1 分塊主題爬行72-76
  • 4.4.2 特征抽取方法76-79
  • 4.4.3 自動(dòng)主題聚類79-84
  • 第五章 相關(guān)度排序算法的研究與改進(jìn)84-96
  • 5.1 網(wǎng)頁(yè)評(píng)價(jià)要素分析84-85
  • 5.2 基于網(wǎng)頁(yè)鏈接關(guān)系的排序85-89
  • 5.2.1 PageRank算法85-86
  • 5.2.2 HITS算法86-88
  • 5.2.3 SALSA算法88-89
  • 5.3 基于內(nèi)容相關(guān)度的排序89-92
  • 5.3.1 現(xiàn)有算法分析89-90
  • 5.3.2 排序算法的選擇90-92
  • 5.4 改進(jìn)的排序算法V-Page-Rank92-96
  • 5.4.1 現(xiàn)有排序算法的局限性92-93
  • 5.4.2 基于內(nèi)容和鏈接結(jié)構(gòu)的V-Page-Rank算法93-96
  • 第六章 基于IVSM和V-Page-Rank的搜索引擎系統(tǒng)96-116
  • 6.1 系統(tǒng)開(kāi)發(fā)概述96-98
  • 6.1.1 系統(tǒng)開(kāi)發(fā)環(huán)境96
  • 6.1.2 系統(tǒng)功能介紹96-97
  • 6.1.3 系統(tǒng)體系結(jié)構(gòu)97-98
  • 6.2 信息采集和更新策略設(shè)計(jì)98-103
  • 6.2.1 基于V-Page-Rank的綜合評(píng)價(jià)采集策略98-101
  • 6.2.2 搜索引擎頁(yè)面更新策略101-103
  • 6.3 功能模塊設(shè)計(jì)103-116
  • 6.3.1 信息采集模塊103-111
  • 6.3.2 索引模塊111-114
  • 6.3.3 檢索模塊114-116
  • 第七章 系統(tǒng)運(yùn)行與性能分析116-125
  • 7.1 垂直搜索引擎評(píng)價(jià)方法116-118
  • 7.2 系統(tǒng)部署和運(yùn)行118-122
  • 7.3 系統(tǒng)性能分析122-125
  • 第八章 結(jié)論與展望125-127
  • 參考文獻(xiàn)127-133
  • 攻讀學(xué)位期間取得的研究成果133-134
  • 致謝134
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 劉博卿;;基于軍事工程兵的垂直搜索引擎研究[J];科技創(chuàng)新導(dǎo)報(bào);2011年18期

    2 張旭;;構(gòu)建基于本地服務(wù)的垂直搜索引擎[J];才智;2011年18期

    3 王曉春;李慧;;面向教育的垂直搜索引擎框架及其應(yīng)用[J];電化教育研究;2011年09期

    4 施佺;王恒山;肖仰華;丁衛(wèi)平;;面向主題的垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2011年07期

    5 郭銳;;新型垂直育兒搜索引擎“智能育兒通”的研究與實(shí)現(xiàn)[J];天津科技;2011年03期

    6 李光敏;陳年生;許新山;;面向網(wǎng)頁(yè)結(jié)構(gòu)特征的Hopfield算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年07期

    7 孔云;楊婷;;開(kāi)源信息檢索技術(shù)在高校圖書(shū)館的應(yīng)用——以昆明理工大學(xué)圖書(shū)館為例[J];湖南科技學(xué)院學(xué)報(bào);2011年08期

    8 陳國(guó)華;湯庸;彭澤武;李建國(guó);;基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計(jì)[J];計(jì)算機(jī)科學(xué);2011年08期

    9 ;[J];;年期

    10 ;[J];;年期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條

    1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

    2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

    3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲(chóng)的研究[A];中國(guó)電子學(xué)會(huì)第十七屆信息論學(xué)術(shù)年會(huì)論文集[C];2010年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 賽迪網(wǎng) 方剛;[N];中國(guó)計(jì)算機(jī)報(bào);2000年

    2 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年

    3 王艷;[N];中國(guó)旅游報(bào);2000年

    4 王靖;[N];人民日?qǐng)?bào)海外版;2000年

    5 記者 王滸;[N];中國(guó)旅游報(bào);2009年

    6 本報(bào)記者 王宏;[N];中國(guó)計(jì)算機(jī)報(bào);2001年

    7 徐瑾 張玉;[N];人民郵電;2009年

    8 記者 吳德群;[N];深圳特區(qū)報(bào);2009年

    9 本報(bào)記者 王曉雁;[N];法制日?qǐng)?bào);2009年

    10 本報(bào)記者 胡鈺;[N];華夏時(shí)報(bào);2009年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

    1 王曄;垂直搜索引擎若干問(wèn)題研究[D];復(fù)旦大學(xué);2011年

    2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

    3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2010年

    2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年

    3 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年

    4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年

    5 周佳慶;實(shí)時(shí)垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年

    6 張贏;個(gè)性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年

    7 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國(guó)海洋大學(xué);2010年

    8 劉大伸;垂直搜索引擎技術(shù)的研究及實(shí)現(xiàn)[D];東北大學(xué);2008年

    9 李海升;垂直搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年

    10 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)[D];武漢理工大學(xué);2011年


      本文關(guān)鍵詞:垂直搜索引擎主題特征提取及相關(guān)度算法研究,,由筆耕文化傳播整理發(fā)布。



    本文編號(hào):64166

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/64166.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶38e19***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com