天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-04-27 03:08

  本文關(guān)鍵詞:面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:伴隨著互聯(lián)網(wǎng)信息爆炸式的增長,海量數(shù)據(jù)不斷產(chǎn)生,人們?cè)诰W(wǎng)絡(luò)上查找所需文學(xué)作品的效率越來越低。并且隨著文學(xué)在互聯(lián)網(wǎng)中的高速傳播與發(fā)展,盜版、侵權(quán)、肆意抄襲作品的形勢(shì)變的越來越嚴(yán)峻。所以迫切需要一個(gè)更優(yōu)異的搜索服務(wù),以提高搜索效率和保護(hù)網(wǎng)絡(luò)作品版權(quán)。搜索引擎質(zhì)量的好壞,對(duì)搜索引擎的使用用戶來說具有重要意義,同時(shí)也是衡量搜索引擎技術(shù)優(yōu)劣的關(guān)鍵指標(biāo)。對(duì)頁面進(jìn)行重要性評(píng)估并按重要性排序是搜索引擎排序算法要深入研究的最重要的問題之一。垂直搜索引擎應(yīng)運(yùn)而生,它把具體專業(yè)與搜索引擎結(jié)合起來,為使用者提供了更高的質(zhì)量和更優(yōu)質(zhì)的服務(wù)。本文研究的主要內(nèi)容是建立在網(wǎng)絡(luò)文學(xué)發(fā)展的基礎(chǔ)上,本文研究的核心技術(shù)是建立在搜索引擎發(fā)展的基礎(chǔ)上。通過研究課題的背景和意義,并深入了解搜索引擎的發(fā)展史、垂直搜索引擎的技術(shù)現(xiàn)狀以及搜索引擎未來的發(fā)展趨勢(shì)等知識(shí),為本課題的研究與實(shí)現(xiàn)奠定了良好的理論基礎(chǔ)。本文首先討論了垂直搜索引擎的概念和工作流程,在深入研究垂直搜索引擎原理的基礎(chǔ)上,對(duì)于垂直搜索引擎所用到的核心技術(shù),如網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)蜘蛛搜索策略、信息抽取技術(shù)、中文分詞技術(shù)等,和垂直搜索引擎所需要的搜索引擎開源框架Nutch,進(jìn)行了詳細(xì)的介紹。其次,分析并研究了搜索引擎領(lǐng)域經(jīng)典的兩種網(wǎng)頁排序算法:PageRank算法和HITS算法,聯(lián)系當(dāng)前互聯(lián)網(wǎng)研究現(xiàn)狀并結(jié)合所研究的課題方向,針對(duì)傳統(tǒng)的PageRank算法存在的主題飄逸現(xiàn)象、網(wǎng)頁權(quán)值分配不合理、偏重舊網(wǎng)頁等現(xiàn)象,結(jié)合網(wǎng)頁內(nèi)容之間的相似度信息、網(wǎng)頁頁面結(jié)構(gòu)和網(wǎng)頁產(chǎn)生的時(shí)間等提出了一種改進(jìn)的頁面排序算法。改進(jìn)算法加入了時(shí)間衰減因子,減少了主題漂移現(xiàn)象的發(fā)生,提高了查詢的準(zhǔn)確率。最后,本課題結(jié)合搜索引擎開源框架Nutch和改進(jìn)后的網(wǎng)頁排序算法,設(shè)計(jì)并實(shí)現(xiàn)了基于網(wǎng)絡(luò)文學(xué)為主題的垂直搜索引擎原型系統(tǒng)。通過和主流搜索引擎的對(duì)比以及數(shù)據(jù)測(cè)試和仿真驗(yàn)證了系統(tǒng)的可行性與優(yōu)越性。
【關(guān)鍵詞】:垂直搜索引擎 PageRank算法 Nutch 網(wǎng)頁排序算法
【學(xué)位授予單位】:曲阜師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 緒論8-13
  • 1.1 課題研究背景和意義8-9
  • 1.2 研究現(xiàn)狀與發(fā)展趨勢(shì)9-11
  • 1.2.1 搜索引擎發(fā)展史9-10
  • 1.2.2 垂直搜索引擎技術(shù)現(xiàn)狀10-11
  • 1.2.3 搜索引擎的發(fā)展趨勢(shì)11
  • 1.3 本文的主要內(nèi)容11-12
  • 1.4 課題論文架構(gòu)12-13
  • 第二章 垂直搜索引擎的相關(guān)技術(shù)13-20
  • 2.1 垂直搜索引擎的工作流程13-14
  • 2.2 垂直搜索引擎的核心技術(shù)14-18
  • 2.2.1 網(wǎng)絡(luò)蜘蛛14-15
  • 2.2.2 網(wǎng)絡(luò)蜘蛛的搜索策略15
  • 2.2.3 信息抽取技術(shù)15-16
  • 2.2.4 中文分詞技術(shù)16-18
  • 2.3 Nutch介紹18-19
  • 2.4 本章小結(jié)19-20
  • 第三章 垂直搜索引擎算法的改進(jìn)20-29
  • 3.1 網(wǎng)頁排序算法研究20-25
  • 3.1.1 PageRank算法20-23
  • 3.1.2 HITS算法23-24
  • 3.1.3 PageRank算法和HITS算法對(duì)比24-25
  • 3.2 基于PageRank的改進(jìn)算法25-28
  • 3.2.1 PageRank算法缺點(diǎn)25-26
  • 3.2.2 PageRank算法改進(jìn)26-28
  • 3.3 本章小結(jié)28-29
  • 第四章 垂直搜索引擎的實(shí)現(xiàn)與結(jié)果分析29-41
  • 4.1 面向網(wǎng)絡(luò)文學(xué)作品搜索引擎的實(shí)現(xiàn)29-35
  • 4.1.1 開發(fā)環(huán)境的介紹29-30
  • 4.1.2 垂直搜索引擎的配置30-33
  • 4.1.3 網(wǎng)絡(luò)文學(xué)搜索系統(tǒng)流程圖33-35
  • 4.2 網(wǎng)絡(luò)文學(xué)搜索系統(tǒng)的實(shí)現(xiàn)界面35-37
  • 4.3 數(shù)據(jù)分析與對(duì)比37-40
  • 4.3.1 各搜索引擎系統(tǒng)數(shù)據(jù)對(duì)比37-38
  • 4.3.2 算法改進(jìn)前后系統(tǒng)數(shù)據(jù)分析與對(duì)比38-40
  • 4.4 本章小結(jié)40-41
  • 第五章 總結(jié)與展望41-43
  • 5.1 總結(jié)41
  • 5.2 展望41-43
  • 參考文獻(xiàn)43-45
  • 在校期間發(fā)表的學(xué)術(shù)論文45-46
  • 致謝46

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 李昕,朱永勝,武港山;Web結(jié)構(gòu)分析算法HITS的改進(jìn)及應(yīng)用[J];計(jì)算機(jī)工程;2005年06期

2 王寧;毛垣生;;水平和垂直搜索引擎的比較與應(yīng)用實(shí)踐[J];圖書館工作與研究;2009年12期

3 馬志杰;;國內(nèi)外搜索引擎評(píng)價(jià)比較研究[J];情報(bào)科學(xué);2013年08期

4 盧承山;;基于本體語義樹的主題空間向量模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年10期


  本文關(guān)鍵詞:面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):329782

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/329782.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2439c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com