天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

學(xué)術(shù)論文垂直搜索引擎的架構(gòu)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-10 00:13

  本文關(guān)鍵詞:學(xué)術(shù)論文垂直搜索引擎的架構(gòu)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:論文的多年累積加之以越來(lái)越多的人投身于學(xué)術(shù)研究,導(dǎo)致論文數(shù)量激增,這為學(xué)術(shù)研究帶來(lái)了新的挑戰(zhàn)。搜索引擎成為人們獲得及時(shí)有效的論文信息的重要途徑。但目前的通用搜索引擎存在著信息重復(fù)率高、檢索功能單一等缺點(diǎn),使得用戶(hù)為獲取有效信息在網(wǎng)上駐留時(shí)間不斷增長(zhǎng)。所以作為通用搜索引擎的補(bǔ)充,垂直搜索引擎更能做到符合用戶(hù)個(gè)性化的需求。本文的目的便是構(gòu)建一個(gè)面向?qū)W術(shù)研究領(lǐng)域的學(xué)術(shù)論文垂直搜索引擎,滿(mǎn)足用戶(hù)在檢索論文方面的需求。 在對(duì)垂直搜索引擎進(jìn)行了理論性研究的基礎(chǔ)之上,設(shè)計(jì)并實(shí)現(xiàn)了學(xué)術(shù)論文垂直搜索引擎。首先給出了系統(tǒng)的需求分析,然后設(shè)計(jì)了系統(tǒng)的整體架構(gòu)。系統(tǒng)共分為信息采集、網(wǎng)頁(yè)預(yù)處理、索引、查詢(xún)服務(wù)和聚類(lèi)推薦五個(gè)功能模塊,本文詳細(xì)說(shuō)明了各個(gè)模塊的設(shè)計(jì)方案。在詳細(xì)設(shè)計(jì)的基礎(chǔ)上,完成了這整個(gè)系統(tǒng)的代碼實(shí)現(xiàn)和測(cè)試。 本文特點(diǎn)包括:使用聚焦網(wǎng)絡(luò)機(jī)器人獲取源論文信息;針對(duì)網(wǎng)頁(yè)預(yù)處理模塊中結(jié)構(gòu)化信息抽取問(wèn)題,設(shè)計(jì)了基于模板匹配的結(jié)構(gòu)化信息抽取技術(shù);在垂直搜索引擎的基礎(chǔ)上增加了聚類(lèi)推薦模塊,使得用戶(hù)既可以檢索論文信息,也可以瀏覽選擇自己喜歡的主題以及此主題中的論文;增加了最新發(fā)表論文模塊,用戶(hù)可以瀏覽選擇最新發(fā)表的論文。
【關(guān)鍵詞】:學(xué)術(shù)論文 垂直搜索 信息抽取 聚類(lèi)推薦
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP311.52
【目錄】:
  • 摘要10-11
  • ABSTRACT11-12
  • 第1章 緒論12-19
  • 1.1 課題研究背景及意義12-13
  • 1.1.1 課題背景12
  • 1.1.2 研究意義12-13
  • 1.2 搜索引擎與垂直搜索引擎的研究現(xiàn)狀13-17
  • 1.2.1 搜索引擎基本架構(gòu)13-14
  • 1.2.2 搜索引擎的分類(lèi)14-15
  • 1.2.3 垂直搜索引擎的產(chǎn)生及其特點(diǎn)15-16
  • 1.2.4 典型的垂直搜索引擎16-17
  • 1.3 本文的研究?jī)?nèi)容17
  • 1.4 論文的組織17-19
  • 第2章 垂直搜索引擎技術(shù)19-26
  • 2.1 信息采集19
  • 2.2 網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取19-21
  • 2.3 Lucene框架21-23
  • 2.3.1 全文檢索工具Lucene框架21-23
  • 2.3.2 文檔建立索引23
  • 2.3.3 檢索機(jī)制23
  • 2.4 聚類(lèi)算法23-25
  • 2.5 本章小結(jié)25-26
  • 第3章 需求分析26-32
  • 3.1 系統(tǒng)概述26
  • 3.2 系統(tǒng)的功能性需求26-30
  • 3.3 系統(tǒng)的非功能性需求30
  • 3.4 系統(tǒng)的開(kāi)發(fā)環(huán)境30-31
  • 3.5 本章小結(jié)31-32
  • 第4章 學(xué)術(shù)論文垂直搜索引擎概要設(shè)計(jì)32-55
  • 4.1 系統(tǒng)設(shè)計(jì)的目標(biāo)和原則32
  • 4.2 系統(tǒng)的功能架構(gòu)設(shè)計(jì)32-33
  • 4.3 信息采集模塊的分析與設(shè)計(jì)33-41
  • 4.4 網(wǎng)頁(yè)預(yù)處理模塊的分析與設(shè)計(jì)41-42
  • 4.5 索引模塊的分析與設(shè)計(jì)42-47
  • 4.6 查詢(xún)服務(wù)模塊的分析與設(shè)計(jì)47-51
  • 4.6.1 中文分詞器的選擇47-48
  • 4.6.2 信息檢索模塊分析與設(shè)計(jì)48-51
  • 4.7 聚類(lèi)推薦模塊的分析與設(shè)計(jì)51-53
  • 4.8 用戶(hù)界面及接口分析與設(shè)計(jì)53
  • 4.9 本章小結(jié)53-55
  • 第5章 學(xué)術(shù)論文垂直搜索引擎的實(shí)現(xiàn)55-72
  • 5.1 網(wǎng)頁(yè)爬取模塊的實(shí)現(xiàn)55-56
  • 5.2 結(jié)構(gòu)化信息抽取的實(shí)現(xiàn)56-58
  • 5.3 信息索引和檢索模塊的實(shí)現(xiàn)58-61
  • 5.3.1 信息索引模塊的實(shí)現(xiàn)59-60
  • 5.3.2 信息檢索模塊的實(shí)現(xiàn)60-61
  • 5.4 聚類(lèi)模塊的實(shí)現(xiàn)61-67
  • 5.5 快速排序的實(shí)現(xiàn)67-68
  • 5.6 用戶(hù)界面的實(shí)現(xiàn)68-71
  • 5.7 本章小結(jié)71-72
  • 第6章 總結(jié)與展望72-74
  • 6.1 論文工作總結(jié)72
  • 6.2 本文主要工作和貢獻(xiàn)72-73
  • 6.3 論文的不足73
  • 6.4 展望進(jìn)一步的工作73-74
  • 參考文獻(xiàn)74-77
  • 致謝77-78
  • 學(xué)位論文評(píng)閱及答辯情況表78

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 任惠靜;;基于Lucene的面向主題搜索引擎的索引技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年04期

2 張麗敏;;垂直搜索引擎的主題爬蟲(chóng)策略[J];電腦知識(shí)與技術(shù);2010年15期

3 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計(jì)算機(jī)工程與應(yīng)用;2003年10期

4 馮永;李華;鐘將;葉春曉;;基于自適應(yīng)中文分詞和近似SVM的文本分類(lèi)算法[J];計(jì)算機(jī)科學(xué);2010年01期

5 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁(yè)框架和規(guī)則的網(wǎng)頁(yè)噪音去除方法[J];計(jì)算機(jī)工程;2007年19期

6 劉丹;方衛(wèi)國(guó);周泓;;基于貝葉斯網(wǎng)絡(luò)的二元語(yǔ)法中文分詞模型[J];計(jì)算機(jī)工程;2010年01期

7 劉遙峰;王志良;王傳經(jīng);;中文分詞和詞性標(biāo)注模型[J];計(jì)算機(jī)工程;2010年04期

8 何國(guó)斌;趙晶璐;;基于最大匹配的中文分詞概率算法研究[J];計(jì)算機(jī)工程;2010年05期

9 張曉衛(wèi);朱巧明;;一種基于Lucene的Web全文信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2006年12期

10 李壽山;黃居仁;;基于詞邊界分類(lèi)的中文分詞方法[J];中文信息學(xué)報(bào);2010年01期


  本文關(guān)鍵詞:學(xué)術(shù)論文垂直搜索引擎的架構(gòu)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號(hào):353607

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/lwzy/353607.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)255f6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com