網(wǎng)絡(luò)信息采集與搜索系統(tǒng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:網(wǎng)絡(luò)信息采集與搜索系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代已經(jīng)到來,網(wǎng)絡(luò)給人們提供了豐富的信息資源。面對海量的互聯(lián)網(wǎng)信息,如何快速準(zhǔn)確的獲取有價(jià)值的信息成為了一個(gè)難題。信息采集與檢索系統(tǒng)應(yīng)用而生,但是通用的全網(wǎng)搜索引擎在信息采集時(shí)忽略了信息的主題和處理順序,致使搜索結(jié)果主題寬泛,夾雜不相關(guān)信息,需對其進(jìn)行“二次處理”才能獲得有價(jià)值的信息。 針對這一問題本文研究了信息采集的相關(guān)技術(shù)和方法,提出了面向具體領(lǐng)域的站內(nèi)深度信息的采集與搜索的方法,并實(shí)現(xiàn)了信息索引的構(gòu)建及動態(tài)維護(hù)和優(yōu)化,,提供高質(zhì)量的站內(nèi)信息搜索服務(wù)。本文所做工作概括為以下三方面: 1)對信息采集工具Nutch、分布式數(shù)據(jù)處理框架Hadoop的文件系統(tǒng)和MapReduce工作流程進(jìn)行了研究,實(shí)現(xiàn)了Nutch的分布式信息采集,將非結(jié)構(gòu)化的網(wǎng)絡(luò)信息轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化的文件存儲。 2)通過對索引工具Lucene倒排索引的研究,為采集所得的規(guī)范化文件信息創(chuàng)建了倒排索引,為索引的查詢和進(jìn)一步處理打好基礎(chǔ);提出并建立了索引池模型,利用索引評估函數(shù),實(shí)現(xiàn)對索引池的維護(hù)及動態(tài)優(yōu)化,提高了索引質(zhì)量。 3)設(shè)計(jì)開發(fā)了網(wǎng)絡(luò)信息采集與搜索系統(tǒng),并提供用戶興趣愛好分類收藏和信息定時(shí)推送服務(wù)。
【關(guān)鍵詞】:信息采集 Nutch Hadoop 倒排索引 信息搜索
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-13
- 1.1 課題研究的背景與意義9
- 1.2 國內(nèi)外研究概況9-11
- 1.2.1 信息采集與搜索的發(fā)展現(xiàn)狀9-10
- 1.2.2 信息采集與搜索的發(fā)展趨勢10-11
- 1.3 本文主要工作及章節(jié)安排11-12
- 1.3.1 本文主要工作11-12
- 1.3.2 本文組織結(jié)構(gòu)12
- 1.4 本章小結(jié)12-13
- 第二章 信息采集技術(shù)的研究13-33
- 2.1 信息采集定義13
- 2.2 信息采集工具 Nutch 的研究13-17
- 2.2.1 Nutch 概述13-14
- 2.2.2 Nutch 網(wǎng)絡(luò)爬蟲 Crawler 的原理14-15
- 2.2.3 文本庫的爬取與構(gòu)建15-16
- 2.2.4 爬蟲的個(gè)性化配置16-17
- 2.3 分布式系統(tǒng)框架 Hadoop17-24
- 2.3.1 Hadoop 概述17-18
- 2.3.2 Hadoop 文件系統(tǒng) HDFS18-20
- 2.3.3 MapReduce 研究20-24
- 2.4 信息采集的實(shí)現(xiàn)24-30
- 2.4.1 Nutch 爬蟲的安裝測試24-27
- 2.4.2 Nutch 源碼導(dǎo)入開發(fā)環(huán)境27
- 2.4.3 IKAnalyzer 中文分詞的引入27-28
- 2.4.5 分布式運(yùn)行環(huán)境的搭建28-30
- 2.5 實(shí)驗(yàn)結(jié)果及分析30-31
- 2.6 本章小結(jié)31-33
- 第三章 索引技術(shù)的研究33-45
- 3.1 信息索引33-34
- 3.2 Lucene 與倒排索引34-35
- 3.2.1 Lucene 概況34
- 3.2.2 倒排索引34-35
- 3.3 索引的創(chuàng)建與搜索35-38
- 3.3.1 Lucene 的索引創(chuàng)建工具35-36
- 3.3.2 Lucene 倒排索引的創(chuàng)建36-37
- 3.3.3 基于 Lucene 的索引搜索37-38
- 3.4 索引的維護(hù)38-43
- 3.4.1 池化技術(shù)38-39
- 3.4.2 索引池39-41
- 3.4.3 索引池的實(shí)現(xiàn)41-43
- 3.5 實(shí)驗(yàn)結(jié)果及分析43-44
- 3.6 本章小結(jié)44-45
- 第四章 信息采集與搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)45-55
- 4.1 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)45
- 4.2 數(shù)據(jù)庫設(shè)計(jì)45-48
- 4.3 系統(tǒng)主要模塊設(shè)計(jì)48-53
- 4.3.1 權(quán)限管理模塊48-49
- 4.3.2 信息采集模塊49-51
- 4.3.3 搜索結(jié)果模塊51-53
- 4.4 本章小結(jié)53-55
- 第五章 總結(jié)與展望55-57
- 5.1 總結(jié)55
- 5.2 展望55-57
- 參考文獻(xiàn)57-61
- 攻讀碩士學(xué)位期間所取得的相關(guān)科研成果61-63
- 致謝63-64
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 常天慶;張波;王欽釗;;坦克嵌入式訓(xùn)練系統(tǒng)信息采集與處理技術(shù)[J];裝甲兵工程學(xué)院學(xué)報(bào);2008年06期
2 徐楓;鄭植;;分布式專業(yè)信息采集器的設(shè)計(jì)與開發(fā)[J];中國傳媒科技;2008年05期
3 冷先剛;熊前興;劉揚(yáng)軍;馬坡;王生;;地表水質(zhì)量信息采集與分析系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用與軟件;2009年02期
4 ;警用便攜式身份信息采集比對終端[J];警察技術(shù);2009年03期
5 高靖;王偉峰;趙軍寶;;信息采集“觸角”的智能化蛻變[J];國家電網(wǎng);2009年08期
6 許亮;;信息采集與傳輸在水文遙測系統(tǒng)中應(yīng)用[J];水利科技與經(jīng)濟(jì);2011年02期
7 徐穎;李倩;;基于互聯(lián)網(wǎng)社區(qū)的消費(fèi)者需求信息采集策略[J];圖書情報(bào)工作;2011年24期
8 鄭旭;高勝;;用電信息采集“云”計(jì)算應(yīng)用研究[J];信息通信;2012年05期
9 張成名;羅坤;蔡延曦;;通用裝備單裝信息采集及傳輸設(shè)備設(shè)計(jì)[J];計(jì)算機(jī)測量與控制;2012年08期
10 西里;食品安全計(jì)劃在行動——從信息采集入手[J];中國計(jì)算機(jī)用戶;2005年Z2期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李靜;張建;李淼;胡澤林;楊巍;張浩東;;便攜式農(nóng)田信息采集與管理系統(tǒng)的設(shè)計(jì)[A];紀(jì)念中國農(nóng)業(yè)工程學(xué)會成立30周年暨中國農(nóng)業(yè)工程學(xué)會2009年學(xué)術(shù)年會(CSAE 2009)論文集[C];2009年
2 譚亮;王榮成;;基于船舶網(wǎng)絡(luò)的信息采集性能分析與系統(tǒng)優(yōu)化[A];2008年MIS/S&A學(xué)術(shù)交流會議論文集[C];2008年
3 周洪清;;客戶動銷信息采集工作的思考[A];湖北省煙草學(xué)會2007年學(xué)術(shù)年會論文集[C];2007年
4 劉麗麗;;一種用于加油站信息采集的中控機(jī)設(shè)計(jì)[A];2007年河北省電子學(xué)會、河北省計(jì)算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
5 蔡義華;劉剛;;便攜式農(nóng)田信息采集與無線傳輸系統(tǒng)研究[A];紀(jì)念中國農(nóng)業(yè)工程學(xué)會成立30周年暨中國農(nóng)業(yè)工程學(xué)會2009年學(xué)術(shù)年會(CSAE 2009)論文集[C];2009年
6 王坤;郭起云;郭光;;大數(shù)據(jù)時(shí)代檔案信息采集新思路[A];2013年海峽兩岸檔案暨縮微學(xué)術(shù)交流會論文集[C];2013年
7 羅海勇;李錦濤;趙方;朱珍民;林權(quán);;溫室無線測控網(wǎng)絡(luò)信息采集分系統(tǒng)設(shè)計(jì)研究[A];2007年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2007年
8 陳渝光;施海;游四海;廖仕利;;基于車載網(wǎng)絡(luò)的多模態(tài)信息采集[A];四川省電工技術(shù)學(xué)會第九屆學(xué)術(shù)年會論文集[C];2008年
9 高錦超;柯賡;;基于網(wǎng)絡(luò)的地理信息采集和管理系統(tǒng)[A];'2005數(shù)字江蘇論壇電子政務(wù)與地理信息技術(shù)論文專輯[C];2005年
10 陳凌;張陽陽;陳宏;劉紅漫;;《電光與控制》發(fā)行工作中的問題及解決辦法[A];第7屆中國科技期刊青年編輯學(xué)術(shù)研討會暨中國科技期刊的經(jīng)營與發(fā)展論壇文集[C];2007年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 沈雪;福泉把派出所基礎(chǔ)信息采集納入“政府工程”[N];人民公安報(bào);2007年
2 記者 陳磊;陜西年內(nèi)將建成500個(gè)標(biāo)準(zhǔn)化刑偵信息采集室[N];人民公安報(bào);2010年
3 吳蘇 楊一弘;推進(jìn)信息采集 筑牢基礎(chǔ)環(huán)節(jié)[N];黑龍江經(jīng)濟(jì)報(bào);2010年
4 李曉楠、楊勇;8650部隊(duì)信息采集員制度拓寬民主渠道[N];人民武警報(bào);2011年
5 本報(bào)首席記者 彭文輝 本報(bào)記者 方曉;信息采集:“三網(wǎng)”建設(shè)取得實(shí)效的生命線[N];宜春日報(bào);2013年
6 秦旭 傅鑒;青羊建成規(guī)范化基層信息采集室[N];人民公安報(bào);2007年
7 馬曉玲 陳虹;紫云派出所“信息采集”結(jié)碩果[N];云南經(jīng)濟(jì)日報(bào);2007年
8 華暉盛世技術(shù)開發(fā)有限公司 朱自力;信息采集 潛力巨大[N];計(jì)算機(jī)世界;2001年
9 記者 朱士燕;信息采集準(zhǔn)確率達(dá)到98%以上[N];吐魯番報(bào)(漢);2009年
10 懷清萍 記者 鄒偉軍;中小企業(yè)融資信息采集及公布制度建立[N];九江日報(bào);2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
2 賈自艷;Web信息智能獲取若干關(guān)鍵問題研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊凡;面向移動設(shè)備的信息采集和處理研究與實(shí)現(xiàn)[D];西北大學(xué);2012年
2 董飛;用電信息采集一體化建設(shè)研究[D];大連海事大學(xué);2011年
3 張巧珍;基于價(jià)值鏈的企業(yè)信息采集研究[D];華中師范大學(xué);2013年
4 王凌霄;身份證閱讀器信息采集與處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2012年
5 陳松濤;煙草公司信息采集與分析系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];吉林大學(xué);2013年
6 孫夢勇;基于本體進(jìn)化的專題信息采集方法研究[D];南京航空航天大學(xué);2014年
7 盧尚才;高速旋轉(zhuǎn)體信息采集與光傳輸系統(tǒng)的研究與實(shí)現(xiàn)[D];暨南大學(xué);2008年
8 程濤;個(gè)性化網(wǎng)絡(luò)信息采集處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
9 王小強(qiáng);基于農(nóng)業(yè)信息采集嵌入式系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
10 趙佳鶴;基于語義分析的網(wǎng)絡(luò)信息采集算法研究與應(yīng)用[D];大連理工大學(xué);2006年
本文關(guān)鍵詞:網(wǎng)絡(luò)信息采集與搜索系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:395690
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/395690.html