基于Nutch的農(nóng)村信息服務(wù)移動搜索引擎研究
本文關(guān)鍵詞:基于Nutch的農(nóng)村信息服務(wù)移動搜索引擎研究
更多相關(guān)文章: 農(nóng)村信息服務(wù) 移動搜索 地理標(biāo)記 混合索引 Nutch
【摘要】:隨著4G和大數(shù)據(jù)時代到來,網(wǎng)絡(luò)資源的爆炸式增長。針對農(nóng)村信息服務(wù)領(lǐng)域的快速發(fā)展,結(jié)合智能移動設(shè)備的優(yōu)勢,提供一個具有主題相關(guān)性、本地相近性以及高準(zhǔn)確率的移動搜索引擎,是涉農(nóng)網(wǎng)站應(yīng)該具備的主要功能,方便農(nóng)戶快捷、精準(zhǔn)的搜索到所需信息,它可以提高農(nóng)戶搜索體驗(yàn)感,推進(jìn)農(nóng)村信息化建設(shè),完善農(nóng)業(yè)服務(wù)體系。農(nóng)村信息服務(wù)移動搜索引擎技術(shù)是提高農(nóng)村服務(wù)信息獲取精準(zhǔn)性、增強(qiáng)農(nóng)戶搜索體驗(yàn)感的關(guān)鍵性技術(shù),是當(dāng)前農(nóng)村信息服務(wù)領(lǐng)域的研究重點(diǎn)和熱點(diǎn)。農(nóng)村信息服務(wù)移動搜索引擎技術(shù)是圍繞農(nóng)村信息服務(wù)領(lǐng)域的移動搜索技術(shù)。在Nutch引擎技術(shù)基礎(chǔ)上,圍繞農(nóng)村信息服務(wù)主題,利用向量空間模型(Vector Space Model)算法,實(shí)現(xiàn)網(wǎng)頁中農(nóng)村信息服務(wù)主題過濾,同時結(jié)合國家地名詞典,完成網(wǎng)頁中空間位置信息的提取;在研究面向集合的文本搜索倒排文件(Inverted File)索引技術(shù)和面向二維空間的R-tree索引技術(shù)的基礎(chǔ)上,構(gòu)建先倒排文件后R-tree混合索引模型,即IR混合索引,實(shí)現(xiàn)農(nóng)村信息服務(wù)移動搜索的索引功能;在研究Lucene排序算法理論基礎(chǔ)上,綜合考慮地理空間位置因素和Web內(nèi)容相關(guān)性因素,改進(jìn)排序算法,對搜索結(jié)果進(jìn)行有效的優(yōu)化,展現(xiàn)地理位置相近性和搜索主題相關(guān)性的排序結(jié)果;圍繞農(nóng)村信息服務(wù)領(lǐng)域,用戶利用移動設(shè)備,能夠更便捷、更快速、更有效的實(shí)現(xiàn)基于位置和關(guān)鍵字雙重檢索。論文研究主要內(nèi)容如下:首先,研究構(gòu)建基于Nutch的農(nóng)村信息服務(wù)移動搜索引擎系統(tǒng)整體框架。在重點(diǎn)研究傳統(tǒng)搜索引擎的工作原理與關(guān)鍵技術(shù)基礎(chǔ)上,利用開源搜索引擎Nutch,提出改進(jìn)的基于Nutch的農(nóng)村信息服務(wù)移動搜索引擎系統(tǒng)設(shè)計(jì),并概括介紹系統(tǒng)各個模塊的設(shè)計(jì)以及優(yōu)化方案;其次,研究設(shè)計(jì)農(nóng)村信息服務(wù)移動搜索引擎網(wǎng)頁采集功能模塊。本模塊主要研究農(nóng)村信息服務(wù)主題過濾模型和Web網(wǎng)頁地理位置信息獲取算法。農(nóng)村信息服務(wù)主題過濾模型通過人工選擇獲得農(nóng)村信息服務(wù)主題相關(guān)的初始URL,利用中文分詞系統(tǒng)構(gòu)建主題詞庫,并根據(jù)VSM算法,判別抓取網(wǎng)頁與主題詞庫之間的主題相關(guān)度,實(shí)現(xiàn)圍繞農(nóng)村信息服務(wù)主題的網(wǎng)頁抓取和過濾;Web網(wǎng)頁地理位置信息獲取通過結(jié)合國家地名詞典,利用地名識別、地名分辨、地理聚焦點(diǎn)確定三個過程來最終實(shí)現(xiàn);再次,研究設(shè)計(jì)農(nóng)村信息服務(wù)移動搜索索引功能模塊。為實(shí)現(xiàn)基于Nutch的農(nóng)村信息服務(wù)移動搜索引擎同時具有文本檢索能力和空間位置信息檢索功能,本文在研究面向集合的文本搜索倒排文件索引技術(shù)和面向二維空間的R-tree索引技術(shù)的基礎(chǔ)上,構(gòu)建先倒排文件后R-tree混合索引模型,為農(nóng)村信息服務(wù)移動搜索具有高效檢索能力提供技術(shù)保障;最后,研究設(shè)計(jì)農(nóng)村信息服務(wù)移動搜索排序功能模塊。根據(jù)移動搜索環(huán)境中信息的文本相關(guān)性和距離相近性,在Nutch評分排序算法的基礎(chǔ)上,提出基于位置感知的top-k文本檢索(Lk T)查詢排序,分別對搜索關(guān)鍵詞與抓取網(wǎng)頁之間的文本相關(guān)性因素,以及查詢地點(diǎn)與網(wǎng)頁地理聚焦點(diǎn)之間的距離相近性因素進(jìn)行歸一化處理,并且根據(jù)權(quán)重進(jìn)行線性合并,設(shè)計(jì)農(nóng)村信息服務(wù)移動搜索排序模塊,實(shí)現(xiàn)優(yōu)先排序出本地化的重要信息。實(shí)驗(yàn)結(jié)果表明,圍繞農(nóng)村信息服務(wù)領(lǐng)域,基于Nutch的農(nóng)村信息服務(wù)移動搜索引擎具有較高的檢索質(zhì)量,能夠滿足農(nóng)戶移動檢索的需求。
【關(guān)鍵詞】:農(nóng)村信息服務(wù) 移動搜索 地理標(biāo)記 混合索引 Nutch
【學(xué)位授予單位】:安徽農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要3-5
- Abstract5-16
- 1 緒論16-21
- 1.1 研究背景與意義16-17
- 1.1.1 研究背景16-17
- 1.1.2 研究意義17
- 1.2 研究思路與內(nèi)容17-21
- 1.2.1 研究思路17-18
- 1.2.2 研究內(nèi)容18-19
- 1.2.3 研究結(jié)構(gòu)19-21
- 2 農(nóng)村信息服務(wù)移動搜索引擎總體設(shè)計(jì)21-29
- 2.1 傳統(tǒng)搜索引擎技術(shù)研究21-25
- 2.1.1 網(wǎng)頁采集模塊21-23
- 2.1.2 網(wǎng)頁預(yù)處理模塊23-24
- 2.1.3 網(wǎng)頁查詢服務(wù)24-25
- 2.2 開源搜索引擎Nutch25-26
- 2.2.1 Nutch架構(gòu)組成25-26
- 2.2.2 Nutch工作原理26
- 2.3 農(nóng)村信息服務(wù)移動搜索引擎設(shè)計(jì)26-28
- 2.4 本章小結(jié)28-29
- 3 農(nóng)村信息服務(wù)移動搜索引擎網(wǎng)頁采集模塊設(shè)計(jì)29-38
- 3.1 農(nóng)村信息服務(wù)主題過濾29-33
- 3.1.1 初始URL30
- 3.1.2 主題詞庫確定30-31
- 3.1.3 主題相關(guān)性判斷31-33
- 3.2 Web地理位置標(biāo)記33-37
- 3.2.1 地名詞典33-34
- 3.2.2 地名識別34-35
- 3.2.3 地名分辨35-36
- 3.2.4 地理聚焦點(diǎn)確定36-37
- 3.3 本章小結(jié)37-38
- 4 農(nóng)村信息服務(wù)移動搜索網(wǎng)頁索引模塊設(shè)計(jì)38-45
- 4.1 文本倒排索引38-40
- 4.2 基于MBR的空間R-tree索引40-41
- 4.3 農(nóng)村信息服務(wù)移動搜索使用的混合索引41-44
- 4.4 本章小結(jié)44-45
- 5 農(nóng)村信息服務(wù)移動搜索排序模塊設(shè)計(jì)45-50
- 5.1 Nutch排序機(jī)制45-48
- 5.2 農(nóng)村信息服務(wù)移動搜索排序算法48-49
- 5.3 本章小結(jié)49-50
- 6 系統(tǒng)實(shí)現(xiàn)與結(jié)果分析50-54
- 6.1 實(shí)驗(yàn)數(shù)據(jù)與系統(tǒng)實(shí)現(xiàn)50-51
- 6.2 性能分析51-53
- 6.2.1 分析方法51
- 6.2.2 結(jié)果分析51-53
- 6.3 本章小結(jié)53-54
- 7 總結(jié)與展望54-56
- 7.1 論文工作總結(jié)54-55
- 7.2 未來研究展望55-56
- 參考文獻(xiàn)56-59
- 致謝59-60
- 個人簡介60-61
- 在讀期間發(fā)表的學(xué)術(shù)論文和參加的科研項(xiàng)目情況61
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 管延斌;;低成本推進(jìn)農(nóng)村信息服務(wù)的初步探索:新農(nóng)村商網(wǎng)[J];中國信息界;2007年08期
2 韋東方;游專;;我國農(nóng)村信息服務(wù)點(diǎn)建設(shè)中的問題與對策[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2008年11期
3 周應(yīng)萍;;加快陜西省農(nóng)村信息服務(wù)發(fā)展的幾點(diǎn)思考[J];農(nóng)業(yè)圖書情報學(xué)刊;2010年08期
4 李海英;;我院圖書館在農(nóng)村信息服務(wù)建設(shè)中的優(yōu)勢[J];才智;2012年05期
5 陳國紅;靈活多樣開發(fā)農(nóng)村信息服務(wù)市場[J];通信企業(yè)管理;1998年12期
6 羅長壽,劉鵬;農(nóng)村信息服務(wù)發(fā)展對策分析[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年05期
7 盧光明;;目前我國農(nóng)業(yè)農(nóng)村信息服務(wù)市場的產(chǎn)權(quán)模式分析[J];中國信息界;2006年14期
8 趙俊曄;;我國農(nóng)村信息服務(wù)的特點(diǎn)與模式選擇[J];農(nóng)業(yè)圖書情報學(xué)刊;2006年11期
9 ;農(nóng)村信息服務(wù)樣本交流研討會和《中國農(nóng)村信息服務(wù)樣本庫》一書樣本征集啟事[J];中國信息界;2007年07期
10 郭作玉;;中國信息化趨勢報告(六十三) 農(nóng)業(yè)農(nóng)村信息服務(wù):多元化 社會化 網(wǎng)絡(luò)化[J];中國信息界;2007年08期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 苗潤蓮;李梅;劉娟;;北京農(nóng)村信息服務(wù)實(shí)踐及對策建議[A];自主創(chuàng)新與持續(xù)增長第十一屆中國科協(xié)年會論文集(4)[C];2009年
2 于良芝;王俊平;;農(nóng)村信息服務(wù)效果及影響因素:信息服務(wù)組織視角[A];第五次全國圖書館學(xué)基礎(chǔ)理論研討會論文集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 郭作玉;農(nóng)業(yè)農(nóng)村信息服務(wù):多元化 社會化 網(wǎng)絡(luò)化[N];中國電子報;2007年
2 國務(wù)院經(jīng)濟(jì)發(fā)展研究中心 李廣乾;掃清農(nóng)村信息服務(wù)的障礙[N];中國計(jì)算機(jī)報;2007年
3 記者 王長河;寶豐開通新農(nóng)村信息服務(wù)網(wǎng)站[N];平頂山日報;2006年
4 岳麟;發(fā)展農(nóng)村信息服務(wù)成當(dāng)務(wù)之急[N];太原日報;2007年
5 依一;農(nóng)村信息服務(wù)向多元化社會化網(wǎng)絡(luò)化發(fā)展[N];中國國門時報;2007年
6 周艷俠;農(nóng)村信息服務(wù)工作委員會成立[N];科技日報;2007年
7 記者 崔立勇;農(nóng)村信息服務(wù)工作委員會在京成立[N];中國經(jīng)濟(jì)導(dǎo)報;2008年
8 本報記者 林憬輝;農(nóng)村信息服務(wù)重在對口[N];通信信息報;2007年
9 周艷俠;中國互聯(lián)網(wǎng)協(xié)會農(nóng)村信息服務(wù)工作委員會在京成立[N];大眾科技報;2007年
10 信文;互聯(lián)網(wǎng)協(xié)會成立農(nóng)村信息服務(wù)工作委員會[N];中國計(jì)算機(jī)報;2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳立平;農(nóng)村信息服務(wù)途徑和模式研究[D];中國農(nóng)業(yè)科學(xué)院;2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王緣;新媒體應(yīng)用于我國農(nóng)村信息服務(wù)的研究[D];云南大學(xué);2016年
2 張晟;基于Android平臺的農(nóng)村信息服務(wù)移動端的設(shè)計(jì)與實(shí)現(xiàn)[D];安徽農(nóng)業(yè)大學(xué);2015年
3 趙永鑫;基于Nutch的農(nóng)村信息服務(wù)移動搜索引擎研究[D];安徽農(nóng)業(yè)大學(xué);2015年
4 朱志勇;我國農(nóng)村信息服務(wù)平臺及其應(yīng)用研究[D];華中師范大學(xué);2011年
5 蔣萍;江蘇農(nóng)村信息服務(wù)建設(shè)中的問題和對策研究[D];南京郵電大學(xué);2011年
6 王君君;農(nóng)村信息服務(wù)影響因素分析[D];長江大學(xué);2012年
7 成蘭;信息管理理論視角下我國農(nóng)村信息服務(wù)組織建構(gòu)研究[D];上海師范大學(xué);2009年
8 蔣鋒;基于項(xiàng)目管理的農(nóng)村信息服務(wù)建設(shè)[D];南京郵電大學(xué);2012年
9 何麗貞;莆田市農(nóng)村信息服務(wù)供給研究[D];福建農(nóng)林大學(xué);2013年
10 肖P;農(nóng)村信息服務(wù)需求影響因素研究[D];復(fù)旦大學(xué);2009年
,本文編號:1068663
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1068663.html