基于Nutch的農(nóng)村信息服務(wù)移動(dòng)搜索引擎研究
本文關(guān)鍵詞:基于Nutch的農(nóng)村信息服務(wù)移動(dòng)搜索引擎研究
更多相關(guān)文章: 農(nóng)村信息服務(wù) 移動(dòng)搜索 地理標(biāo)記 混合索引 Nutch
【摘要】:隨著4G和大數(shù)據(jù)時(shí)代到來(lái),網(wǎng)絡(luò)資源的爆炸式增長(zhǎng)。針對(duì)農(nóng)村信息服務(wù)領(lǐng)域的快速發(fā)展,結(jié)合智能移動(dòng)設(shè)備的優(yōu)勢(shì),提供一個(gè)具有主題相關(guān)性、本地相近性以及高準(zhǔn)確率的移動(dòng)搜索引擎,是涉農(nóng)網(wǎng)站應(yīng)該具備的主要功能,方便農(nóng)戶(hù)快捷、精準(zhǔn)的搜索到所需信息,它可以提高農(nóng)戶(hù)搜索體驗(yàn)感,推進(jìn)農(nóng)村信息化建設(shè),完善農(nóng)業(yè)服務(wù)體系。農(nóng)村信息服務(wù)移動(dòng)搜索引擎技術(shù)是提高農(nóng)村服務(wù)信息獲取精準(zhǔn)性、增強(qiáng)農(nóng)戶(hù)搜索體驗(yàn)感的關(guān)鍵性技術(shù),是當(dāng)前農(nóng)村信息服務(wù)領(lǐng)域的研究重點(diǎn)和熱點(diǎn)。農(nóng)村信息服務(wù)移動(dòng)搜索引擎技術(shù)是圍繞農(nóng)村信息服務(wù)領(lǐng)域的移動(dòng)搜索技術(shù)。在Nutch引擎技術(shù)基礎(chǔ)上,圍繞農(nóng)村信息服務(wù)主題,利用向量空間模型(Vector Space Model)算法,實(shí)現(xiàn)網(wǎng)頁(yè)中農(nóng)村信息服務(wù)主題過(guò)濾,同時(shí)結(jié)合國(guó)家地名詞典,完成網(wǎng)頁(yè)中空間位置信息的提取;在研究面向集合的文本搜索倒排文件(Inverted File)索引技術(shù)和面向二維空間的R-tree索引技術(shù)的基礎(chǔ)上,構(gòu)建先倒排文件后R-tree混合索引模型,即IR混合索引,實(shí)現(xiàn)農(nóng)村信息服務(wù)移動(dòng)搜索的索引功能;在研究Lucene排序算法理論基礎(chǔ)上,綜合考慮地理空間位置因素和Web內(nèi)容相關(guān)性因素,改進(jìn)排序算法,對(duì)搜索結(jié)果進(jìn)行有效的優(yōu)化,展現(xiàn)地理位置相近性和搜索主題相關(guān)性的排序結(jié)果;圍繞農(nóng)村信息服務(wù)領(lǐng)域,用戶(hù)利用移動(dòng)設(shè)備,能夠更便捷、更快速、更有效的實(shí)現(xiàn)基于位置和關(guān)鍵字雙重檢索。論文研究主要內(nèi)容如下:首先,研究構(gòu)建基于Nutch的農(nóng)村信息服務(wù)移動(dòng)搜索引擎系統(tǒng)整體框架。在重點(diǎn)研究傳統(tǒng)搜索引擎的工作原理與關(guān)鍵技術(shù)基礎(chǔ)上,利用開(kāi)源搜索引擎Nutch,提出改進(jìn)的基于Nutch的農(nóng)村信息服務(wù)移動(dòng)搜索引擎系統(tǒng)設(shè)計(jì),并概括介紹系統(tǒng)各個(gè)模塊的設(shè)計(jì)以及優(yōu)化方案;其次,研究設(shè)計(jì)農(nóng)村信息服務(wù)移動(dòng)搜索引擎網(wǎng)頁(yè)采集功能模塊。本模塊主要研究農(nóng)村信息服務(wù)主題過(guò)濾模型和Web網(wǎng)頁(yè)地理位置信息獲取算法。農(nóng)村信息服務(wù)主題過(guò)濾模型通過(guò)人工選擇獲得農(nóng)村信息服務(wù)主題相關(guān)的初始URL,利用中文分詞系統(tǒng)構(gòu)建主題詞庫(kù),并根據(jù)VSM算法,判別抓取網(wǎng)頁(yè)與主題詞庫(kù)之間的主題相關(guān)度,實(shí)現(xiàn)圍繞農(nóng)村信息服務(wù)主題的網(wǎng)頁(yè)抓取和過(guò)濾;Web網(wǎng)頁(yè)地理位置信息獲取通過(guò)結(jié)合國(guó)家地名詞典,利用地名識(shí)別、地名分辨、地理聚焦點(diǎn)確定三個(gè)過(guò)程來(lái)最終實(shí)現(xiàn);再次,研究設(shè)計(jì)農(nóng)村信息服務(wù)移動(dòng)搜索索引功能模塊。為實(shí)現(xiàn)基于Nutch的農(nóng)村信息服務(wù)移動(dòng)搜索引擎同時(shí)具有文本檢索能力和空間位置信息檢索功能,本文在研究面向集合的文本搜索倒排文件索引技術(shù)和面向二維空間的R-tree索引技術(shù)的基礎(chǔ)上,構(gòu)建先倒排文件后R-tree混合索引模型,為農(nóng)村信息服務(wù)移動(dòng)搜索具有高效檢索能力提供技術(shù)保障;最后,研究設(shè)計(jì)農(nóng)村信息服務(wù)移動(dòng)搜索排序功能模塊。根據(jù)移動(dòng)搜索環(huán)境中信息的文本相關(guān)性和距離相近性,在Nutch評(píng)分排序算法的基礎(chǔ)上,提出基于位置感知的top-k文本檢索(Lk T)查詢(xún)排序,分別對(duì)搜索關(guān)鍵詞與抓取網(wǎng)頁(yè)之間的文本相關(guān)性因素,以及查詢(xún)地點(diǎn)與網(wǎng)頁(yè)地理聚焦點(diǎn)之間的距離相近性因素進(jìn)行歸一化處理,并且根據(jù)權(quán)重進(jìn)行線性合并,設(shè)計(jì)農(nóng)村信息服務(wù)移動(dòng)搜索排序模塊,實(shí)現(xiàn)優(yōu)先排序出本地化的重要信息。實(shí)驗(yàn)結(jié)果表明,圍繞農(nóng)村信息服務(wù)領(lǐng)域,基于Nutch的農(nóng)村信息服務(wù)移動(dòng)搜索引擎具有較高的檢索質(zhì)量,能夠滿(mǎn)足農(nóng)戶(hù)移動(dòng)檢索的需求。
【關(guān)鍵詞】:農(nóng)村信息服務(wù) 移動(dòng)搜索 地理標(biāo)記 混合索引 Nutch
【學(xué)位授予單位】:安徽農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要3-5
- Abstract5-16
- 1 緒論16-21
- 1.1 研究背景與意義16-17
- 1.1.1 研究背景16-17
- 1.1.2 研究意義17
- 1.2 研究思路與內(nèi)容17-21
- 1.2.1 研究思路17-18
- 1.2.2 研究?jī)?nèi)容18-19
- 1.2.3 研究結(jié)構(gòu)19-21
- 2 農(nóng)村信息服務(wù)移動(dòng)搜索引擎總體設(shè)計(jì)21-29
- 2.1 傳統(tǒng)搜索引擎技術(shù)研究21-25
- 2.1.1 網(wǎng)頁(yè)采集模塊21-23
- 2.1.2 網(wǎng)頁(yè)預(yù)處理模塊23-24
- 2.1.3 網(wǎng)頁(yè)查詢(xún)服務(wù)24-25
- 2.2 開(kāi)源搜索引擎Nutch25-26
- 2.2.1 Nutch架構(gòu)組成25-26
- 2.2.2 Nutch工作原理26
- 2.3 農(nóng)村信息服務(wù)移動(dòng)搜索引擎設(shè)計(jì)26-28
- 2.4 本章小結(jié)28-29
- 3 農(nóng)村信息服務(wù)移動(dòng)搜索引擎網(wǎng)頁(yè)采集模塊設(shè)計(jì)29-38
- 3.1 農(nóng)村信息服務(wù)主題過(guò)濾29-33
- 3.1.1 初始URL30
- 3.1.2 主題詞庫(kù)確定30-31
- 3.1.3 主題相關(guān)性判斷31-33
- 3.2 Web地理位置標(biāo)記33-37
- 3.2.1 地名詞典33-34
- 3.2.2 地名識(shí)別34-35
- 3.2.3 地名分辨35-36
- 3.2.4 地理聚焦點(diǎn)確定36-37
- 3.3 本章小結(jié)37-38
- 4 農(nóng)村信息服務(wù)移動(dòng)搜索網(wǎng)頁(yè)索引模塊設(shè)計(jì)38-45
- 4.1 文本倒排索引38-40
- 4.2 基于MBR的空間R-tree索引40-41
- 4.3 農(nóng)村信息服務(wù)移動(dòng)搜索使用的混合索引41-44
- 4.4 本章小結(jié)44-45
- 5 農(nóng)村信息服務(wù)移動(dòng)搜索排序模塊設(shè)計(jì)45-50
- 5.1 Nutch排序機(jī)制45-48
- 5.2 農(nóng)村信息服務(wù)移動(dòng)搜索排序算法48-49
- 5.3 本章小結(jié)49-50
- 6 系統(tǒng)實(shí)現(xiàn)與結(jié)果分析50-54
- 6.1 實(shí)驗(yàn)數(shù)據(jù)與系統(tǒng)實(shí)現(xiàn)50-51
- 6.2 性能分析51-53
- 6.2.1 分析方法51
- 6.2.2 結(jié)果分析51-53
- 6.3 本章小結(jié)53-54
- 7 總結(jié)與展望54-56
- 7.1 論文工作總結(jié)54-55
- 7.2 未來(lái)研究展望55-56
- 參考文獻(xiàn)56-59
- 致謝59-60
- 個(gè)人簡(jiǎn)介60-61
- 在讀期間發(fā)表的學(xué)術(shù)論文和參加的科研項(xiàng)目情況61
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 管延斌;;低成本推進(jìn)農(nóng)村信息服務(wù)的初步探索:新農(nóng)村商網(wǎng)[J];中國(guó)信息界;2007年08期
2 韋東方;游專(zhuān);;我國(guó)農(nóng)村信息服務(wù)點(diǎn)建設(shè)中的問(wèn)題與對(duì)策[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2008年11期
3 周應(yīng)萍;;加快陜西省農(nóng)村信息服務(wù)發(fā)展的幾點(diǎn)思考[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2010年08期
4 李海英;;我院圖書(shū)館在農(nóng)村信息服務(wù)建設(shè)中的優(yōu)勢(shì)[J];才智;2012年05期
5 陳國(guó)紅;靈活多樣開(kāi)發(fā)農(nóng)村信息服務(wù)市場(chǎng)[J];通信企業(yè)管理;1998年12期
6 羅長(zhǎng)壽,劉鵬;農(nóng)村信息服務(wù)發(fā)展對(duì)策分析[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年05期
7 盧光明;;目前我國(guó)農(nóng)業(yè)農(nóng)村信息服務(wù)市場(chǎng)的產(chǎn)權(quán)模式分析[J];中國(guó)信息界;2006年14期
8 趙俊曄;;我國(guó)農(nóng)村信息服務(wù)的特點(diǎn)與模式選擇[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2006年11期
9 ;農(nóng)村信息服務(wù)樣本交流研討會(huì)和《中國(guó)農(nóng)村信息服務(wù)樣本庫(kù)》一書(shū)樣本征集啟事[J];中國(guó)信息界;2007年07期
10 郭作玉;;中國(guó)信息化趨勢(shì)報(bào)告(六十三) 農(nóng)業(yè)農(nóng)村信息服務(wù):多元化 社會(huì)化 網(wǎng)絡(luò)化[J];中國(guó)信息界;2007年08期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 苗潤(rùn)蓮;李梅;劉娟;;北京農(nóng)村信息服務(wù)實(shí)踐及對(duì)策建議[A];自主創(chuàng)新與持續(xù)增長(zhǎng)第十一屆中國(guó)科協(xié)年會(huì)論文集(4)[C];2009年
2 于良芝;王俊平;;農(nóng)村信息服務(wù)效果及影響因素:信息服務(wù)組織視角[A];第五次全國(guó)圖書(shū)館學(xué)基礎(chǔ)理論研討會(huì)論文集[C];2007年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 郭作玉;農(nóng)業(yè)農(nóng)村信息服務(wù):多元化 社會(huì)化 網(wǎng)絡(luò)化[N];中國(guó)電子報(bào);2007年
2 國(guó)務(wù)院經(jīng)濟(jì)發(fā)展研究中心 李廣乾;掃清農(nóng)村信息服務(wù)的障礙[N];中國(guó)計(jì)算機(jī)報(bào);2007年
3 記者 王長(zhǎng)河;寶豐開(kāi)通新農(nóng)村信息服務(wù)網(wǎng)站[N];平頂山日?qǐng)?bào);2006年
4 岳麟;發(fā)展農(nóng)村信息服務(wù)成當(dāng)務(wù)之急[N];太原日?qǐng)?bào);2007年
5 依一;農(nóng)村信息服務(wù)向多元化社會(huì)化網(wǎng)絡(luò)化發(fā)展[N];中國(guó)國(guó)門(mén)時(shí)報(bào);2007年
6 周艷俠;農(nóng)村信息服務(wù)工作委員會(huì)成立[N];科技日?qǐng)?bào);2007年
7 記者 崔立勇;農(nóng)村信息服務(wù)工作委員會(huì)在京成立[N];中國(guó)經(jīng)濟(jì)導(dǎo)報(bào);2008年
8 本報(bào)記者 林憬輝;農(nóng)村信息服務(wù)重在對(duì)口[N];通信信息報(bào);2007年
9 周艷俠;中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)農(nóng)村信息服務(wù)工作委員會(huì)在京成立[N];大眾科技報(bào);2007年
10 信文;互聯(lián)網(wǎng)協(xié)會(huì)成立農(nóng)村信息服務(wù)工作委員會(huì)[N];中國(guó)計(jì)算機(jī)報(bào);2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 陳立平;農(nóng)村信息服務(wù)途徑和模式研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王緣;新媒體應(yīng)用于我國(guó)農(nóng)村信息服務(wù)的研究[D];云南大學(xué);2016年
2 張晟;基于Android平臺(tái)的農(nóng)村信息服務(wù)移動(dòng)端的設(shè)計(jì)與實(shí)現(xiàn)[D];安徽農(nóng)業(yè)大學(xué);2015年
3 趙永鑫;基于Nutch的農(nóng)村信息服務(wù)移動(dòng)搜索引擎研究[D];安徽農(nóng)業(yè)大學(xué);2015年
4 朱志勇;我國(guó)農(nóng)村信息服務(wù)平臺(tái)及其應(yīng)用研究[D];華中師范大學(xué);2011年
5 蔣萍;江蘇農(nóng)村信息服務(wù)建設(shè)中的問(wèn)題和對(duì)策研究[D];南京郵電大學(xué);2011年
6 王君君;農(nóng)村信息服務(wù)影響因素分析[D];長(zhǎng)江大學(xué);2012年
7 成蘭;信息管理理論視角下我國(guó)農(nóng)村信息服務(wù)組織建構(gòu)研究[D];上海師范大學(xué);2009年
8 蔣鋒;基于項(xiàng)目管理的農(nóng)村信息服務(wù)建設(shè)[D];南京郵電大學(xué);2012年
9 何麗貞;莆田市農(nóng)村信息服務(wù)供給研究[D];福建農(nóng)林大學(xué);2013年
10 肖P;農(nóng)村信息服務(wù)需求影響因素研究[D];復(fù)旦大學(xué);2009年
,本文編號(hào):1068663
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1068663.html