位置服務(wù)信息集成與搜索系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-06-01 21:57
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,尤其是移動(dòng)互聯(lián)網(wǎng)技術(shù)日新月異的近10年間,基于位置的服務(wù)信息越來越多且越來越重要,如租房、家政、商家、酒店等服務(wù)信息;旧仙钪信c衣食住行息息相關(guān)的服務(wù)信息都可以發(fā)布在互聯(lián)網(wǎng)上,并且越來越多的信息會(huì)附帶有位置坐標(biāo)。如何將這些服務(wù)信息進(jìn)行采集、分析、存儲(chǔ)并以用戶為中心提供個(gè)性化的搜索服務(wù)成為現(xiàn)實(shí)亟需解決的問題。本文實(shí)現(xiàn)了位置服務(wù)信息分別從互聯(lián)網(wǎng)和用戶的采集,并對(duì)采集的數(shù)據(jù)進(jìn)行分析、存儲(chǔ)和索引,實(shí)現(xiàn)了對(duì)服務(wù)信息的個(gè)性化搜索,讓用戶精確、便捷、個(gè)性化地搜索獲取所需的服務(wù)信息。本文主要工作如下:1.針對(duì)從互聯(lián)網(wǎng)垂直領(lǐng)域站點(diǎn)采集位置服務(wù)信息過程中目標(biāo)站點(diǎn)較強(qiáng)的反爬蟲策略,為提高需求數(shù)據(jù)的采集效率,設(shè)計(jì)、開發(fā)并實(shí)現(xiàn)了一個(gè)基于客戶端-服務(wù)器模式的爬蟲模型。服務(wù)器端負(fù)責(zé)動(dòng)態(tài)控制任務(wù)URL的生產(chǎn)、調(diào)度以及對(duì)采集結(jié)果的收集,客戶端程序定時(shí)主動(dòng)請(qǐng)求任務(wù)URL并采集所需數(shù)據(jù)?蛻舳嗽O(shè)計(jì)了動(dòng)態(tài)改變采集設(shè)置以達(dá)到最優(yōu)采集效率的策略,服務(wù)器根據(jù)客戶端消費(fèi)任務(wù)的效率動(dòng)態(tài)生產(chǎn)適量的任務(wù)URL。任務(wù)的生產(chǎn)、調(diào)度與采集結(jié)果的收集是通過設(shè)置監(jiān)聽、一系列定時(shí)任務(wù)及一張任務(wù)表配合完成。任務(wù)表狀態(tài)字段精確控制采集任務(wù)的狀態(tài),以確保數(shù)據(jù)采集的時(shí)效性及完整性。通過采集測(cè)試和與其他爬蟲的對(duì)比,驗(yàn)證了設(shè)計(jì)的任務(wù)生產(chǎn)與調(diào)度策略以及客戶端采集設(shè)置動(dòng)態(tài)調(diào)節(jié)策略的實(shí)用性。該模型實(shí)現(xiàn)了讓更多、更廣泛的節(jié)點(diǎn)為數(shù)據(jù)采集需求服務(wù),達(dá)到了預(yù)期可觀的采集效率。2.為了讓可以提供個(gè)性化服務(wù)的用戶便捷地發(fā)布各類帶有位置坐標(biāo)的服務(wù)信息,設(shè)計(jì)、開發(fā)了從用戶采集位置服務(wù)信息模塊的后臺(tái)程序與移動(dòng)端APP。后臺(tái)程序基于Java Web分層架構(gòu)使用SSM框架搭建,設(shè)計(jì)了與數(shù)據(jù)采集業(yè)務(wù)相關(guān)的接口程序。移動(dòng)端基于Android Studio開發(fā)環(huán)境應(yīng)用百度地圖SDK設(shè)計(jì)組件及界面,實(shí)現(xiàn)了從提供服務(wù)的用戶采集不同類別的位置服務(wù)信息。位置信息獲取設(shè)計(jì)有地圖定位、選點(diǎn)獲取坐標(biāo)和坐標(biāo)與地址信息相互轉(zhuǎn)換功能;新增店鋪和服務(wù)信息模塊設(shè)計(jì)有服務(wù)類別提示,類別信息由類別編碼表維護(hù);同時(shí),實(shí)現(xiàn)移動(dòng)端拍照和相冊(cè)選取獲取圖片數(shù)據(jù)與后臺(tái)程序交互。3.為了讓用戶能夠通過搜索框一次性、便捷地輸入個(gè)性化查詢信息并快速、精確地獲取所需的查詢結(jié)果,設(shè)計(jì)、實(shí)現(xiàn)了一個(gè)位置服務(wù)信息個(gè)性化搜索引擎。首先,按生產(chǎn)環(huán)境配置要求搭建了Elasticsearch分布式集群。之后,對(duì)集成的位置服務(wù)信息按一定規(guī)則構(gòu)建了領(lǐng)域詞庫(kù)和詞匯分級(jí)權(quán)重表。領(lǐng)域詞庫(kù)用于提高索引與查詢數(shù)據(jù)的準(zhǔn)確度。詞匯分級(jí)權(quán)重表用于在構(gòu)建查詢語句時(shí)賦予該表中出現(xiàn)的關(guān)鍵字對(duì)應(yīng)權(quán)重,以增加相關(guān)度評(píng)分。前端設(shè)計(jì)有查詢信息輸入提示規(guī)則以便讓用戶一次性、便捷地輸入查詢信息。后臺(tái)程序按規(guī)則對(duì)查詢信息析取詞匯并根據(jù)詞匯級(jí)別構(gòu)造索引庫(kù)查詢語句搜索文檔。最后,通過示例驗(yàn)證,該搜索引擎實(shí)現(xiàn)了讓用戶一次性、便捷地輸入查詢信息并快速、精確地響應(yīng)給用戶所需的查詢結(jié)果。
【圖文】:
位置服務(wù)信息集成與搜索系統(tǒng)的研究與實(shí)現(xiàn)(Python,NET,,Java,Ruby 等)的 API 和基于 HTTP 的 RESTfulAPI 與外部進(jìn)行交互。同時(shí),其提供了高效的聚合分析功能[19]。目前國(guó)內(nèi)外很多公司在使用 ElasticSearch 作為應(yīng)用的搜索引擎框架[17]。維基百科使用 ElasticSearch 進(jìn)行全文搜索并突出顯示查詢?cè)~。英國(guó)衛(wèi)報(bào)使用 ElasticSearch 處理訪客日志,以便公眾對(duì)不同文章的回復(fù)實(shí)時(shí)反饋給各位編輯。GitHub 核心架構(gòu)由 Solr 轉(zhuǎn)向Elasticsearch 來檢索超過 1300 億行代碼[20]。截至 2018 年 9 月全球部分搜索引擎框架使用流行趨勢(shì)圖[21],如圖 1.1 所示。
圖1.2位置服務(wù)信息集成與搜索系統(tǒng)總體組織結(jié)構(gòu)圖
【學(xué)位授予單位】:蘭州理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP393.09;TP391.3
本文編號(hào):2692125
【圖文】:
位置服務(wù)信息集成與搜索系統(tǒng)的研究與實(shí)現(xiàn)(Python,NET,,Java,Ruby 等)的 API 和基于 HTTP 的 RESTfulAPI 與外部進(jìn)行交互。同時(shí),其提供了高效的聚合分析功能[19]。目前國(guó)內(nèi)外很多公司在使用 ElasticSearch 作為應(yīng)用的搜索引擎框架[17]。維基百科使用 ElasticSearch 進(jìn)行全文搜索并突出顯示查詢?cè)~。英國(guó)衛(wèi)報(bào)使用 ElasticSearch 處理訪客日志,以便公眾對(duì)不同文章的回復(fù)實(shí)時(shí)反饋給各位編輯。GitHub 核心架構(gòu)由 Solr 轉(zhuǎn)向Elasticsearch 來檢索超過 1300 億行代碼[20]。截至 2018 年 9 月全球部分搜索引擎框架使用流行趨勢(shì)圖[21],如圖 1.1 所示。
圖1.2位置服務(wù)信息集成與搜索系統(tǒng)總體組織結(jié)構(gòu)圖
【學(xué)位授予單位】:蘭州理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP393.09;TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 張艷輝;劉培玉;;基于互信息的微博新詞發(fā)現(xiàn)算法[J];科技視界;2015年15期
2 唐娜;肖鸝;;信息檢索技術(shù)的研究[J];湖北科技學(xué)院學(xué)報(bào);2015年05期
3 吳吉義;李文娟;黃劍平;章劍林;陳德人;;移動(dòng)互聯(lián)網(wǎng)研究綜述[J];中國(guó)科學(xué):信息科學(xué);2015年01期
4 李明;劉晉;;基于關(guān)聯(lián)規(guī)則的新詞發(fā)現(xiàn)技術(shù)研究[J];科技與企業(yè);2012年09期
5 胡軍偉;秦奕青;張偉;;正則表達(dá)式在Web信息抽取中的應(yīng)用[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年06期
本文編號(hào):2692125
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2692125.html
最近更新
教材專著