天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

內(nèi)蒙古自治區(qū)旅游領(lǐng)域知識庫構(gòu)建及應(yīng)用研究

發(fā)布時間:2021-01-04 02:53
  互聯(lián)網(wǎng)技術(shù)不斷推陳出新,信息同時也在成指數(shù)級爆炸增長,搜索引擎逐漸代替?zhèn)鹘y(tǒng)書本,成為人們快速獲取知識的重要來源。對海量的互聯(lián)網(wǎng)數(shù)據(jù)進行規(guī)范化,并挖掘利用其有效的信息,是人工智能領(lǐng)域發(fā)展的重要研究課題。自2012年谷歌提出了知識圖譜的概念,并成功應(yīng)用在搜索引擎中,知識圖譜即知識庫成為一項建立并規(guī)范一定規(guī)模知識資源的技術(shù)。之后,業(yè)界將關(guān)注焦點聚集在如何研究構(gòu)建具體領(lǐng)域的垂直知識圖譜,其中,進展較快的項目多為金融領(lǐng)域,旅游領(lǐng)域涉及較少,而學術(shù)界和工業(yè)界也沒有公開的內(nèi)蒙古旅游領(lǐng)域知識圖譜的成果。本文旨在整合內(nèi)蒙古自治區(qū)旅游領(lǐng)域的景點信息,建立多源數(shù)據(jù)的領(lǐng)域本體知識庫。首先,設(shè)計爬蟲類工具,從百科類和旅游類網(wǎng)站獲取關(guān)于內(nèi)蒙古自治區(qū)A級景點的信息。經(jīng)過知識清洗等預處理工作后,形成<實體,屬性,屬性值>和<實體1,關(guān)系,實體2>形式的三元組知識。其次,將獲取的三元組通過Protégé本體編輯工具,自頂向下地規(guī)范模式層的概念,降低與數(shù)據(jù)層對接的成本。最后,使用圖數(shù)據(jù)庫Neo4j,存儲模式層的本體和數(shù)據(jù)層的三元組知識,完成知識庫的構(gòu)建,F(xiàn)有搜索引擎對于用戶的提問,返回的結(jié)果多為基... 

【文章來源】:內(nèi)蒙古大學內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】:57 頁

【學位級別】:碩士

【部分圖文】:

內(nèi)蒙古自治區(qū)旅游領(lǐng)域知識庫構(gòu)建及應(yīng)用研究


數(shù)據(jù)獲取流程

流程圖,流程,引擎,組件


圖 3.2 通用爬蟲流程Figure 3.2 the basic work of SpiderScrapy,是一種高效的 Python 爬蟲框架,使用事件驅(qū)動網(wǎng)絡(luò)引擎框架 Twisted 作基礎(chǔ)框架,實現(xiàn)了快速、高層次的 Web 數(shù)據(jù)爬取。Scrapy 的用途廣泛,除了作為通用網(wǎng)絡(luò)爬蟲工具,還可以獲取 API 所返回的數(shù)據(jù),也用于數(shù)據(jù)挖掘、檢測和自動化測試[59]。Scrapy 框架包含較多組件,引擎、爬蟲、調(diào)度器、下載器、管道項目和中間件,對應(yīng)框架中名稱 Scrapy Engine、Spider、Scheduler、Downloader 和 Item Pipeline,中間件包括 Spider Middlewares 和 Downloader Middlewares。這些組件協(xié)同高效地完成爬蟲工作。整個框架的核心 Engine,控制數(shù)據(jù)流在各組件間流轉(zhuǎn),處理了大部分的操作;Scheduler 則接受引擎發(fā)送的 Request 對象,并按照一定方式進行整理后加入隊列,在引擎需要時傳回請求對象;Downloader 負責下載引擎發(fā)送

行政區(qū)劃,示例,景點


景點實體和城市實體兩類名稱,一般情況不易變更,并且是景點知識庫的重要組成部分。因此本文主要獲取景點名稱和城市名稱這兩種實體,形成結(jié)構(gòu)化詞條,便于屬性的爬取。考慮到一個命名實體的指稱項可能對應(yīng)多個實體概念,因此需要盡可能獲得多的不同叫法實體名稱。景點實體的來源分為兩部分,一份為官方旅游發(fā)展委員會公開的 A 級旅游景區(qū)名單[62],共 362 個 A 級景點:包含景點名稱、景點等級和評級時間,一份是已收集到的內(nèi)蒙古自治區(qū)景點名,共 1006 個景點。憲法第三十條規(guī)定了的三級行政區(qū)域劃分[63],地名實體按此標準分為,第一級:全國為最大行政區(qū)劃,下分為省、自治區(qū)或直轄市;第二級:省、自治區(qū)下轄市、縣、自治縣、自治州;第三級:直轄市和較大的市區(qū)下轄區(qū)、縣,自治州分為縣、自治縣、市,縣、自治縣分為鄉(xiāng)、民族鄉(xiāng)、鎮(zhèn)。通過行政區(qū)劃網(wǎng)[64],獲取到內(nèi)蒙古自治區(qū)獲取各個級別的名稱和行政區(qū)劃代碼,共 12 個二級及103 個三級區(qū)劃單位的地名,得到地名實體。如圖 3.3 為內(nèi)蒙古自治區(qū)的三級行政區(qū)劃。

【參考文獻】:
期刊論文
[1]基于OWL+SKOS的期刊本體構(gòu)建與應(yīng)用[J]. 羅婷婷,李嬌,鮮國建,趙瑞雪,寇遠濤.  數(shù)字圖書館論壇. 2018(12)
[2]Scrapy分布式爬蟲搜索引擎[J]. 劉思林.  電腦知識與技術(shù). 2018(34)
[3]融合知識表示的知識庫問答系統(tǒng)[J]. 安波,韓先培,孫樂.  中國科學:信息科學. 2018(11)
[4]中文實體關(guān)系抽取研究綜述[J]. 武文雅,陳鈺楓,徐金安,張玉潔.  計算機與現(xiàn)代化. 2018(08)
[5]命名實體識別研究綜述[J]. 劉瀏,王東波.  情報學報. 2018(03)
[6]特定領(lǐng)域概念屬性關(guān)系抽取方法研究[J]. 王旭陽,姜喜秋.  吉林大學學報(信息科學版). 2017(04)
[7]基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J]. 劉宇,鄭成煥.  軟件. 2017(07)
[8]垂直知識圖譜的構(gòu)建與應(yīng)用研究[J]. 阮彤,王夢婕,王昊奮,胡芳槐.  知識管理論壇. 2016(03)
[9]本體研究綜述[J]. 王向前,張寶隆,李慧宗.  情報雜志. 2016(06)
[10]知識庫實體對齊技術(shù)綜述[J]. 莊嚴,李國良,馮建華.  計算機研究與發(fā)展. 2016(01)

博士論文
[1]基于領(lǐng)域本體的蒙醫(yī)藥學知識庫構(gòu)建與知識發(fā)現(xiàn)研究[D]. 鮑玉來.吉林大學 2018
[2]基于本體的中國行政區(qū)劃地名識別與抽取研究[D]. 杜萍.蘭州大學 2011
[3]信息抽取中關(guān)鍵技術(shù)的研究[D]. 張素香.北京郵電大學 2007
[4]基于本體的不確定性知識管理研究[D]. 程勇.中國科學院研究生院(計算技術(shù)研究所) 2005

碩士論文
[1]基于地理本體的吉林地域知識圖譜的構(gòu)建[D]. 劉鎏.北京交通大學 2017
[2]古建筑領(lǐng)域本體的構(gòu)建及應(yīng)用研究[D]. 徐月潔.廣西師范大學 2017



本文編號:2956005

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2956005.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶02397***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com