當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于百科和垂直網(wǎng)站的景點(diǎn)屬性關(guān)系抽取研究

發(fā)布時(shí)間：2021-02-21 01:45

　　隨著信息技術(shù)的更新迭代,互聯(lián)網(wǎng)的信息量正以指數(shù)級(jí)速度增長,面對(duì)日益增多的文本數(shù)據(jù),如何從其中提取出用戶感興趣的信息已經(jīng)成為近幾年研究的重點(diǎn),信息抽取技術(shù)應(yīng)運(yùn)而生。屬性抽取技術(shù)作為信息抽取技術(shù)的一個(gè)子領(lǐng)域,也是構(gòu)建知識(shí)圖譜必不可少的一部分。屬性抽取是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的一種途徑,屬性抽取技術(shù)日趨成熟,但針對(duì)特定領(lǐng)域?qū)傩猿槿∷惴ㄐ阅苋杂刑嵘臻g。本文主要針對(duì)內(nèi)蒙古旅游領(lǐng)域文本做屬性抽取工作,旨在能夠發(fā)現(xiàn)特定領(lǐng)域中實(shí)體和屬性值之間的關(guān)系,并將抽取結(jié)果轉(zhuǎn)化為供后續(xù)研究的結(jié)構(gòu)化數(shù)據(jù)。本文的重點(diǎn)研究內(nèi)容如下:（1）構(gòu)建內(nèi)蒙古旅游領(lǐng)域語料庫。使用Scrapy爬蟲框架,獲取百科類網(wǎng)站和垂直網(wǎng)站的入口URL,對(duì)文本數(shù)據(jù)進(jìn)行爬取。配置Brat工具對(duì)爬取的語料進(jìn)行人工標(biāo)注,將其轉(zhuǎn)換為BIO標(biāo)注模式。（2）確定旅游領(lǐng)域語料中需要抽取的屬性。將屬性抽取的任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),分別構(gòu)建基于CRF和神經(jīng)網(wǎng)絡(luò)兩種模型。（3）提出基于篇章級(jí)架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。該模型利用BLSTM捕獲文本的上下文信息和時(shí)序信息,利用CRF輸出最優(yōu)標(biāo)簽序列。訓(xùn)練每篇文檔的文檔級(jí)向量,并通過實(shí)驗(yàn)驗(yàn)證模型架構(gòu)的可行性。（4）研究...

【文章來源】：內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】：57 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

無向圖線性鏈結(jié)構(gòu)

工作流程圖,工作流程圖,網(wǎng)站

圖 3.1 Scrapy 工作流程圖Figure 3.1 The work flow of Scrapy料來源有百科網(wǎng)站和垂直網(wǎng)站，百科網(wǎng)站和垂直網(wǎng)站的爬蟲方式略有不同體爬蟲流程如圖 3.2 所示。

工作流程圖,工作流程圖,網(wǎng)站,流程

圖 3.1 Scrapy 工作流程圖Figure 3.1 The work flow of Scrapy源有百科網(wǎng)站和垂直網(wǎng)站，百科網(wǎng)站和垂直網(wǎng)站的爬蟲方式略有不蟲流程如圖 3.2 所示。

【參考文獻(xiàn)】：
博士論文
[1]蒙古文命名實(shí)體識(shí)別研究[D]. 王煒華.內(nèi)蒙古大學(xué) 2018
[2]自然語言處理中序列標(biāo)注模型的研究[D]. 計(jì)峰.復(fù)旦大學(xué) 2012

碩士論文
[1]基于CRF模型的銀行交易短信信息數(shù)據(jù)標(biāo)注研究[D]. 郭得慶.上海師范大學(xué) 2018
[2]基于微信公眾平臺(tái)的文本情感分析研究[D]. 任高山.南昌航空大學(xué) 2018
[3]基于多任務(wù)融合模型的用戶屬性推斷[D]. 趙宇.太原理工大學(xué) 2018
[4]肝癌領(lǐng)域精準(zhǔn)醫(yī)學(xué)語料標(biāo)注[D]. 楊帥.軍事科學(xué)院 2018
[5]基于神經(jīng)網(wǎng)絡(luò)的英文序列標(biāo)注方法研究[D]. 彭宗徽.北京郵電大學(xué) 2018
[6]基于語義特征和監(jiān)督學(xué)習(xí)的廣告評(píng)論識(shí)別方法[D]. 林雪.浙江大學(xué) 2018
[7]中文人物屬性槽填充技術(shù)的研究與實(shí)現(xiàn)[D]. 冷亞玢.北京郵電大學(xué) 2018
[8]基于語義分析的實(shí)體屬性抽取方法研究[D]. 王瀟斌.蘇州大學(xué) 2017
[9]基于深度學(xué)習(xí)的屬性抽取技術(shù)研究[D]. 蔣煥劍.浙江大學(xué) 2017
[10]中文人物屬性抽取技術(shù)的研究與實(shí)現(xiàn)[D]. 張凱倫.北京郵電大學(xué) 2016

本文編號(hào)：3043661

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3043661.html

上一篇：基于深度學(xué)習(xí)的行人檢測與行人再識(shí)別技術(shù)研究及應(yīng)用
下一篇：復(fù)雜場景下的多視角三維場景定位研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于百科和垂直網(wǎng)站的景點(diǎn)屬性關(guān)系抽取研究