基于百科和垂直網(wǎng)站的景點(diǎn)屬性關(guān)系抽取研究
發(fā)布時(shí)間:2021-02-21 01:45
隨著信息技術(shù)的更新迭代,互聯(lián)網(wǎng)的信息量正以指數(shù)級(jí)速度增長,面對(duì)日益增多的文本數(shù)據(jù),如何從其中提取出用戶感興趣的信息已經(jīng)成為近幾年研究的重點(diǎn),信息抽取技術(shù)應(yīng)運(yùn)而生。屬性抽取技術(shù)作為信息抽取技術(shù)的一個(gè)子領(lǐng)域,也是構(gòu)建知識(shí)圖譜必不可少的一部分。屬性抽取是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的一種途徑,屬性抽取技術(shù)日趨成熟,但針對(duì)特定領(lǐng)域?qū)傩猿槿∷惴ㄐ阅苋杂刑嵘臻g。本文主要針對(duì)內(nèi)蒙古旅游領(lǐng)域文本做屬性抽取工作,旨在能夠發(fā)現(xiàn)特定領(lǐng)域中實(shí)體和屬性值之間的關(guān)系,并將抽取結(jié)果轉(zhuǎn)化為供后續(xù)研究的結(jié)構(gòu)化數(shù)據(jù)。本文的重點(diǎn)研究內(nèi)容如下:(1)構(gòu)建內(nèi)蒙古旅游領(lǐng)域語料庫。使用Scrapy爬蟲框架,獲取百科類網(wǎng)站和垂直網(wǎng)站的入口URL,對(duì)文本數(shù)據(jù)進(jìn)行爬取。配置Brat工具對(duì)爬取的語料進(jìn)行人工標(biāo)注,將其轉(zhuǎn)換為BIO標(biāo)注模式。(2)確定旅游領(lǐng)域語料中需要抽取的屬性。將屬性抽取的任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),分別構(gòu)建基于CRF和神經(jīng)網(wǎng)絡(luò)兩種模型。(3)提出基于篇章級(jí)架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。該模型利用BLSTM捕獲文本的上下文信息和時(shí)序信息,利用CRF輸出最優(yōu)標(biāo)簽序列。訓(xùn)練每篇文檔的文檔級(jí)向量,并通過實(shí)驗(yàn)驗(yàn)證模型架構(gòu)的可行性。(4)研究...
【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
無向圖線性鏈結(jié)構(gòu)
圖 3.1 Scrapy 工作流程圖Figure 3.1 The work flow of Scrapy料來源有百科網(wǎng)站和垂直網(wǎng)站,百科網(wǎng)站和垂直網(wǎng)站的爬蟲方式略有不同體爬蟲流程如圖 3.2 所示。
圖 3.1 Scrapy 工作流程圖Figure 3.1 The work flow of Scrapy源有百科網(wǎng)站和垂直網(wǎng)站,百科網(wǎng)站和垂直網(wǎng)站的爬蟲方式略有不蟲流程如圖 3.2 所示。
【參考文獻(xiàn)】:
博士論文
[1]蒙古文命名實(shí)體識(shí)別研究[D]. 王煒華.內(nèi)蒙古大學(xué) 2018
[2]自然語言處理中序列標(biāo)注模型的研究[D]. 計(jì)峰.復(fù)旦大學(xué) 2012
碩士論文
[1]基于CRF模型的銀行交易短信信息數(shù)據(jù)標(biāo)注研究[D]. 郭得慶.上海師范大學(xué) 2018
[2]基于微信公眾平臺(tái)的文本情感分析研究[D]. 任高山.南昌航空大學(xué) 2018
[3]基于多任務(wù)融合模型的用戶屬性推斷[D]. 趙宇.太原理工大學(xué) 2018
[4]肝癌領(lǐng)域精準(zhǔn)醫(yī)學(xué)語料標(biāo)注[D]. 楊帥.軍事科學(xué)院 2018
[5]基于神經(jīng)網(wǎng)絡(luò)的英文序列標(biāo)注方法研究[D]. 彭宗徽.北京郵電大學(xué) 2018
[6]基于語義特征和監(jiān)督學(xué)習(xí)的廣告評(píng)論識(shí)別方法[D]. 林雪.浙江大學(xué) 2018
[7]中文人物屬性槽填充技術(shù)的研究與實(shí)現(xiàn)[D]. 冷亞玢.北京郵電大學(xué) 2018
[8]基于語義分析的實(shí)體屬性抽取方法研究[D]. 王瀟斌.蘇州大學(xué) 2017
[9]基于深度學(xué)習(xí)的屬性抽取技術(shù)研究[D]. 蔣煥劍.浙江大學(xué) 2017
[10]中文人物屬性抽取技術(shù)的研究與實(shí)現(xiàn)[D]. 張凱倫.北京郵電大學(xué) 2016
本文編號(hào):3043661
【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
無向圖線性鏈結(jié)構(gòu)
圖 3.1 Scrapy 工作流程圖Figure 3.1 The work flow of Scrapy料來源有百科網(wǎng)站和垂直網(wǎng)站,百科網(wǎng)站和垂直網(wǎng)站的爬蟲方式略有不同體爬蟲流程如圖 3.2 所示。
圖 3.1 Scrapy 工作流程圖Figure 3.1 The work flow of Scrapy源有百科網(wǎng)站和垂直網(wǎng)站,百科網(wǎng)站和垂直網(wǎng)站的爬蟲方式略有不蟲流程如圖 3.2 所示。
【參考文獻(xiàn)】:
博士論文
[1]蒙古文命名實(shí)體識(shí)別研究[D]. 王煒華.內(nèi)蒙古大學(xué) 2018
[2]自然語言處理中序列標(biāo)注模型的研究[D]. 計(jì)峰.復(fù)旦大學(xué) 2012
碩士論文
[1]基于CRF模型的銀行交易短信信息數(shù)據(jù)標(biāo)注研究[D]. 郭得慶.上海師范大學(xué) 2018
[2]基于微信公眾平臺(tái)的文本情感分析研究[D]. 任高山.南昌航空大學(xué) 2018
[3]基于多任務(wù)融合模型的用戶屬性推斷[D]. 趙宇.太原理工大學(xué) 2018
[4]肝癌領(lǐng)域精準(zhǔn)醫(yī)學(xué)語料標(biāo)注[D]. 楊帥.軍事科學(xué)院 2018
[5]基于神經(jīng)網(wǎng)絡(luò)的英文序列標(biāo)注方法研究[D]. 彭宗徽.北京郵電大學(xué) 2018
[6]基于語義特征和監(jiān)督學(xué)習(xí)的廣告評(píng)論識(shí)別方法[D]. 林雪.浙江大學(xué) 2018
[7]中文人物屬性槽填充技術(shù)的研究與實(shí)現(xiàn)[D]. 冷亞玢.北京郵電大學(xué) 2018
[8]基于語義分析的實(shí)體屬性抽取方法研究[D]. 王瀟斌.蘇州大學(xué) 2017
[9]基于深度學(xué)習(xí)的屬性抽取技術(shù)研究[D]. 蔣煥劍.浙江大學(xué) 2017
[10]中文人物屬性抽取技術(shù)的研究與實(shí)現(xiàn)[D]. 張凱倫.北京郵電大學(xué) 2016
本文編號(hào):3043661
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3043661.html
最近更新
教材專著