面向中文網(wǎng)頁(yè)的信息抽取關(guān)鍵技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-02-18 22:35
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)中web頁(yè)面的數(shù)量規(guī)模越來(lái)越龐大,在這些海量的web頁(yè)面中,包含著許多用戶需要的信息。通常情況下,能夠?yàn)橛脩羲苯邮褂玫男畔⒍际且越Y(jié)構(gòu)化的形式組織,而web頁(yè)面中用戶需要的信息通常都包含在大量的頁(yè)面無(wú)結(jié)構(gòu)化或半結(jié)構(gòu)化文本中,因此用戶難以直接利用web頁(yè)面的信息。為了更好的利用web頁(yè)面中包含的信息,就需要從web頁(yè)面中抽取出用戶所需要的信息,并將其以結(jié)構(gòu)化的形式存儲(chǔ)。網(wǎng)頁(yè)信息抽取旨在從網(wǎng)頁(yè)中抽取出結(jié)構(gòu)化信息,網(wǎng)頁(yè)中不僅僅包含由自然語(yǔ)言構(gòu)成的自由文本(無(wú)結(jié)構(gòu)化文本),同時(shí)也包含如表格、列表等半結(jié)構(gòu)化文本。本文主要針對(duì)從中文網(wǎng)頁(yè)中抽取信息進(jìn)行研究,采用一種結(jié)合網(wǎng)頁(yè)段落篩選和數(shù)據(jù)集成的技術(shù)同時(shí)從網(wǎng)頁(yè)自由文本和半結(jié)構(gòu)化文本中抽取信息的綜合方法進(jìn)行中文網(wǎng)頁(yè)信息抽取。該方法采用啟發(fā)式規(guī)則從網(wǎng)頁(yè)中篩選出自由文本和半結(jié)構(gòu)化文本,之后針對(duì)自由文本采用分詞、詞性標(biāo)注、基于規(guī)則的命名實(shí)體識(shí)別技術(shù)等自然語(yǔ)言處理技術(shù)和語(yǔ)義抽取規(guī)則進(jìn)行信息抽取,同時(shí)采用包裝器歸納的方法歸納出單槽規(guī)則用于半結(jié)構(gòu)化文本信息抽取,最終將從兩種文本中抽取出的信息轉(zhuǎn)換為規(guī)范化數(shù)據(jù)以解決數(shù)據(jù)沖突從而實(shí)現(xiàn)數(shù)據(jù)集成。本...
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景
1.2 本文研究?jī)?nèi)容
1.3 本文的組織
第2章 相關(guān)技術(shù)的研究綜述
2.1 信息抽取介紹
2.2 自由文本信息抽取技術(shù)
2.3 命名實(shí)體識(shí)別技術(shù)
2.4 web半結(jié)構(gòu)化信息抽取技術(shù)
2.5 數(shù)據(jù)集成
2.6 本章小結(jié)
第3章 基于自然語(yǔ)言處理的自由文本信息抽取
3.1 自由文本信息抽取實(shí)現(xiàn)概述
3.2 中文分詞與詞性標(biāo)注
3.3 命名實(shí)體識(shí)別
3.4 語(yǔ)義規(guī)則的組成
3.5 自由文本抽取規(guī)則歸納
3.6 本章小結(jié)
第4章 基于包裝器歸納的半結(jié)構(gòu)化文本信息抽取
4.1 包裝器歸納方法概述
4.2 訓(xùn)練集標(biāo)注
4.3 抽取規(guī)則設(shè)計(jì)
4.4 包裝器歸納算法
4.5 本章小結(jié)
第5章 企業(yè)注冊(cè)信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 企業(yè)注冊(cè)信息抽取系統(tǒng)框架
5.2 網(wǎng)頁(yè)URL收集
5.3 網(wǎng)頁(yè)段落篩選
5.4 數(shù)據(jù)語(yǔ)義集成
5.5 系統(tǒng)實(shí)現(xiàn)
5.6 實(shí)驗(yàn)結(jié)果與分析
5.6.1 自由文本信息抽取結(jié)果與分析
5.6.2 半結(jié)構(gòu)化文本信息抽取結(jié)果與分析
5.6.3 綜合方法信息抽取結(jié)果與分析
5.7 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要的研究成果
致謝
本文編號(hào):3040192
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景
1.2 本文研究?jī)?nèi)容
1.3 本文的組織
第2章 相關(guān)技術(shù)的研究綜述
2.1 信息抽取介紹
2.2 自由文本信息抽取技術(shù)
2.3 命名實(shí)體識(shí)別技術(shù)
2.4 web半結(jié)構(gòu)化信息抽取技術(shù)
2.5 數(shù)據(jù)集成
2.6 本章小結(jié)
第3章 基于自然語(yǔ)言處理的自由文本信息抽取
3.1 自由文本信息抽取實(shí)現(xiàn)概述
3.2 中文分詞與詞性標(biāo)注
3.3 命名實(shí)體識(shí)別
3.4 語(yǔ)義規(guī)則的組成
3.5 自由文本抽取規(guī)則歸納
3.6 本章小結(jié)
第4章 基于包裝器歸納的半結(jié)構(gòu)化文本信息抽取
4.1 包裝器歸納方法概述
4.2 訓(xùn)練集標(biāo)注
4.3 抽取規(guī)則設(shè)計(jì)
4.4 包裝器歸納算法
4.5 本章小結(jié)
第5章 企業(yè)注冊(cè)信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 企業(yè)注冊(cè)信息抽取系統(tǒng)框架
5.2 網(wǎng)頁(yè)URL收集
5.3 網(wǎng)頁(yè)段落篩選
5.4 數(shù)據(jù)語(yǔ)義集成
5.5 系統(tǒng)實(shí)現(xiàn)
5.6 實(shí)驗(yàn)結(jié)果與分析
5.6.1 自由文本信息抽取結(jié)果與分析
5.6.2 半結(jié)構(gòu)化文本信息抽取結(jié)果與分析
5.6.3 綜合方法信息抽取結(jié)果與分析
5.7 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要的研究成果
致謝
本文編號(hào):3040192
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3040192.html
最近更新
教材專著