網(wǎng)頁(yè)數(shù)據(jù)的自動(dòng)化抽取技術(shù)
發(fā)布時(shí)間:2021-02-15 17:21
隨著Web技術(shù)的迅猛發(fā)展,使得Web網(wǎng)頁(yè)成為信息發(fā)布的主要載體也是人們獲取信息的主要渠道之一,大量的數(shù)據(jù)以Web網(wǎng)頁(yè)形式存儲(chǔ)在互聯(lián)網(wǎng)上,因?yàn)镠TML編碼風(fēng)格各異,使得人們無(wú)法直接從Web網(wǎng)頁(yè)中抽取出結(jié)構(gòu)化數(shù)據(jù),造成了資源的極大浪費(fèi)。為了能夠獲取互聯(lián)網(wǎng)中龐大的數(shù)據(jù),人們提出了各種網(wǎng)頁(yè)數(shù)據(jù)抽取方法。根據(jù)抽取目標(biāo)的不同,可將網(wǎng)頁(yè)數(shù)據(jù)抽取分為兩種類型:(1)網(wǎng)頁(yè)正文內(nèi)容抽取,主要針對(duì)文章類型網(wǎng)頁(yè)中的正文內(nèi)容進(jìn)行抽取。(2)網(wǎng)頁(yè)結(jié)構(gòu)化數(shù)據(jù)抽取,主要針對(duì)網(wǎng)頁(yè)中存在的實(shí)例對(duì)象進(jìn)行抽取。本文針對(duì)這兩種不同的抽取目標(biāo)分別提出了對(duì)應(yīng)的抽取方法。針對(duì)網(wǎng)頁(yè)正文抽取,因?yàn)閃eb網(wǎng)頁(yè)中除了包含正文內(nèi)容外,還包含導(dǎo)航條、廣告、版權(quán)聲明等與主題無(wú)關(guān)的噪音信息。這些龐大的噪音信息給網(wǎng)頁(yè)正文抽取帶來(lái)了巨大的挑戰(zhàn)。因此,本文提出一種基于網(wǎng)頁(yè)聚類的正文信息抽取方法,該方法主要有兩個(gè)部分組成:第一,基于網(wǎng)頁(yè)的結(jié)構(gòu)特征對(duì)網(wǎng)頁(yè)進(jìn)行聚類;第二,面向相似網(wǎng)頁(yè)集合的正文內(nèi)容塊的位置特征生成。采用該方法可以從多種類型的網(wǎng)頁(yè)中抽取正文內(nèi)容信息。針對(duì)網(wǎng)頁(yè)結(jié)構(gòu)化數(shù)據(jù)抽取,目前主要采用DOM樹(shù)路徑來(lái)作為抽取規(guī)則。然而,基于DOM路徑的抽取規(guī)則使得...
【文章來(lái)源】:福州大學(xué)福建省 211工程院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1中國(guó)網(wǎng)民規(guī)模和話聯(lián)網(wǎng)普及率??Web息抽取可分為兩種類型:(1)網(wǎng)頁(yè)正文抽取,主要針對(duì)網(wǎng)頁(yè)中的正文??
Web?網(wǎng)頁(yè)主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語(yǔ)言,是一種標(biāo)記語(yǔ)言,使用標(biāo)記標(biāo)簽來(lái)描述網(wǎng)頁(yè)。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分[4],圖2-1是一??個(gè)簡(jiǎn)單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語(yǔ)言中包含有各??種各樣的標(biāo)簽,常見(jiàn)的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無(wú)法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹(shù)型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹(shù)模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡(jiǎn)稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁(yè)中的各個(gè)標(biāo)簽元素看作DOM??樹(shù)節(jié)點(diǎn)的對(duì)象
Web?網(wǎng)頁(yè)主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語(yǔ)言,是一種標(biāo)記語(yǔ)言,使用標(biāo)記標(biāo)簽來(lái)描述網(wǎng)頁(yè)。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分[4],圖2-1是一??個(gè)簡(jiǎn)單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語(yǔ)言中包含有各??種各樣的標(biāo)簽,常見(jiàn)的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無(wú)法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹(shù)型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹(shù)模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡(jiǎn)稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁(yè)中的各個(gè)標(biāo)簽元素看作DOM??樹(shù)節(jié)點(diǎn)的對(duì)象
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽路徑特征融合的在線Web新聞內(nèi)容抽取[J]. 吳共慶,胡駿,李莉,徐喆昊,劉鵬程,胡學(xué)鋼,吳信東. 軟件學(xué)報(bào). 2016(03)
[2]一種基于節(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁(yè)面挖掘方法[J]. 張乃洲,曹薇,李石君. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[3]頁(yè)面包裝器自動(dòng)生成的改進(jìn)算法[J]. 李文奇,張忠能. 計(jì)算機(jī)工程與應(yīng)用. 2004(22)
[4]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
碩士論文
[1]基于網(wǎng)頁(yè)結(jié)構(gòu)聚類的Web信息提取技術(shù)研究[D]. 廖浩偉.西南交通大學(xué) 2013
[2]基于半自動(dòng)化WEB數(shù)據(jù)抽取器的信息集成研究[D]. 吳俊霖.西南大學(xué) 2010
本文編號(hào):3035248
【文章來(lái)源】:福州大學(xué)福建省 211工程院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1中國(guó)網(wǎng)民規(guī)模和話聯(lián)網(wǎng)普及率??Web息抽取可分為兩種類型:(1)網(wǎng)頁(yè)正文抽取,主要針對(duì)網(wǎng)頁(yè)中的正文??
Web?網(wǎng)頁(yè)主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語(yǔ)言,是一種標(biāo)記語(yǔ)言,使用標(biāo)記標(biāo)簽來(lái)描述網(wǎng)頁(yè)。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分[4],圖2-1是一??個(gè)簡(jiǎn)單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語(yǔ)言中包含有各??種各樣的標(biāo)簽,常見(jiàn)的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無(wú)法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹(shù)型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹(shù)模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡(jiǎn)稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁(yè)中的各個(gè)標(biāo)簽元素看作DOM??樹(shù)節(jié)點(diǎn)的對(duì)象
Web?網(wǎng)頁(yè)主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語(yǔ)言,是一種標(biāo)記語(yǔ)言,使用標(biāo)記標(biāo)簽來(lái)描述網(wǎng)頁(yè)。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分[4],圖2-1是一??個(gè)簡(jiǎn)單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語(yǔ)言中包含有各??種各樣的標(biāo)簽,常見(jiàn)的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無(wú)法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹(shù)型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹(shù)模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡(jiǎn)稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁(yè)中的各個(gè)標(biāo)簽元素看作DOM??樹(shù)節(jié)點(diǎn)的對(duì)象
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽路徑特征融合的在線Web新聞內(nèi)容抽取[J]. 吳共慶,胡駿,李莉,徐喆昊,劉鵬程,胡學(xué)鋼,吳信東. 軟件學(xué)報(bào). 2016(03)
[2]一種基于節(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁(yè)面挖掘方法[J]. 張乃洲,曹薇,李石君. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[3]頁(yè)面包裝器自動(dòng)生成的改進(jìn)算法[J]. 李文奇,張忠能. 計(jì)算機(jī)工程與應(yīng)用. 2004(22)
[4]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
碩士論文
[1]基于網(wǎng)頁(yè)結(jié)構(gòu)聚類的Web信息提取技術(shù)研究[D]. 廖浩偉.西南交通大學(xué) 2013
[2]基于半自動(dòng)化WEB數(shù)據(jù)抽取器的信息集成研究[D]. 吳俊霖.西南大學(xué) 2010
本文編號(hào):3035248
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3035248.html
最近更新
教材專著