天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的Web數(shù)據(jù)挖掘

發(fā)布時(shí)間:2020-05-13 22:50
【摘要】:Web是當(dāng)今世界上最大的公共數(shù)據(jù)來源,從海量異構(gòu)、半結(jié)構(gòu)化的Web頁面中提取有價(jià)值信息逐漸成為數(shù)據(jù)挖掘的重要任務(wù)。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘算法雖然已經(jīng)取得一定效果,但是難以在現(xiàn)有基礎(chǔ)上進(jìn)一步提升,也不能解決更加復(fù)雜的文本處理問題,因此,當(dāng)前Web數(shù)據(jù)挖掘研究的重心逐漸轉(zhuǎn)向深度學(xué)習(xí)領(lǐng)域。本文的研究目標(biāo)為從全球排名前100所英文母語授課高校的海量網(wǎng)頁中提取任課教師的個(gè)人教育經(jīng)歷,在網(wǎng)絡(luò)爬蟲獲取頁面數(shù)據(jù)的基礎(chǔ)上,使用先頁面分類后信息提取的方法進(jìn)行挖掘工作。頁面分類階段,提出基于多尺度卷積核的神經(jīng)網(wǎng)絡(luò)分類模型(CNN,Convolutional Neural Network)。信息提取階段,使用分類后數(shù)據(jù)得到目標(biāo)信息,提出字符-單詞聯(lián)合特征的雙向GRU網(wǎng)絡(luò)(Gated Recurrent Unit)和雙向GRU網(wǎng)絡(luò)結(jié)合CRF(Conditional Random Fields)的信息提取模型,此外,還提出將基于全文理解的問答系統(tǒng)引入信息提取任務(wù)中來。通過在多個(gè)數(shù)據(jù)集上,與多個(gè)當(dāng)前被廣泛使用的信息提取方法對比,以探索當(dāng)前最優(yōu)模型和未來的發(fā)展方向。本文研究發(fā)現(xiàn),在頁面分類問題上,本文提出的多尺度卷積核神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)的支持向量機(jī)準(zhǔn)確率高2.77%,有明顯提升;信息提取問題上,雙向GRU+CRF的網(wǎng)絡(luò)取得比傳統(tǒng)的CRF和當(dāng)前最被廣泛使用的長短記憶網(wǎng)絡(luò)更好的效果。本文的算法在實(shí)際挖掘任務(wù)中實(shí)用性較強(qiáng),具有良好的應(yīng)用場景。
【圖文】:

模型圖,文本分類,模型,損失函數(shù)


文檔實(shí)例 t 的類別 R(t)是已知的,即T { ( )) ( )) R( ))} R( ) C (2-2)通過監(jiān)督學(xué)習(xí)的方式對訓(xùn)練文檔集合 T 進(jìn)行學(xué)習(xí),可以得到一個(gè)模型 M 把訓(xùn)練文檔集合 T 中的每個(gè)文檔實(shí)例映射到類別集合 C 中的一個(gè)類別中,滿足:M T C (2-3)模型 M 可以有多個(gè),其所在集合稱為假設(shè)空間,學(xué)習(xí)的目標(biāo)是從假設(shè)空間中找到分類效果最優(yōu)的模型。學(xué)習(xí)得到最優(yōu)模型的過程可以表述為,對于任一訓(xùn)練文檔 ,M( )表示模型 M 對該文檔的分類結(jié)果,該文檔真實(shí)類別表示為R( ),模型 M 要和真實(shí)映射關(guān)系 R 對 的分類結(jié)果最近似,給定評估函數(shù) f 來評估M( )和R( )一致程度,用損失函數(shù)(LostFunction)來度量預(yù)測錯(cuò)誤的程度,損失函數(shù)的種類很多,包括 0-1 損失函數(shù)、平方損失函數(shù)、對數(shù)損失函數(shù)和交叉熵?fù)p失函數(shù)等,都是非負(fù)實(shí)值函數(shù),記作L(R( ) M( )) ,則最優(yōu)模型得到:M (щ L(R( ) M( ))) (2-4)文本分類技術(shù)的主要步驟包括語料集獲取,文本表示模型的建立,文本特征選擇,分類方法選取和評估模型選取,如圖 2-1 所示:

模型圖,信息提取,模型


圖 2-2 信息提取模型Fig.2-2 Information Extraction Model在學(xué)習(xí)階段,有帶標(biāo)注語料數(shù)據(jù)集 D,D 中所有文字單元組成集合 H,所有標(biāo)成集合 N,每個(gè)樣本表示為文字單元序列 X 和標(biāo)注序列 Y 一一對應(yīng)的形式:D (2-6表示第 i 個(gè)樣本,樣本中 ,, 。學(xué)習(xí)系統(tǒng)基于已有標(biāo)注構(gòu)建學(xué)習(xí)模并用一個(gè)條件概率分布表示。信息提取系統(tǒng)根據(jù)這個(gè)分布模型,對新的樣本標(biāo)注,即找到一個(gè)標(biāo)注序列來最大化目標(biāo)函數(shù): ě | ) (2-7文本單元根據(jù)具體的應(yīng)用場景可以是一個(gè)詞、一個(gè)短語、一個(gè)句子甚至是一個(gè)。標(biāo)注可以是表示信息抽取對象的開始、結(jié)束以及其他,具體的標(biāo)注技術(shù)在章詳細(xì)闡述。信息提取的主要任務(wù)包括實(shí)體識別與提取、共指消解、關(guān)系抽事件抽取。具體任務(wù)及關(guān)鍵技術(shù)描述如下:(1)實(shí)體識別與提。焊鶕(jù)提取應(yīng)用不同主要包括命名實(shí)體識別和開放域?qū)?
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.09;TP311.13;TP18

【參考文獻(xiàn)】

相關(guān)博士學(xué)位論文 前1條

1 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年



本文編號:2662670

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2662670.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5fc59***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com