基于海量文本的企業(yè)行為識別及行為關(guān)系發(fā)現(xiàn)
發(fā)布時間:2022-01-04 03:17
實體在自然語言處理中表示語言描述的對象,例如商業(yè)新聞中的企業(yè)和旅行游記中的景點等。隱藏在文本中的實體關(guān)系具有極大的價值,例如企業(yè)關(guān)系可以輔助決策,景點關(guān)系可以幫助推薦等。因此從文本中發(fā)現(xiàn)實體關(guān)系成為了一項極具管理意義的工作。在傳統(tǒng)的實體關(guān)系抽取研究中,研究者們主要是依據(jù)實體之間的共現(xiàn)關(guān)系進行。這樣抽取出的關(guān)系是異質(zhì)的,即抽取出的關(guān)系不一定是同一類關(guān)系,然而更緊密的同質(zhì)關(guān)系更能體現(xiàn)實體間的聯(lián)系。假設(shè)我們建立企業(yè)的關(guān)系是因為他們的某種具體行為,而不是僅僅因為他們出現(xiàn)在同一篇新聞稿中。那么在構(gòu)建出的網(wǎng)絡(luò)中,實體的關(guān)系將更加緊密,從而使得后續(xù)分類或預測工作的準確度更高。抽取同質(zhì)關(guān)系主要面臨三個挑戰(zhàn):首先,同質(zhì)關(guān)系在網(wǎng)絡(luò)文本中的存在很稀疏。其次,文檔包含的實體未知。最后,語料包含的關(guān)系集合和文檔對應的標簽也未知。針對以上挑戰(zhàn),本文著手在互聯(lián)網(wǎng)的海量文本中進行企業(yè)關(guān)系的預測。我們需要分別解決實體識別和行為抽取兩個問題,并以此來對實體的同質(zhì)關(guān)系進行建模。本文關(guān)注的第一個問題是實體名識別——需要去探究文檔中字(詞)元素組成實體名的可能性。本文將該問題轉(zhuǎn)化為一個復合詞識別問題。本文提出了一種度量候選樣本...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學位級別】:碩士
【部分圖文】:
馬蜂窩網(wǎng)站的游記部分截圖
蝦米音樂歌曲“憨人”評論展示
微博信息舉例
本文編號:3567548
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學位級別】:碩士
【部分圖文】:
馬蜂窩網(wǎng)站的游記部分截圖
蝦米音樂歌曲“憨人”評論展示
微博信息舉例
本文編號:3567548
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3567548.html
最近更新
教材專著