微博事件抽取的關(guān)鍵技術(shù)研究
發(fā)布時間:2021-02-10 09:11
伴隨著互聯(lián)網(wǎng)技術(shù)的普及,微博作為一個可以即時發(fā)布與分享信息的社交平臺,其地位與作用也在不斷提升。微博平臺每天產(chǎn)生著海量的事件信息和噪聲微博,這些微博內(nèi)容導致整個微博平臺呈現(xiàn)“信息過載”。因此,如何從海量的微博文本中抽取有價值的事件信息,并且進行結(jié)構(gòu)化的表述,使用戶直觀地查閱微博中的事件,具有非常重要的意義。本文首先探討了從微博平臺獲取數(shù)據(jù)的方法,包括根據(jù)平臺提供的API和利用爬蟲抓取數(shù)據(jù)。并根據(jù)微博文本的特點,對文本的質(zhì)量進行了鑒別并消除了其中的噪音。在分詞和詞性標注的基礎(chǔ)上進行了基于統(tǒng)計和規(guī)則融合的命名實體識別。其次,本文根據(jù)訓練語料中的事件觸發(fā)詞構(gòu)建觸發(fā)詞庫,注明了每一個事件觸發(fā)詞對應(yīng)的事件類型和事件子類型,并對觸發(fā)詞庫進行了擴充和消歧。經(jīng)過篩選后觸發(fā)詞可以判定為事件觸發(fā)詞,而包含事件觸發(fā)詞的文本稱為備選事件。對于備選事件,本文構(gòu)建了特征向量并使用支持向量機進行分類。接著根據(jù)事件類型抽取事件中的時間表達式和其他元素。實驗表明本系統(tǒng)可以使用戶高效的從微博平臺中挖掘事件信息,可以為進一步的知識推理、自動文摘以及自然語言處理掃清障礙。
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景和意義
1.2 論文的主要研究內(nèi)容
1.3 論文的結(jié)構(gòu)安排
第二章 相關(guān)背景知識介紹
2.1 微博簡介
2.1.1 微博的起源與發(fā)展現(xiàn)狀
2.1.2 微博的特點
2.2 事件抽取相關(guān)
2.2.1 事件抽取定義及相關(guān)概念
2.2.2 微博事件抽取研究現(xiàn)狀
2.2.3 事件抽取評測
2.3 支持向量機簡介
2.4 本章小結(jié)
第三章 微博文本預(yù)處理及命名實體識別
3.1 微博數(shù)據(jù)的獲取
3.1.1 基于API的數(shù)據(jù)獲取方法
3.1.2 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)獲取方法
3.2 微博數(shù)據(jù)的預(yù)處理
3.2.1 微博數(shù)據(jù)質(zhì)量的篩選
3.2.2 去除微博文本中包含的噪聲
3.2.3 微博文本的分詞及去除停用詞
3.3 命名實體的識別
3.3.1 基于隱馬爾科夫模型的命名實體識別
3.3.2 基于規(guī)則的命名實體識別
3.3.3 命名實體識別方案設(shè)計
3.4 本章小結(jié)
第四章 事件類型識別
4.1 事件觸發(fā)詞的識別
4.1.1 觸發(fā)詞庫的構(gòu)建
4.1.2 觸發(fā)詞語義消歧
4.2 使用支持向量機識別事件類型
4.2.1 特征的選取
4.2.2 基于支持向量機的事件類型識別
4.3 事件類型識別方案設(shè)計
4.4 事件元素識別
4.4.1 時間表達式識別
4.4.2 基于支持向量機的事件元素識別
4.5 本章小結(jié)
第五章 原型系統(tǒng)設(shè)計
5.1 系統(tǒng)實現(xiàn)
5.1.1 系統(tǒng)開發(fā)環(huán)境
5.1.2 系統(tǒng)框架及各模塊設(shè)計
5.2 實驗分析
5.2.1 實驗數(shù)據(jù)
5.2.2 實驗評估標準
5.2.3 命名實體抽取實驗
5.2.4 事件類型識別的特征選取實驗
5.2.5 事件抽取實驗
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
附錄1 攻讀碩士學位期間撰寫的論文
致謝
【參考文獻】:
期刊論文
[1]基于詞典與機器學習的中文微博情感分析研究[J]. 孫建旺,呂學強,張雷瀚. 計算機應(yīng)用與軟件. 2014(07)
[2]微博文本處理研究綜述[J]. 張劍峰,夏云慶,姚建民. 中文信息學報. 2012(04)
[3]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學報. 2012(01)
[4]多信息融合中文關(guān)系抽取技術(shù)研究[J]. 林如琦,陳錦秀,楊肖方,許紅磊. 廈門大學學報(自然科學版). 2011(03)
[5]音樂領(lǐng)域典型事件抽取方法研究[J]. 丁效,宋凡,秦兵,劉挺. 中文信息學報. 2011(02)
[6]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學報. 2008(01)
博士論文
[1]自由文本的信息抽取模式獲取的研究[D]. 姜吉發(fā).中國科學院研究生院(計算技術(shù)研究所) 2004
本文編號:3027133
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景和意義
1.2 論文的主要研究內(nèi)容
1.3 論文的結(jié)構(gòu)安排
第二章 相關(guān)背景知識介紹
2.1 微博簡介
2.1.1 微博的起源與發(fā)展現(xiàn)狀
2.1.2 微博的特點
2.2 事件抽取相關(guān)
2.2.1 事件抽取定義及相關(guān)概念
2.2.2 微博事件抽取研究現(xiàn)狀
2.2.3 事件抽取評測
2.3 支持向量機簡介
2.4 本章小結(jié)
第三章 微博文本預(yù)處理及命名實體識別
3.1 微博數(shù)據(jù)的獲取
3.1.1 基于API的數(shù)據(jù)獲取方法
3.1.2 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)獲取方法
3.2 微博數(shù)據(jù)的預(yù)處理
3.2.1 微博數(shù)據(jù)質(zhì)量的篩選
3.2.2 去除微博文本中包含的噪聲
3.2.3 微博文本的分詞及去除停用詞
3.3 命名實體的識別
3.3.1 基于隱馬爾科夫模型的命名實體識別
3.3.2 基于規(guī)則的命名實體識別
3.3.3 命名實體識別方案設(shè)計
3.4 本章小結(jié)
第四章 事件類型識別
4.1 事件觸發(fā)詞的識別
4.1.1 觸發(fā)詞庫的構(gòu)建
4.1.2 觸發(fā)詞語義消歧
4.2 使用支持向量機識別事件類型
4.2.1 特征的選取
4.2.2 基于支持向量機的事件類型識別
4.3 事件類型識別方案設(shè)計
4.4 事件元素識別
4.4.1 時間表達式識別
4.4.2 基于支持向量機的事件元素識別
4.5 本章小結(jié)
第五章 原型系統(tǒng)設(shè)計
5.1 系統(tǒng)實現(xiàn)
5.1.1 系統(tǒng)開發(fā)環(huán)境
5.1.2 系統(tǒng)框架及各模塊設(shè)計
5.2 實驗分析
5.2.1 實驗數(shù)據(jù)
5.2.2 實驗評估標準
5.2.3 命名實體抽取實驗
5.2.4 事件類型識別的特征選取實驗
5.2.5 事件抽取實驗
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
附錄1 攻讀碩士學位期間撰寫的論文
致謝
【參考文獻】:
期刊論文
[1]基于詞典與機器學習的中文微博情感分析研究[J]. 孫建旺,呂學強,張雷瀚. 計算機應(yīng)用與軟件. 2014(07)
[2]微博文本處理研究綜述[J]. 張劍峰,夏云慶,姚建民. 中文信息學報. 2012(04)
[3]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學報. 2012(01)
[4]多信息融合中文關(guān)系抽取技術(shù)研究[J]. 林如琦,陳錦秀,楊肖方,許紅磊. 廈門大學學報(自然科學版). 2011(03)
[5]音樂領(lǐng)域典型事件抽取方法研究[J]. 丁效,宋凡,秦兵,劉挺. 中文信息學報. 2011(02)
[6]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學報. 2008(01)
博士論文
[1]自由文本的信息抽取模式獲取的研究[D]. 姜吉發(fā).中國科學院研究生院(計算技術(shù)研究所) 2004
本文編號:3027133
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3027133.html
最近更新
教材專著