面向微博數(shù)據(jù)的命名實(shí)體識(shí)別研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-05 13:59
隨著微博日趨流行,它已經(jīng)成為一種新型的信息發(fā)布和傳播的社交媒介。截止到2012年12月底,新浪微博的注冊用戶已達(dá)5億多。微博數(shù)據(jù)也隨之增多,其中包含大量對(duì)組織或個(gè)人有價(jià)值的信息。從而對(duì)微博進(jìn)行信息抽取、分析以及自然語言處理成為當(dāng)前研究熱點(diǎn)。命名實(shí)體識(shí)別作為這些研究的基礎(chǔ)工作就顯得尤為重要,但當(dāng)前針對(duì)微博數(shù)據(jù)的命名實(shí)體識(shí)別研究還很不成熟,傳統(tǒng)的命名實(shí)體識(shí)別方法在微博數(shù)據(jù)上無法獲得令人滿意的結(jié)果,從而阻礙后續(xù)工作的進(jìn)行。本文主要研究微博數(shù)據(jù)上命名實(shí)體識(shí)別任務(wù)。微博數(shù)據(jù)的一些特有屬性導(dǎo)致了傳統(tǒng)模型的失效,究其根本主要有以下四點(diǎn)原因:一是每條微博篇幅短小,包含信息量有限,對(duì)于命名實(shí)體識(shí)別來說,難以充分融合大量相關(guān)信息;二是微博中充斥了大量噪音數(shù)據(jù),加上模型抗噪能力差的問題,導(dǎo)致模型在訓(xùn)練時(shí)發(fā)生“過擬合”現(xiàn)象;三是對(duì)于微博的研究往往缺乏大量完備的訓(xùn)練語料導(dǎo)致模型訓(xùn)練不足,為獲取訓(xùn)練數(shù)據(jù)需要耗費(fèi)大量的人力資源;四是微博數(shù)據(jù)具有信息更新速度快的特點(diǎn),模型適應(yīng)能力差導(dǎo)致發(fā)生模型“欠擬合”現(xiàn)象。經(jīng)實(shí)驗(yàn)表明,傳統(tǒng)命名實(shí)體識(shí)別方法在微博數(shù)據(jù)上F1值會(huì)下降20%之多。為了解決上述問題,本文綜合了多種技術(shù)實(shí)現(xiàn)了...
【文章來源】:東北大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及應(yīng)用
1.2 研究任務(wù)及國內(nèi)外發(fā)展情況
1.3 中文微博數(shù)據(jù)上命名實(shí)體識(shí)別研究的難點(diǎn)
1.3.1 中文命名實(shí)體識(shí)別研究的難點(diǎn)
1.3.2 微博數(shù)據(jù)上命名實(shí)體識(shí)別研究的難點(diǎn)
1.4 研究重點(diǎn)及目標(biāo)
1.5 文章結(jié)構(gòu)安排
第2章 命名實(shí)體識(shí)別相關(guān)方法
2.1 命名實(shí)體識(shí)別結(jié)果的評(píng)價(jià)
2.2 基于規(guī)則的方法
2.3 基于統(tǒng)計(jì)的方法
2.3.1 隱馬爾可夫模型
2.3.2 最大熵模型
2.4 規(guī)則和統(tǒng)計(jì)相結(jié)合的方法
2.5 tweets上命名實(shí)體識(shí)別的研究
2.6 本章小結(jié)
第3章 基于CRFS模型的命名實(shí)體識(shí)別
3.1 圖模型
3.1.1 有向圖模型
3.1.2 無向圖模型
3.2 條件隨機(jī)場
3.3 CRFs參數(shù)估計(jì)
3.3.1 極大似然估計(jì)
3.3.2 迭代縮放法
3.3.3 L-BFGS算法
3.4 模型預(yù)測
3.5 基于CRFs中文命名實(shí)體識(shí)別
3.6 本章小結(jié)
第4章 特征選擇
4.1 字典的建立
4.2 可用特征
4.2.1 當(dāng)前詞特征
4.2.2 當(dāng)前詞上下文特征
4.3 特征選擇
4.4 微博特征
4.5 本章小結(jié)
第5章 新浪微博上命名實(shí)體識(shí)別的實(shí)現(xiàn)
5.1 命名實(shí)體識(shí)別
5.1.1 KNN分類器
5.1.2 半監(jiān)督命名實(shí)體識(shí)別框架的實(shí)現(xiàn)
5.2 數(shù)據(jù)規(guī)范化
5.3 實(shí)體歸一化
5.3.1 實(shí)體歸一化算法
5.3.2 實(shí)體歸一化對(duì)命名實(shí)體識(shí)別結(jié)果的修正
5.4 本章小結(jié)
第6章 實(shí)驗(yàn)與結(jié)論
6.1 微博數(shù)據(jù)獲取
6.2 基于半監(jiān)督框架的微博上命名實(shí)體識(shí)別結(jié)果
6.3 數(shù)據(jù)規(guī)范化的結(jié)果及影響
6.4 實(shí)體歸一化的結(jié)果及影響
6.5 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]融合多特征的最大熵漢語命名實(shí)體識(shí)別模型[J]. 張玥杰,徐智婷,薛向陽. 計(jì)算機(jī)研究與發(fā)展. 2008(06)
[2]一種基于語義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制[J]. 寇月,申德榮,李冬,聶鐵錚. 軟件學(xué)報(bào). 2008(02)
本文編號(hào):3065321
【文章來源】:東北大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及應(yīng)用
1.2 研究任務(wù)及國內(nèi)外發(fā)展情況
1.3 中文微博數(shù)據(jù)上命名實(shí)體識(shí)別研究的難點(diǎn)
1.3.1 中文命名實(shí)體識(shí)別研究的難點(diǎn)
1.3.2 微博數(shù)據(jù)上命名實(shí)體識(shí)別研究的難點(diǎn)
1.4 研究重點(diǎn)及目標(biāo)
1.5 文章結(jié)構(gòu)安排
第2章 命名實(shí)體識(shí)別相關(guān)方法
2.1 命名實(shí)體識(shí)別結(jié)果的評(píng)價(jià)
2.2 基于規(guī)則的方法
2.3 基于統(tǒng)計(jì)的方法
2.3.1 隱馬爾可夫模型
2.3.2 最大熵模型
2.4 規(guī)則和統(tǒng)計(jì)相結(jié)合的方法
2.5 tweets上命名實(shí)體識(shí)別的研究
2.6 本章小結(jié)
第3章 基于CRFS模型的命名實(shí)體識(shí)別
3.1 圖模型
3.1.1 有向圖模型
3.1.2 無向圖模型
3.2 條件隨機(jī)場
3.3 CRFs參數(shù)估計(jì)
3.3.1 極大似然估計(jì)
3.3.2 迭代縮放法
3.3.3 L-BFGS算法
3.4 模型預(yù)測
3.5 基于CRFs中文命名實(shí)體識(shí)別
3.6 本章小結(jié)
第4章 特征選擇
4.1 字典的建立
4.2 可用特征
4.2.1 當(dāng)前詞特征
4.2.2 當(dāng)前詞上下文特征
4.3 特征選擇
4.4 微博特征
4.5 本章小結(jié)
第5章 新浪微博上命名實(shí)體識(shí)別的實(shí)現(xiàn)
5.1 命名實(shí)體識(shí)別
5.1.1 KNN分類器
5.1.2 半監(jiān)督命名實(shí)體識(shí)別框架的實(shí)現(xiàn)
5.2 數(shù)據(jù)規(guī)范化
5.3 實(shí)體歸一化
5.3.1 實(shí)體歸一化算法
5.3.2 實(shí)體歸一化對(duì)命名實(shí)體識(shí)別結(jié)果的修正
5.4 本章小結(jié)
第6章 實(shí)驗(yàn)與結(jié)論
6.1 微博數(shù)據(jù)獲取
6.2 基于半監(jiān)督框架的微博上命名實(shí)體識(shí)別結(jié)果
6.3 數(shù)據(jù)規(guī)范化的結(jié)果及影響
6.4 實(shí)體歸一化的結(jié)果及影響
6.5 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]融合多特征的最大熵漢語命名實(shí)體識(shí)別模型[J]. 張玥杰,徐智婷,薛向陽. 計(jì)算機(jī)研究與發(fā)展. 2008(06)
[2]一種基于語義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制[J]. 寇月,申德榮,李冬,聶鐵錚. 軟件學(xué)報(bào). 2008(02)
本文編號(hào):3065321
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3065321.html
最近更新
教材專著