中文微博命名體識別
本文關鍵詞:中文微博命名體識別 出處:《四川大學學報(自然科學版)》2015年03期 論文類型:期刊論文
更多相關文章: 微博 條件隨機場 命名實體 三級粒度特征 短文本
【摘要】:近年來微博的快速發(fā)展為命名體識別提供了新的載體,同時微博的特點也為命名體識別研究帶來了挑戰(zhàn).針對微博特點,本文提出了基于拼音相似距離以及文本相似距離聚類算法對微博文本進行規(guī)范化,消除了微博的語言表達不規(guī)范造成的干擾.同時,本文還提出了篇章級、句子級以及詞匯級三級粒度的特征提取,使用條件隨機場模型進行訓練數據,并識別命名體,采用由微博文本相似聚類獲得的實體關系類對命名體類型進行修正.由于缺少大量的微博訓練數據,本文采用半監(jiān)督學習框架訓練模型.通過對新浪微博數據的實驗結果表明,本方法能夠有效地提高微博中命名體識別的效果.
【作者單位】: 四川民族學院計算機科學系;四川大學計算機學院;
【基金】:國家自然科技基金項目(61332066,81373239)
【分類號】:TP391.1;TP393.092
【正文快照】: 1引言隨著中國信息產業(yè)的快速發(fā)展,中文信息處理技術已然變得越來越重要.在語言文本中,命名實體是主要的信息載體,同時也是文本中的基本信息單位,因此,正確的識別命名體是理解文本的前提,也是人們理解自然語言的基礎.目前,針對正式文本中的命名體識別研究[1-5]已經較為成熟,而
【參考文獻】
中國期刊全文數據庫 前4條
1 朱敏;賈真;左玲;吳安峻;陳方正;柏玉;;中文微博實體鏈接研究[J];北京大學學報(自然科學版);2014年01期
2 邱泉清;苗奪謙;張志飛;;中文微博命名實體識別[J];計算機科學;2013年06期
3 姜仁會;王挺;唐晉韜;;面向微博文本的命名實體識別[J];計算機與數字工程;2014年04期
4 周昆;胡學鋼;;一種基于本體論和規(guī)則匹配的中文人名識別方法[J];微計算機信息;2010年31期
【共引文獻】
中國期刊全文數據庫 前5條
1 王鵬;李成城;;基于修辭結構理論的文本結構自動分析[J];電子技術與軟件工程;2013年19期
2 舒佳根;惠浩添;錢龍華;朱巧明;;一個中文實體鏈接語料庫的建設[J];北京大學學報(自然科學版);2015年02期
3 吳沖沖;;基于集成學習的中文微博情感分類方法[J];科技傳播;2014年16期
4 周鵬;蔡淑琴;石雙元;袁乾;;微博危機事件損害性評價研究[J];情報雜志;2013年11期
5 汪泱;古麗拉·阿東別克;戶冰心;牛寧寧;;基于條件隨機場的哈薩克語基本短語自動識別[J];計算機工程與設計;2014年10期
中國博士學位論文全文數據庫 前3條
1 豆增發(fā);生物命名實體識別及生物文本分類[D];西安電子科技大學;2013年
2 付瑞吉;開放域命名實體識別及其層次化類別獲取[D];哈爾濱工業(yè)大學;2014年
3 郭宇航;基于上下文的實體鏈指技術研究[D];哈爾濱工業(yè)大學;2014年
中國碩士學位論文全文數據庫 前5條
1 戴思明;互聯(lián)網文本熱點信息實體識別研究及應用[D];華南理工大學;2012年
2 臧勇真;基于統(tǒng)計和規(guī)則的中文人名識別研究與實現(xiàn)[D];西南交通大學;2013年
3 彭新茗;基于多層學習的病歷實體識別算法設計與實現(xiàn)[D];東北大學;2013年
4 荀晶;面向微博數據的命名實體識別研究與實現(xiàn)[D];東北大學;2013年
5 薛程元;面向列表型知識庫的組織機構實體鏈接方法研究[D];華東理工大學;2015年
【二級參考文獻】
中國期刊全文數據庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學學報(自然科學版);2002年05期
2 周俊生;戴新宇;尹存燕;陳家駿;;基于層疊條件隨機場模型的中文機構名自動識別[J];電子學報;2006年05期
3 劉群,張華平,俞鴻魁,程學旗;基于層疊隱馬模型的漢語詞法分析[J];計算機研究與發(fā)展;2004年08期
4 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語料庫的新詞檢測[J];計算機研究與發(fā)展;2006年05期
5 胡文博;都云程;呂學強;施水才;;基于多層條件隨機場的中文命名實體識別[J];計算機工程與應用;2009年01期
6 張曉艷;王挺;陳火旺;;命名實體識別研究[J];計算機科學;2005年04期
7 繆建明;張全;;一種基于概念關聯(lián)式的詞義消岐方法[J];計算機科學;2010年01期
8 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機科學;2012年01期
9 姜維;王曉龍;關毅;趙健;;基于多知識源的中文詞法分析系統(tǒng)[J];計算機學報;2007年01期
10 王丹;樊興華;;面向短文本的命名實體識別[J];計算機應用;2009年01期
中國碩士學位論文全文數據庫 前2條
1 楊華;基于最大熵模型的中文命名實體識別方法研究[D];哈爾濱工程大學;2008年
2 周昆;基于規(guī)則的命名實體識別研究[D];合肥工業(yè)大學;2010年
,本文編號:1313041
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1313041.html