基于統(tǒng)計特征和語法結(jié)構(gòu)的漢語新生詞匯的識別
本文關(guān)鍵詞:基于統(tǒng)計特征和語法結(jié)構(gòu)的漢語新生詞匯的識別
更多相關(guān)文章: 自然語言理解 漢語切詞 漢語新生詞識別
【摘要】:針對傳統(tǒng)的漢語切詞方法不能有效處理新生詞匯識別的問題,提出了一種基于統(tǒng)計信息和語法信息的漢語新生詞匯的識別方法。實驗表明,該方法可以很好地識別如網(wǎng)絡(luò)新詞、中外人名、地名等一類漢語新生詞匯。
【作者單位】: 哈爾濱師范大學(xué)管理學(xué)院;
【關(guān)鍵詞】: 自然語言理解 漢語切詞 漢語新生詞識別
【基金】:哈爾濱師范大學(xué)人文社會科學(xué)預(yù)研項目(SYB2012-02) 哈爾濱師范大學(xué)青年學(xué)術(shù)骨干支持計劃項目(SG2011-03)
【分類號】:H136
【正文快照】: 1引言微博(microblog)已成為當今信息傳播最主要的途徑之一,為廣大網(wǎng)民特別是草根群體提供了“零門檻”的信息發(fā)布平臺。微博信息傳播迅捷,具有洪泛效應(yīng),對輿論有很強的引導(dǎo)作用,對現(xiàn)實也有極強的干涉作用。通過微博輿情的研判,可以了解大眾的情緒、意見、偏好,為政府理政、
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 傅賽香,袁鼎榮,黃柏雄,鐘智;基于統(tǒng)計的無詞典分詞方法[J];廣西科學(xué)院學(xué)報;2002年04期
2 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇;面向Internet的中文新詞語檢測[J];中文信息學(xué)報;2004年06期
3 鄭家恒,李文花;基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動識別初探[J];山西大學(xué)學(xué)報(自然科學(xué)版);2002年02期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 顏偉;;基于動態(tài)流通語料庫的VSM新詞發(fā)現(xiàn)策略[A];2004年辭書與數(shù)字化研討會論文集[C];2004年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 羅智勇;宋柔;;基于多特征的自適應(yīng)新詞識別[J];北京工業(yè)大學(xué)學(xué)報;2007年07期
2 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學(xué)學(xué)報;2008年01期
3 張榕;宋柔;;一種被定義項的識別策略[J];當代語言學(xué);2007年01期
4 李烯;徐朝軍;;基于關(guān)鍵詞共現(xiàn)的教育信息化工程發(fā)展初探[J];電化教育研究;2010年02期
5 高俊波;楊靜;;在線論壇中的意見領(lǐng)袖分析[J];電子科技大學(xué)學(xué)報;2007年06期
6 胡_g;蘇雪峰;;特定主題的相關(guān)概念挖掘研究與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2007年02期
7 浦海晨,萬曉冬;一種基于文本分類技術(shù)的郵件過濾系統(tǒng)設(shè)計[J];福建電腦;2005年11期
8 林自芳;蔣秀鳳;;基于改進位置成詞概率的新詞識別[J];福州大學(xué)學(xué)報(自然科學(xué)版);2011年01期
9 朱波;侯敏;;基于特征過濾的新詞語提取[J];北華大學(xué)學(xué)報(社會科學(xué)版);2012年05期
10 李新福;趙杰;梁巍;;基于互信息的宋史語料庫詞表的提取[J];河北大學(xué)學(xué)報(自然科學(xué)版);2006年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 鄒綱;劉洋;劉群;孟遙;于浩;西野文人;亢世勇;;面向Internet的中文新詞語檢測[A];2004年辭書與數(shù)字化研討會論文集[C];2004年
2 鄧攀;劉功申;;基于標引信息的網(wǎng)絡(luò)新概念發(fā)現(xiàn)算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
3 龔才春;賀敏;張華平;許洪波;程學(xué)旗;;大規(guī)模語料的頻繁模式快速發(fā)現(xiàn)算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
4 崔世起 ;劉群 ;林守勛 ;孟遙 ;于浩 ;西野文人;;中文縮略語自動抽取初探[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
5 李斌;陳小荷;;面向中文陌生文本的人機交互式分詞方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
6 劉知遠;孫茂松;;基于WEB的計算機領(lǐng)域新術(shù)語的自動檢測[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
7 黃玉蘭;龔才春;許洪波;程學(xué)旗;;基于偽相關(guān)反饋模型的領(lǐng)域詞典生成算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
8 程濤;施水才;張玉杰;呂學(xué)強;;基于大規(guī)模語料庫的新聞領(lǐng)域新詞挖掘[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
9 黃玉蘭;龔才春;許洪波;程學(xué)旗;;基于局部性原理的有意義串提取方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
10 韓艷;林煜熙;姚建民;;基于統(tǒng)計信息的未登錄詞的擴展識別方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年
2 隋巖;基于“動態(tài)流通語料庫”的“有效字符串”提取研究[D];北京語言大學(xué);2004年
3 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年
4 王平;大規(guī)模網(wǎng)絡(luò)蠕蟲檢測與傳播抑制[D];哈爾濱工業(yè)大學(xué);2006年
5 張榕;術(shù)語定義抽取、聚類與術(shù)語識別研究[D];北京語言大學(xué);2006年
6 姜韶華;科研項目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年
7 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
8 高紅;基于統(tǒng)計語言模型的漢語淺層分析研究[D];大連理工大學(xué);2007年
9 孫凌云;面向產(chǎn)品概念設(shè)計的專利地圖技術(shù)研究[D];浙江大學(xué);2008年
10 龔才春;短文本語言計算的關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 祖金鋒;Internet用戶訪問模型研究[D];哈爾濱理工大學(xué);2010年
2 史迎馨;建筑圖中有限自然語言的分析與理解的研究[D];長春工業(yè)大學(xué);2010年
3 張朝威;面向企業(yè)競爭情報的主題搜索研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
4 周君;Web文本挖掘關(guān)鍵技術(shù)的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
5 魏莎莎;一種中文未登錄詞識別及詞典設(shè)計新方法[D];西南大學(xué);2011年
6 丁溪源;基于大規(guī)模語料的中文新詞抽取算法的設(shè)計與實現(xiàn)[D];南京理工大學(xué);2011年
7 劉衛(wèi)秋;專利信息檢索系統(tǒng)的研究與實現(xiàn)[D];中南大學(xué);2010年
8 高超;一種基于綜合背景概念格的中文自動文摘方法[D];中南大學(xué);2011年
9 譚冬晨;主觀題評分算法模型研究[D];電子科技大學(xué);2011年
10 何愛元;基于詞典和概率統(tǒng)計的中文分詞算法研究[D];遼寧大學(xué);2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張德鑫;“水至清則無魚”——我的新生詞語規(guī)范觀[J];北京大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2000年05期
2 韓客松,王永成,陳桂林;無詞典高頻字串快速提取和統(tǒng)計算法研究[J];中文信息學(xué)報;2001年02期
3 周正宇,李宗葛;一種新的基于統(tǒng)計的詞典擴展方法[J];中文信息學(xué)報;2001年05期
4 劉挺,吳巖,王開鑄;串頻統(tǒng)計和詞形匹配相結(jié)合的漢語自動分詞系統(tǒng)[J];中文信息學(xué)報;1998年01期
5 黃萱菁;吳立德;王文欣;葉丹瑾;;基于機器學(xué)習(xí)的無需人工編制詞典的切詞系統(tǒng)[J];模式識別與人工智能;1996年04期
6 鄭家恒,李文花;基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動識別初探[J];山西大學(xué)學(xué)報(自然科學(xué)版);2002年02期
7 張普;關(guān)于網(wǎng)絡(luò)時代語言規(guī)劃的思考[J];語文研究;1999年03期
8 張普;關(guān)于語感與流通度的思考[J];語言教學(xué)與研究;1999年02期
9 王鐵昆;新詞語的判定標準與新詞新語詞典編纂的原則[J];語言文字應(yīng)用;1992年04期
10 張普;信息處理用語言知識動態(tài)更新的總體思考[J];語言文字應(yīng)用;2000年02期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 顏偉;亢世勇;;基于語料庫的現(xiàn)代漢語新詞語動詞語法特征的研究[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 任潔;;自然語言與自然語言理解及其應(yīng)用[J];科教文匯(上半月);2006年02期
2 范繼淹;徐志敏;;自然語言理解的理論和方法[J];當代語言學(xué);1980年05期
3 吳載午;;自然語言理解的聯(lián)想因子法[J];計算機科學(xué);1988年03期
4 陳功煥;漢語功能語法與機器的自然語言理解[J];河北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);1990年S1期
5 周錫令;關(guān)于自然語言理解的理解[J];語言文字應(yīng)用;1997年04期
6 黃奕;;七十年代后期的自然語言理解[J];當代語言學(xué);1986年03期
7 孫忠霞;;機器翻譯自然語言問題探討[J];牡丹江師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版);2005年02期
8 李振亭;任靖娟;;自然語言理解與機器翻譯實現(xiàn)[J];許昌學(xué)院學(xué)報;2006年02期
9 常寶寶;;自然語言分析與生成術(shù)語簡介[J];術(shù)語標準化與信息技術(shù);2010年04期
10 楊抒;;自然語言的認知模型[J];計算機科學(xué);1988年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 樂明;馮志偉;;RST的理論發(fā)展和工程應(yīng)用綜述[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
2 金東日;;在朝漢機器翻譯上出現(xiàn)轉(zhuǎn)換的難點[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
3 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
4 劉忠;劉英;劉敦榮;;性質(zhì)語意邏輯[A];邏輯與認知學(xué)術(shù)研討會會議論文集[C];2004年
5 俞士汶;王治敏;朱學(xué)鋒;;文學(xué)語言與自然語言理解研究[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
6 陳玉泉;陳宣;陸汝占;;內(nèi)涵時態(tài)邏輯的語義解釋系統(tǒng)[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
7 傅愛平;;廣義依存關(guān)系和漢語自動分析[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
8 張克亮;;基于HNC理論的漢英機器翻譯策略研究[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
9 龔彥如;李竹;馮志偉;;英——漢計算語言學(xué)術(shù)語數(shù)據(jù)庫[A];語言文字應(yīng)用研究論文集(Ⅰ)[C];1995年
10 郝瑋;方欣;姚天f ;;句法規(guī)則的自動生成[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 記者 高敬云;我國少數(shù)民族語言信息化進程提速[N];中國民族報;2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 樂明;漢語財經(jīng)評論的修辭結(jié)構(gòu)標注及篇章研究[D];中國傳媒大學(xué);2006年
2 王志棟;語用要點識別模型研究[D];清華大學(xué);2008年
3 屈剛;英漢雙語短語對齊[D];上海交通大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳鴻;自然語言理解[D];長春理工大學(xué);2004年
2 魏蓉;限定領(lǐng)域的基本陳述句句法分析[D];天津師范大學(xué);2008年
3 張海豐;自然語言理解中名詞短語的歧義處理及其在產(chǎn)品設(shè)計中的應(yīng)用[D];西安電子科技大學(xué);2010年
4 劉加昆;轉(zhuǎn)折句“p∧q”的邏輯分析[D];廣西師范大學(xué);2007年
5 許雅緣;基于WordNet的英語隱喻自動處理研究[D];福建師范大學(xué);2008年
6 簡丹;自然語言理解中偏正名詞短語的研究及其在產(chǎn)品設(shè)計中的應(yīng)用[D];西安電子科技大學(xué);2010年
7 唐興全;現(xiàn)代漢語復(fù)雜句蛻塊研究[D];北京語言文化大學(xué);2002年
8 郭敏;概念層次網(wǎng)絡(luò)理論及其在“把”字句理解中的應(yīng)用[D];華南師范大學(xué);2003年
9 陳曉輝;遞進關(guān)系是遞進復(fù)句的預(yù)設(shè)[D];廣西師范大學(xué);2006年
10 姚煒;面向信息處理的N+N+N結(jié)構(gòu)消歧策略研究[D];華中師范大學(xué);2007年
,本文編號:633544
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/633544.html