天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

融合詞頻特性及鄰接變化數(shù)的微博新詞識別

發(fā)布時(shí)間:2017-12-24 12:17

  本文關(guān)鍵詞:融合詞頻特性及鄰接變化數(shù)的微博新詞識別 出處:《山東大學(xué)學(xué)報(bào)(理學(xué)版)》2015年03期  論文類型:期刊論文


  更多相關(guān)文章: 鄰接變化數(shù) 微博新詞 字串頻率統(tǒng)計(jì) 成詞規(guī)則


【摘要】:大量的新詞伴隨著微博的快速發(fā)展而產(chǎn)生,這些新詞具有傳播速度快及與其他詞組合方式靈活的特點(diǎn),而且在進(jìn)行分詞處理時(shí)容易被切分為不同的字符串。提出了一種融合詞頻特性及鄰接變化數(shù)的微博新詞識別方法。該方法首先對大規(guī)模的微博語料進(jìn)行分詞,然后將在兩停用詞間的相鄰字串兩兩組合,根據(jù)組合后的字串頻率統(tǒng)計(jì)取得新詞候選串,再通過組合成詞規(guī)則進(jìn)行篩選獲得候選新詞,最后通過詞的鄰接域變化特性去除垃圾串獲得新詞。利用該方法在COAE 2014評測任務(wù)上進(jìn)行了新詞的發(fā)現(xiàn)實(shí)驗(yàn),準(zhǔn)確率達(dá)到36.5%,取得了較好的成績。
【作者單位】: 昆明理工大學(xué)信息工程與自動化學(xué)院計(jì)算機(jī)系 云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61462055,61462054,61175068,61363044)
【分類號】:TP393.092;TP391.1
【正文快照】: 0引言在微博中涌現(xiàn)的大量新詞在人們的日常交流中起著重要的作用,能夠更豐富全面地表達(dá)人們的觀點(diǎn)及情感,同時(shí)也是社會趨勢與新聞事件的折射。在自然語言處理過程中,新詞識別一直是一個(gè)難點(diǎn)問題,其在中文分詞、信息檢索、問答系統(tǒng)等方面都有著非常重要的應(yīng)用。分析發(fā)現(xiàn),微博中

【參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語料庫的新詞檢測[J];計(jì)算機(jī)研究與發(fā)展;2006年05期

2 劉建舟,何婷婷,駱昌日;基于語料庫和網(wǎng)絡(luò)的新詞自動識別[J];計(jì)算機(jī)應(yīng)用;2004年07期

3 周正宇,李宗葛;一種新的基于統(tǒng)計(jì)的詞典擴(kuò)展方法[J];中文信息學(xué)報(bào);2001年05期

4 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇;面向Internet的中文新詞語檢測[J];中文信息學(xué)報(bào);2004年06期

5 何賽克;王小捷;董遠(yuǎn);張韜政;白雪;;歸一化的鄰接變化數(shù)方法在中文分詞中的應(yīng)用[J];中文信息學(xué)報(bào);2010年01期

6 鄭家恒,李文花;基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動識別初探[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 羅智勇;宋柔;;基于多特征的自適應(yīng)新詞識別[J];北京工業(yè)大學(xué)學(xué)報(bào);2007年07期

2 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學(xué)學(xué)報(bào);2008年01期

3 張榕;宋柔;;一種被定義項(xiàng)的識別策略[J];當(dāng)代語言學(xué);2007年01期

4 李烯;徐朝軍;;基于關(guān)鍵詞共現(xiàn)的教育信息化工程發(fā)展初探[J];電化教育研究;2010年02期

5 高俊波;楊靜;;在線論壇中的意見領(lǐng)袖分析[J];電子科技大學(xué)學(xué)報(bào);2007年06期

6 胡_g;蘇雪峰;;特定主題的相關(guān)概念挖掘研究與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2007年02期

7 林自芳;蔣秀鳳;;基于改進(jìn)位置成詞概率的新詞識別[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期

8 劉永超;劉宜軒;;字串結(jié)合緊密度的計(jì)算方法研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年02期

9 朱波;侯敏;;基于特征過濾的新詞語提取[J];北華大學(xué)學(xué)報(bào)(社會科學(xué)版);2012年05期

10 歐陽柳波;鄒北驥;劉麗杰;;一種基于混合判定模型的復(fù)合概念抽取方法[J];電子學(xué)報(bào);2013年03期

相關(guān)會議論文 前10條

1 周蕾;李培峰;朱巧明;楊季文;;碎片分詞與詞結(jié)合提取的未登錄詞識別方法[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年

2 鄒綱;劉洋;劉群;孟遙;于浩;西野文人;亢世勇;;面向Internet的中文新詞語檢測[A];2004年辭書與數(shù)字化研討會論文集[C];2004年

3 鄧攀;劉功申;;基于標(biāo)引信息的網(wǎng)絡(luò)新概念發(fā)現(xiàn)算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

4 龔才春;賀敏;張華平;許洪波;程學(xué)旗;;大規(guī)模語料的頻繁模式快速發(fā)現(xiàn)算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

5 崔世起 ;劉群 ;林守勛 ;孟遙 ;于浩 ;西野文人;;中文縮略語自動抽取初探[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

6 張勇;何婷婷;;基于質(zhì)子串分解的網(wǎng)絡(luò)新詞匯自動抽取[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

7 劉知遠(yuǎn);孫茂松;;基于WEB的計(jì)算機(jī)領(lǐng)域新術(shù)語的自動檢測[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

8 黃玉蘭;龔才春;許洪波;程學(xué)旗;;基于偽相關(guān)反饋模型的領(lǐng)域詞典生成算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

9 程濤;施水才;張玉杰;呂學(xué)強(qiáng);;基于大規(guī)模語料庫的新聞?lì)I(lǐng)域新詞挖掘[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

10 黃玉蘭;龔才春;許洪波;程學(xué)旗;;基于局部性原理的有意義串提取方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

相關(guān)博士學(xué)位論文 前10條

1 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年

2 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年

3 鄭澤芝;基于動態(tài)流通語料庫(DCC)的漢語字母詞語識別及考察研究[D];北京語言大學(xué);2005年

4 張榕;術(shù)語定義抽取、聚類與術(shù)語識別研究[D];北京語言大學(xué);2006年

5 姜韶華;科研項(xiàng)目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年

6 高紅;基于統(tǒng)計(jì)語言模型的漢語淺層分析研究[D];大連理工大學(xué);2007年

7 孫凌云;面向產(chǎn)品概念設(shè)計(jì)的專利地圖技術(shù)研究[D];浙江大學(xué);2008年

8 龔才春;短文本語言計(jì)算的關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2008年

9 孫曉;中文詞法分析的研究及其應(yīng)用[D];大連理工大學(xué);2010年

10 歐陽柳波;領(lǐng)域本體覆蓋度評價(jià)關(guān)鍵技術(shù)研究[D];中南大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 史迎馨;建筑圖中有限自然語言的分析與理解的研究[D];長春工業(yè)大學(xué);2010年

2 魏莎莎;一種中文未登錄詞識別及詞典設(shè)計(jì)新方法[D];西南大學(xué);2011年

3 郭志華;基于字符屬性的關(guān)系數(shù)據(jù)庫零水印算法研究[D];蘭州大學(xué);2011年

4 丁溪源;基于大規(guī)模語料的中文新詞抽取算法的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2011年

5 劉衛(wèi)秋;專利信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中南大學(xué);2010年

6 高超;一種基于綜合背景概念格的中文自動文摘方法[D];中南大學(xué);2011年

7 何愛元;基于詞典和概率統(tǒng)計(jì)的中文分詞算法研究[D];遼寧大學(xué);2011年

8 李婷婷;網(wǎng)絡(luò)詞語造詞法及語用義研究[D];安徽大學(xué);2011年

9 周春波;面向WI輸入法的新詞發(fā)現(xiàn)技術(shù)研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年

10 李雪峰;社保審計(jì)領(lǐng)域語料庫構(gòu)建研究[D];哈爾濱工程大學(xué);2011年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張德鑫;“水至清則無魚”——我的新生詞語規(guī)范觀[J];北京大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版);2000年05期

2 韓客松,王永成,陳桂林;無詞典高頻字串快速提取和統(tǒng)計(jì)算法研究[J];中文信息學(xué)報(bào);2001年02期

3 周正宇,李宗葛;一種新的基于統(tǒng)計(jì)的詞典擴(kuò)展方法[J];中文信息學(xué)報(bào);2001年05期

4 孫茂松,,黃昌寧,高海燕,方捷;中文姓名的自動辨識[J];中文信息學(xué)報(bào);1995年02期

5 劉挺,吳巖,王開鑄;串頻統(tǒng)計(jì)和詞形匹配相結(jié)合的漢語自動分詞系統(tǒng)[J];中文信息學(xué)報(bào);1998年01期

6 黃萱菁;吳立德;王文欣;葉丹瑾;;基于機(jī)器學(xué)習(xí)的無需人工編制詞典的切詞系統(tǒng)[J];模式識別與人工智能;1996年04期

7 陳玉泉,顧順蓮,陸汝占;計(jì)算機(jī)輔助新詞新語詞典的編纂[J];上海交通大學(xué)學(xué)報(bào);2000年07期

8 鄭家恒,李文花;基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動識別初探[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期

9 隋巖;動態(tài)流通語料庫理論的概念和方法[J];語言文字應(yīng)用;2000年02期

10 陳小荷;自動分詞中未登錄詞問題的一攬子解決方案[J];語言文字應(yīng)用;1999年03期

相關(guān)會議論文 前1條

1 朱凱;周杰;何婷婷;;因特網(wǎng)語料自動下載分析軟件的設(shè)計(jì)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2002年



本文編號:1328347

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1328347.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2ec18***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com