天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于語料庫的字母詞語自動(dòng)提取研究

發(fā)布時(shí)間:2018-07-24 18:48
【摘要】:目前 ,很多最新的術(shù)語和專有名詞 ,首先以字母詞語的形式出現(xiàn)在漢語中 ,并日益廣泛應(yīng)用。而字母詞語多數(shù)是漢語自動(dòng)分詞中的未登錄詞 ,其正確識(shí)別 ,將有助于提高中文分詞、信息檢索、搜索引擎、機(jī)器翻譯等應(yīng)用軟件的質(zhì)量。本文在對(duì)字母詞語進(jìn)行先期考察的基礎(chǔ)上 ,分析了字母詞語組成情況的復(fù)雜特征和自動(dòng)識(shí)別的難點(diǎn) ,結(jié)合字母詞語的各種統(tǒng)計(jì)特征和其獨(dú)有的特點(diǎn)———字母串“錨點(diǎn)” ,提出了從中心往兩邊擴(kuò)展的規(guī)則加統(tǒng)計(jì)輔助的字母詞語自動(dòng)提取的算法。并且對(duì)字母詞語的雙語同現(xiàn)問題進(jìn)行了處理。算法簡單 ,但有效。召回率為 10 0 % ,準(zhǔn)確率在 80 %以上。
[Abstract]:At present, many new terms and proper nouns appear in Chinese in the form of alphabetical words, and are increasingly widely used. The letter words are mostly unrecorded words in Chinese automatic participle, and their correct recognition will help to improve the quality of Chinese word segmentation, information retrieval, search engine, machine translation and other application software. On the basis of a preliminary investigation of alphabetic words, this paper analyzes the complex features of the composition of alphabetic words and the difficulties of automatic recognition. Combined with various statistical features of alphabetic words and their unique characteristics, an algorithm for automatic extraction of alphabetic words by extending the rules from the center to the two sides and adding statistical assistance is proposed. It also deals with the problem of bilingual cooccurrence of alphabetic words. The algorithm is simple but effective. The recall rate is 100% and the accuracy is over 80%.
【作者單位】: 太原師范學(xué)院計(jì)算機(jī)系 北京語言大學(xué)DCC博士研究室 北京語言大學(xué)DCC博士研究室
【基金】:“國家語言資源監(jiān)測與研究中心”項(xiàng)目資助 (0 4L2 0 0 4 - 0 1- 0 1- 0 3)
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 鄭家恒,李鑫,譚紅葉;基于語料庫的中文姓名識(shí)別方法研究[J];中文信息學(xué)報(bào);2000年01期

2 劉秉偉,黃萱菁,郭以昆,吳立德;基于統(tǒng)計(jì)方法的中文姓名識(shí)別[J];中文信息學(xué)報(bào);2000年03期

3 孫茂松,黃昌寧,,高海燕,方捷;中文姓名的自動(dòng)辨識(shí)[J];中文信息學(xué)報(bào);1995年02期

4 劉涌泉;關(guān)于漢語字母詞的問題[J];語言文字應(yīng)用;2002年01期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 原新梅;字母詞語的表達(dá)功效[J];修辭學(xué)習(xí);2002年06期

2 原新梅;;字母詞的收入與注音問題[J];辭書研究;2005年04期

3 余桂林;;關(guān)于字母詞的幾個(gè)問題——兼評(píng)兩本字母詞詞典[J];辭書研究;2006年03期

4 黃昌寧,孫茂松;中文信息處理最新成果的檢閱——記新加坡中文電腦國際會(huì)議ICCC’96[J];當(dāng)代語言學(xué);1996年04期

5 孫茂松,鄒嘉彥;漢語自動(dòng)分詞研究評(píng)述[J];當(dāng)代語言學(xué);2001年01期

6 黃德根,馬玉霞,楊元生;基于互信息的中文姓名識(shí)別方法[J];大連理工大學(xué)學(xué)報(bào);2004年05期

7 劉利東;基于組合度的漢語分詞決策算法研究[J];德州學(xué)院學(xué)報(bào);2003年02期

8 馬穎華,王永成,蘇貴洋;一種在漢語文本中抽取重復(fù)字串的快速算法[J];電子學(xué)報(bào);2002年S1期

9 王顯芳,杜利民;一種能夠檢測所有交叉歧義的漢語分詞算法[J];電子學(xué)報(bào);2004年01期

10 李建華,王曉龍;中文人名自動(dòng)識(shí)別的一種有效方法[J];高技術(shù)通訊;2000年02期

相關(guān)會(huì)議論文 前3條

1 馬玉霞;黃德根;楊元生;;一種改進(jìn)的中文姓名識(shí)別方法[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年

2 俞鴻魁;張華平;劉群;;基于角色標(biāo)注的中文機(jī)構(gòu)名識(shí)別[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年

3 余軍;陳曉鷗;;命名實(shí)體識(shí)別:One-at-a-time or All-at-once?Word-based or Character-based?[A];中國計(jì)算技術(shù)與語言問題研究——第七屆中文信息處理國際會(huì)議論文集[C];2007年

相關(guān)博士學(xué)位論文 前10條

1 劉忠;性質(zhì)語意理論的提出與自然語言理解及其實(shí)現(xiàn)的研究[D];華東師范大學(xué);2004年

2 隋巖;基于“動(dòng)態(tài)流通語料庫”的“有效字符串”提取研究[D];北京語言大學(xué);2004年

3 鄭逢斌;關(guān)于計(jì)算機(jī)理解自然查詢語言的研究[D];西南交通大學(xué);2004年

4 楊建國;基于動(dòng)態(tài)流通語料庫(DCC)的漢語熟語單位研究[D];北京語言大學(xué);2005年

5 鄭澤芝;基于動(dòng)態(tài)流通語料庫(DCC)的漢語字母詞語識(shí)別及考察研究[D];北京語言大學(xué);2005年

6 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學(xué);2006年

7 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關(guān)鍵技術(shù)的研究[D];東北大學(xué);2006年

8 李彥潔;現(xiàn)代漢語外來詞發(fā)展研究[D];山東大學(xué);2006年

9 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年

10 周啟強(qiáng);英漢構(gòu)詞法的認(rèn)知研究[D];湖南師范大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 袁園;1990-2002年間的經(jīng)濟(jì)類新詞透析[D];南京師范大學(xué);2006年

2 胡業(yè)江;中文姓名自動(dòng)識(shí)別技術(shù)研究[D];華僑大學(xué);2005年

3 朱s

本文編號(hào):2142308


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2142308.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7dd94***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com