天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于單字特征和搜索引擎的新詞識(shí)別

發(fā)布時(shí)間:2018-04-04 13:26

  本文選題:新詞識(shí)別 切入點(diǎn):單字詞 出處:《武漢大學(xué)學(xué)報(bào)(理學(xué)版)》2010年06期


【摘要】:新詞識(shí)別是影響搜索準(zhǔn)確率以及速率的重要因素.本文提出了一種基于統(tǒng)計(jì)模型和詞語(yǔ)搭配的中文新詞自動(dòng)識(shí)別方法.采用條件概率的方法提取單字詞搭配特征和臨界詞特征,并采用層次結(jié)構(gòu)實(shí)現(xiàn)新詞定位以及識(shí)別.首先采用雙向最大匹配相結(jié)合的方法對(duì)文本進(jìn)行詞法粗切分,然后根據(jù)單字詞搭配得到候選新詞的位置,用臨界詞方法確定候選新詞的邊界,采用改進(jìn)Nagao串頻統(tǒng)計(jì)方法對(duì)新詞候選詞在本文內(nèi)進(jìn)行重復(fù)串統(tǒng)計(jì),對(duì)于只在文中出現(xiàn)一次的新詞則借助搜索引擎進(jìn)行確定.對(duì)新浪網(wǎng)近期的網(wǎng)絡(luò)文章進(jìn)行測(cè)試,結(jié)果表明,基于本文方法設(shè)計(jì)的系統(tǒng)可以識(shí)別不同領(lǐng)域的新詞,在低頻詞、較長(zhǎng)的詞以及新詞語(yǔ)搭配方面取得了良好的效果.單字詞搭配檢查發(fā)現(xiàn)新詞位置綜合指標(biāo)F值達(dá)到96.8%.
[Abstract]:Neologism recognition is an important factor affecting search accuracy and speed.This paper presents a new Chinese word recognition method based on statistical model and word collocation.The method of conditional probability is used to extract the collocation feature and critical word feature of single word, and the hierarchical structure is used to locate and recognize new words.First of all, the text is divided into lexical coarse segments by using bidirectional maximum matching method, and then the boundary of candidate neologisms is determined by critical word method according to the location of candidate neologisms according to the collocation of single word words.The improved Nagao string frequency statistics method is used to make repeated string statistics of new word candidates in this paper, and the search engine is used to determine the new words that appear only once in this paper.The results show that the system based on this method can identify new words in different fields and has good results in low frequency words, long words and collocation.Single word collocation check found that the comprehensive index F value of neologism reached 96.8%.
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語(yǔ)料庫(kù)的新詞檢測(cè)[J];計(jì)算機(jī)研究與發(fā)展;2006年05期

2 張華平,劉群;基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J];中文信息學(xué)報(bào);2002年05期

3 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇;面向Internet的中文新詞語(yǔ)檢測(cè)[J];中文信息學(xué)報(bào);2004年06期

4 王素格;楊軍玲;張武;;自動(dòng)獲取漢語(yǔ)詞語(yǔ)搭配[J];中文信息學(xué)報(bào);2006年06期

5 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報(bào);2006年03期

6 鄭家恒,李文花;基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動(dòng)識(shí)別初探[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期

7 王大亮;涂序彥;鄭雪峰;佟子健;;多策略融合的搭配抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 羅智勇;宋柔;;基于多特征的自適應(yīng)新詞識(shí)別[J];北京工業(yè)大學(xué)學(xué)報(bào);2007年07期

2 耿增民;劉萬(wàn)春;朱玉文;;受限領(lǐng)域的自動(dòng)文摘方法研究[J];北京理工大學(xué)學(xué)報(bào);2006年08期

3 李鈍;曹元大;萬(wàn)月亮;;Internet中的新詞識(shí)別[J];北京郵電大學(xué)學(xué)報(bào);2008年01期

4 張榕;宋柔;;一種被定義項(xiàng)的識(shí)別策略[J];當(dāng)代語(yǔ)言學(xué);2007年01期

5 高俊波;楊靜;;在線論壇中的意見(jiàn)領(lǐng)袖分析[J];電子科技大學(xué)學(xué)報(bào);2007年06期

6 胡_g;蘇雪峰;;特定主題的相關(guān)概念挖掘研究與實(shí)現(xiàn)[J];電腦開(kāi)發(fā)與應(yīng)用;2007年02期

7 李六杏;區(qū)鳳霞;;基于最優(yōu)屬性約簡(jiǎn)的中文郵件過(guò)濾系統(tǒng)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年05期

8 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年21期

9 張磊;張代遠(yuǎn);;中文分詞算法解析[J];電腦知識(shí)與技術(shù);2009年01期

10 劉韜;;設(shè)立切分標(biāo)志法在中文地址自動(dòng)分詞中的改進(jìn)與應(yīng)用[J];電腦知識(shí)與技術(shù);2009年11期

相關(guān)會(huì)議論文 前10條

1 沈煥生;朱磊;;基于信息內(nèi)容的關(guān)鍵詞抽取研究[A];中國(guó)電子學(xué)會(huì)第十五屆信息論學(xué)術(shù)年會(huì)暨第一屆全國(guó)網(wǎng)絡(luò)編碼學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2008年

2 趙燕平;許榕生;;基于Web的智能電子商務(wù)信息咨詢系統(tǒng)[A];第11屆全國(guó)計(jì)算機(jī)在現(xiàn)代科學(xué)技術(shù)領(lǐng)域應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2003年

3 朱春江;陸宇e,

本文編號(hào):1710144


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1710144.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶af7dc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com