基于Web知識的中文分詞結(jié)果優(yōu)化
本文關(guān)鍵詞:基于Web知識的中文分詞結(jié)果優(yōu)化
更多相關(guān)文章: 中文分詞 未登錄詞 網(wǎng)絡(luò)新詞 搜索引擎 分詞優(yōu)化
【摘要】:隨著人們在互聯(lián)網(wǎng)上的活動越來越頻繁,網(wǎng)絡(luò)新詞不斷涌現(xiàn)。現(xiàn)有的中文分詞系統(tǒng)對新詞的識別效率并不高。對新詞的識別效率直接影響分詞的精度,也對互聯(lián)網(wǎng)應(yīng)用系統(tǒng)的服務(wù)質(zhì)量產(chǎn)生影響。在分詞系統(tǒng)分詞結(jié)果的基礎(chǔ)上,提出利用搜索引擎和百度百科等Web知識,結(jié)合統(tǒng)計和匹配實現(xiàn)新詞識別的方法,進(jìn)一步實現(xiàn)對系統(tǒng)原始分詞結(jié)果的優(yōu)化。實驗數(shù)據(jù)表明,該方法能夠有效識別網(wǎng)絡(luò)新詞并實現(xiàn)分詞結(jié)果的優(yōu)化。
【作者單位】: 上海應(yīng)用技術(shù)學(xué)院計算機(jī)科學(xué)與信息工程學(xué)院;
【關(guān)鍵詞】: 中文分詞 未登錄詞 網(wǎng)絡(luò)新詞 搜索引擎 分詞優(yōu)化
【分類號】:TP391.1
【正文快照】: 0引言中文分詞是將句子根據(jù)一定的規(guī)則切分為詞序列的過程[1],是中文信息處理的關(guān)鍵技術(shù)之一,在中文文本信息自動化索引、分類、聚類、信息抽取、語義分析、機(jī)器翻譯等領(lǐng)域都有著廣泛的應(yīng)用[2]。對此許多研究者進(jìn)行了大量的研究并取得了一定的成果,例如:基于字符串匹配的分詞
【參考文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 何愛元;基于詞典和概率統(tǒng)計的中文分詞算法研究[D];遼寧大學(xué);2011年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 李凱;袁甜甜;韓梅;;中國手語多媒體數(shù)據(jù)庫設(shè)計[J];浙江工業(yè)大學(xué)學(xué)報(社會科學(xué)版);2015年03期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 柏雪;主觀題自動閱卷系統(tǒng)的研究與設(shè)計[D];西南交通大學(xué);2013年
2 耿端;基于同義詞詞林的評分在中醫(yī)案例自測系統(tǒng)中的應(yīng)用[D];西北大學(xué);2013年
3 黃翼彪;開源中文分詞器的比較研究[D];鄭州大學(xué);2013年
4 張亞楠;基于Hadoop云計算平臺的聚類算法并行化研究[D];內(nèi)蒙古科技大學(xué);2013年
5 湯國鋒;基于移動終端的Web信息檢索技術(shù)研究[D];浙江理工大學(xué);2012年
6 周二亮;微博短文本情感分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];河北科技大學(xué);2014年
7 樊中奎;地質(zhì)資料全文聚類分析及信息提取的研究[D];中國地質(zhì)大學(xué)(北京);2014年
8 李小三;新聞垂直搜索引擎中文分詞與網(wǎng)頁去重的應(yīng)用與研究[D];長安大學(xué);2014年
9 舒奔;基于Fish-search算法的垂直搜索引擎研究與設(shè)計[D];安徽理工大學(xué);2014年
10 楊慧;行業(yè)文獻(xiàn)自動分析系統(tǒng)的設(shè)計與實現(xiàn)[D];武漢理工大學(xué);2014年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張德鑫;“水至清則無魚”——我的新生詞語規(guī)范觀[J];北京大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2000年05期
2 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學(xué)學(xué)報;2008年01期
3 劉群,張華平,俞鴻魁,程學(xué)旗;基于層疊隱馬模型的漢語詞法分析[J];計算機(jī)研究與發(fā)展;2004年08期
4 徐飛;孫勁光;;基于一種粗切分的最短路徑中文分詞研究[J];計算機(jī)與信息技術(shù);2007年11期
5 楊琳;張建平;顏永紅;;特定領(lǐng)域的漢語語言模型平滑算法比較研究[J];計算機(jī)工程與應(yīng)用;2006年32期
6 劉丹;方衛(wèi)國;周泓;;二元語法中文分詞數(shù)據(jù)平滑算法性能研究[J];計算機(jī)工程與應(yīng)用;2009年17期
7 何國斌;趙晶璐;;漢語文本自動分詞算法的研究[J];計算機(jī)工程與應(yīng)用;2010年03期
8 張海軍;史樹敏;朱朝勇;黃河燕;;中文新詞識別技術(shù)綜述[J];計算機(jī)科學(xué);2010年03期
9 賈自艷,史忠植;基于概率統(tǒng)計技術(shù)和規(guī)則方法的新詞發(fā)現(xiàn)[J];計算機(jī)工程;2004年20期
10 周蕾;朱巧明;;基于統(tǒng)計和規(guī)則的未登錄詞識別方法研究[J];計算機(jī)工程;2007年08期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 肖鏡輝;非時齊語言建模技術(shù)研究及實踐[D];哈爾濱工業(yè)大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 劉婷;中文自動分詞法在全文檢索中的研究及應(yīng)用[D];南京航空航天大學(xué);2007年
2 王靖;基于機(jī)械切分和標(biāo)注的中文分詞研究[D];湖南大學(xué);2009年
3 周程遠(yuǎn);中文自動分詞系統(tǒng)的研究與實現(xiàn)[D];華東師范大學(xué);2010年
4 盛啟東;基于Web的新詞語發(fā)現(xiàn)研究[D];安徽大學(xué);2010年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計算機(jī)系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報;2006年03期
3 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計算機(jī)應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯誤驅(qū)動學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計算機(jī)科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計與實現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年10期
7 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計算機(jī)工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國科學(xué)院研究生院學(xué)報;2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計算機(jī)應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計算機(jī)(專業(yè)版);2009年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 本報記者 張彤;讓計算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年
2 清華大學(xué)IT可用性實驗室;2005中文搜索引擎質(zhì)量對比[N];計算機(jī)世界;2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實現(xiàn)[D];北京工業(yè)大學(xué);2013年
2 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
3 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 顧輝;基于中文分詞的購物中心微信平臺購物導(dǎo)航的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 王荔;統(tǒng)計全切分中文分詞系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
4 黃翼彪;開源中文分詞器的比較研究[D];鄭州大學(xué);2013年
5 許華婷;基于Active Learning的中文分詞領(lǐng)域自適應(yīng)方法的研究[D];北京交通大學(xué);2015年
6 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2009年
7 許順;中文分詞規(guī)范可計算化的研究與實現(xiàn)[D];蘇州大學(xué);2006年
8 魏博誠;中文分詞交集型歧義處理研究[D];安徽大學(xué);2011年
9 代聰;基于英漢平行語料的中文分詞研究與應(yīng)用[D];大連理工大學(xué);2012年
10 王為磊;基于多目標(biāo)優(yōu)化的中文分詞模型的研究[D];蘇州大學(xué);2008年
,本文編號:814290
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/814290.html