天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文信息檢索中詞典機制分詞算法的研究

發(fā)布時間:2017-07-26 07:21

  本文關(guān)鍵詞:中文信息檢索中詞典機制分詞算法的研究


  更多相關(guān)文章: 信息檢索 中文分詞 數(shù)據(jù)結(jié)構(gòu) 哈希


【摘要】:中文自動分詞是實現(xiàn)搜索引擎信息檢索的基礎(chǔ),分詞詞典是漢語自動分詞系統(tǒng)的一個重要組成部分,詞典的加載和查詢速度直接影響到分詞系統(tǒng)的速度。文中在研究傳統(tǒng)詞典機制的基礎(chǔ)上,分析了基于雙字哈希詞典機制對詞條除首次字外剩余詞的不足,給出了一種改進(jìn)的雙字哈希的詞典機制。最后,文中對改進(jìn)算法從準(zhǔn)確率、分全率和分詞速度等方面進(jìn)行了測試,結(jié)果表明,改進(jìn)后的分詞算法在不提升已有典型詞典機制維護(hù)復(fù)雜度的情況下,提高了詞條匹配的查詢速度和效率。
【作者單位】: 江蘇省郵電規(guī)劃設(shè)計院有限公司;
【關(guān)鍵詞】信息檢索 中文分詞 數(shù)據(jù)結(jié)構(gòu) 哈希
【基金】:江蘇省自然科學(xué)基金項目(BK2009425)
【分類號】:TP391.3
【正文快照】: 0引言信息檢索是將信息按一定的方式組織和存儲起來,并根據(jù)用戶的信息需求查找所需信息的過程和技術(shù)。對中文文本信息檢索來說,由于中文文本是按句連寫的,每個句子中的詞沒有空格,需要用分詞來處理[1]。因而在中文文本信息檢索處理中,對歧義切分字段的處理能力,嚴(yán)重影響到中文

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 蔣斌;楊超;趙歡;;基于二字詞位圖表的漢語自動分詞詞典機制[J];湖南大學(xué)學(xué)報(自然科學(xué)版);2006年01期

2 姜維;王曉龍;關(guān)毅;趙健;;基于多知識源的中文詞法分析系統(tǒng)[J];計算機學(xué)報;2007年01期

3 鄭曉剛;韓立新;白書奎;曾曉勤;;一種組合型中文分詞方法[J];計算機應(yīng)用與軟件;2012年07期

4 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學(xué)報;2003年04期

5 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報;2006年03期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 高艷萍;于紅;尹祥貴;綦孝姬;王春永;趙志強;;基于雙數(shù)組Trie樹的漁業(yè)領(lǐng)域分詞研究[J];安徽農(nóng)業(yè)科學(xué);2008年11期

2 于江德;王希杰;;詞位標(biāo)注漢語分詞技術(shù)詳解[J];安陽師范學(xué)院學(xué)報;2010年05期

3 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測繪科學(xué);2010年02期

4 田占霄;韓憲忠;王克儉;;一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2009年04期

5 劉春輝;金順福;劉國華;李穎;;基于優(yōu)化最大匹配與統(tǒng)計結(jié)合的漢語分詞方法[J];燕山大學(xué)學(xué)報;2009年02期

6 趙春紅;高希龍;王檸;趙威;劉國華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學(xué)學(xué)報;2009年05期

7 于源,衣襲;中文全切分快速分詞方法[J];大連鐵道學(xué)院學(xué)報;2005年02期

8 謝紅薇;王棟;;基于Web文本挖掘中的一種中文分詞算法研究[J];電腦開發(fā)與應(yīng)用;2007年07期

9 劉韜;;設(shè)立切分標(biāo)志法在中文地址自動分詞中的改進(jìn)與應(yīng)用[J];電腦知識與技術(shù);2009年11期

10 馮元勇;孫樂;張大鯤;李文波;;基于小規(guī)模尾字特征的中文命名實體識別研究[J];電子學(xué)報;2008年09期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 ;[D];;年

2 ;[D];;年

3 ;[D];;年

4 ;[D];;年

5 ;[D];;年

6 ;[D];;年

7 ;[D];;年

8 ;[D];;年

9 ;[D];;年

10 ;[D];;年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳桂林,王永成,韓客松,王剛;一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu)[J];計算機研究與發(fā)展;2000年01期

2 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機研究與發(fā)展;2000年04期

3 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計的分詞方法[J];計算機工程與應(yīng)用;2008年10期

4 張彥,邵志清;具有概念聯(lián)想功能的特定領(lǐng)域分詞詞典的自動構(gòu)建[J];計算機工程;2004年20期

5 趙健,王曉龍,關(guān)毅;中文名實體識別中的特征組合與特征融合的比較[J];計算機應(yīng)用;2005年11期

6 梁南元;書面漢語自動分詞系統(tǒng)—CDWS[J];中文信息學(xué)報;1987年02期

7 孫茂松,左正平,黃昌寧;漢語自動分詞詞典機制的實驗研究[J];中文信息學(xué)報;2000年01期

8 楊文峰,陳光英,李星;基于PATRICIA tree的漢語自動分詞詞典機制[J];中文信息學(xué)報;2001年03期

9 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期

10 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學(xué)報;2003年04期

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張海營;;全二分快速自動分詞算法構(gòu)建[J];現(xiàn)代圖書情報技術(shù);2007年04期

2 宋國柱;陳俊杰;;基于雙字詞的動態(tài)最大匹配分詞算法的研究[J];太原科技大學(xué)學(xué)報;2009年03期

3 吳亮;;一種改進(jìn)的最大匹配分詞算法研究[J];現(xiàn)代商貿(mào)工業(yè);2010年09期

4 胡局新;鞠訓(xùn)光;;自學(xué)習(xí)分詞算法在科研項目查重系統(tǒng)中的應(yīng)用[J];科技通報;2013年06期

5 曾華琳,李堂秋,史曉東;一種基于提取上下文信息的分詞算法[J];計算機應(yīng)用;2005年09期

6 吳濤;張毛迪;陳傳波;;一種改進(jìn)的統(tǒng)計與后串最大匹配的中文分詞算法研究[J];計算機工程與科學(xué);2008年08期

7 亢臨生,張永奎;基于標(biāo)記的分詞算法[J];山西大學(xué)學(xué)報(自然科學(xué)版);1994年03期

8 郭祥昊,鐘義信,楊麗;基于兩字詞簇的漢語快速自動分詞算法[J];情報學(xué)報;1998年05期

9 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機研究與發(fā)展;2000年04期

10 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機工程與應(yīng)用;2002年11期

中國重要會議論文全文數(shù)據(jù)庫 前5條

1 張秋亮;方凱;;基于中文分詞算法的鐵路客規(guī)查詢系統(tǒng)研究[A];第八屆中國智能交通年會論文集[C];2013年

2 曾華琳;史曉東;李堂秋;;基于上下文信息提取的概率分詞算法[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年

3 才智杰;索南仁欠;;藏文分詞算法研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

4 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年

5 劉善峰;李雅;陶建華;;基于詞位信息的HMM中文分詞算法[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 孟旭升;改進(jìn)的中文分詞算法在自動答疑系統(tǒng)中的應(yīng)用研究[D];大連交通大學(xué);2008年

2 王凱;中文分詞算法在工程建設(shè)材料搜索中的研究與應(yīng)用[D];大連交通大學(xué);2010年

3 林冬盛;中文分詞算法的研究與實現(xiàn)[D];西北大學(xué);2011年

4 張曉淼;基于神經(jīng)網(wǎng)絡(luò)的中文分詞算法的研究[D];大連理工大學(xué);2006年

5 陳宏彥;規(guī)則和統(tǒng)計相結(jié)合的分詞算法[D];太原理工大學(xué);2007年

6 刁毓;基于本體的中文分詞算法的研究與實現(xiàn)[D];曲阜師范大學(xué);2012年

7 賀艷艷;基于詞表結(jié)構(gòu)的中文分詞算法研究[D];中國地質(zhì)大學(xué)(北京);2007年

8 李臘臘;基于特殊標(biāo)志符的中文分詞算法研究[D];湖北工業(yè)大學(xué);2010年

9 付敏;一個改進(jìn)的中文分詞算法及其在Lucene中的應(yīng)用[D];華中科技大學(xué);2010年

10 彭璐;基于拼音標(biāo)注的中文分詞算法研究[D];華中科技大學(xué);2010年

,

本文編號:575251

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/575251.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶45b7d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com