天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

使用二級(jí)索引的中文分詞詞典

發(fā)布時(shí)間:2018-03-31 03:17

  本文選題:中文分詞 切入點(diǎn):二級(jí)索引 出處:《計(jì)算機(jī)工程與應(yīng)用》2009年19期


【摘要】:中文分詞是中文信息處理的基礎(chǔ),在諸如搜索引擎,自動(dòng)翻譯等多個(gè)領(lǐng)域都有著非常重要的地位。中文分詞詞典是中文機(jī)械式分詞算法的基礎(chǔ),它將告訴算法什么是詞,由于在算法執(zhí)行過程中需要反復(fù)利用分詞詞典的內(nèi)容進(jìn)行字符串匹配,所以中文分詞詞典的存儲(chǔ)結(jié)構(gòu)從很大程度上決定將采用什么匹配算法以及匹配算法的好壞。在研究現(xiàn)存分詞詞典及匹配算法的基礎(chǔ)上,吸取前人的經(jīng)驗(yàn)經(jīng)過改進(jìn),為詞典加上了多級(jí)索引,并由此提出了一種新的中文分詞詞典存儲(chǔ)機(jī)制——基于二級(jí)索引的中文分詞詞典,并在該詞典的基礎(chǔ)上提出了基于正向匹配的改進(jìn)型匹配算法,大大降低了匹配過程的時(shí)間復(fù)雜度。從而提高了整個(gè)中文分詞算法的分詞速度。
[Abstract]:Chinese word segmentation is the foundation of Chinese information processing and plays a very important role in many fields such as search engine, automatic translation and so on. Chinese word segmentation dictionary is the foundation of Chinese mechanical word segmentation algorithm, which will tell the algorithm what is a word. Because it is necessary to repeatedly use the contents of the word segmentation dictionary for string matching during the execution of the algorithm, Therefore, the storage structure of Chinese word segmentation dictionaries determines to a great extent what matching algorithms and matching algorithms will be used. On the basis of studying the existing word segmentation dictionaries and matching algorithms, the previous experience has been improved. The multi-level index is added to the dictionary, and a new Chinese word segmentation dictionary based on two-level index is proposed, and an improved matching algorithm based on forward matching is proposed. The time complexity of the matching process is greatly reduced and the word segmentation speed of the whole Chinese word segmentation algorithm is improved.
【作者單位】: 吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系;
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計(jì)算機(jī)研究與發(fā)展;2000年04期

2 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期

3 肖紅;許少華;李欣;;具有三級(jí)索引詞庫結(jié)構(gòu)的中文分詞方法研究[J];計(jì)算機(jī)應(yīng)用研究;2006年08期

4 張科;;多次Hash快速分詞算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年07期

5 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期

6 翟鳳文;赫楓齡;左萬利;;字典與統(tǒng)計(jì)相結(jié)合的中文分詞方法[J];小型微型計(jì)算機(jī)系統(tǒng);2006年09期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 文庭孝;漢語自動(dòng)分詞研究進(jìn)展[J];圖書與情報(bào);2005年05期

2 于源,衣襲;中文全切分快速分詞方法[J];大連鐵道學(xué)院學(xué)報(bào);2005年02期

3 蔡勇智;基于最大匹配分詞算法的中文詞語粗分模型[J];福建電腦;2005年09期

4 王一蕾;吳英杰;;基于數(shù)據(jù)量的文本分詞算法選取的研究[J];福建電腦;2006年09期

5 蘇芳仲,林世平;Web文本挖掘中的一種中文分詞算法研究及其實(shí)現(xiàn)[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

6 劉曉英;漢語自動(dòng)分詞研究的發(fā)展趨勢(shì)[J];高校圖書館工作;2005年04期

7 蔣斌;楊超;趙歡;;基于二字詞位圖表的漢語自動(dòng)分詞詞典機(jī)制[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期

8 馬哲,姚敏;一種改進(jìn)的基于PATRICIA樹的漢語自動(dòng)分詞詞典機(jī)制[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

9 林綺屏;基于詞形的最佳路徑分詞算法[J];華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年04期

10 李向陽,張亞非;一種Hash高速分詞算法[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期

相關(guān)會(huì)議論文 前1條

1 王虎;王潛平;;對(duì)整詞二分自動(dòng)分詞機(jī)制的改進(jìn)[A];中國計(jì)算技術(shù)與語言問題研究——第七屆中文信息處理國際會(huì)議論文集[C];2007年

相關(guān)博士學(xué)位論文 前4條

1 楊雨圖;支持雙語的協(xié)同CAPP系統(tǒng)若干關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2006年

2 劉少輝;知識(shí)發(fā)現(xiàn)中粗糙集理論的研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年

3 姜韶華;科研項(xiàng)目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年

4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 陳紅英;Internet信息過濾Agent的研究和實(shí)現(xiàn)[D];廣東工業(yè)大學(xué);2002年

2 馮元勇;智能搜索器的概念庫設(shè)計(jì)及其文檔評(píng)價(jià)策略[D];中南大學(xué);2002年

3 賈建華;語音合成及語音處理[D];中南大學(xué);2002年

4 李麗蘋;教學(xué)電子信息資源管理研究[D];南京師范大學(xué);2002年

5 高雷;網(wǎng)絡(luò)智能過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廣東工業(yè)大學(xué);2003年

6 盧忠良;基于多類的漢語文本自動(dòng)分類研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年

7 于波;中文全文檢索技術(shù)研究[D];華中師范大學(xué);2003年

8 張俊艷;基于SVM有聚類指導(dǎo)的Web中文文本分類器的研究及其實(shí)現(xiàn)[D];福州大學(xué);2004年

9 馬國俊;潛在語義索引在中文文本聚類中的應(yīng)用研究[D];西安建筑科技大學(xué);2004年

10 徐愛華;面向文本分類的中文文本挖掘技術(shù)研究及實(shí)現(xiàn)[D];武漢理工大學(xué);2004年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 文庭孝;漢語自動(dòng)分詞研究進(jìn)展[J];圖書與情報(bào);2005年05期

2 陳桂林,王永成,韓客松,王剛;一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu)[J];計(jì)算機(jī)研究與發(fā)展;2000年01期

3 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計(jì)算機(jī)研究與發(fā)展;2000年04期

4 吳勝遠(yuǎn);一種漢語分詞方法[J];計(jì)算機(jī)研究與發(fā)展;1996年04期

5 張長利,赫楓齡,左萬利;一種基于后綴數(shù)組的無詞典分詞方法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2004年04期

6 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期

7 譚瓊,史忠植;分詞中的歧義處理[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期

8 湛燕,陳昊,袁方,王熙照;基于中文文本分類的分詞方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年23期

9 嚴(yán)威,趙政;開發(fā)中文搜索引擎漢語處理的關(guān)鍵技術(shù)[J];計(jì)算機(jī)工程;1999年06期

10 溫滔,朱巧明,呂強(qiáng);一種快速漢語分詞算法[J];計(jì)算機(jī)工程;2004年19期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張文慧;張冉;;基于中文分詞的農(nóng)業(yè)信息檢索平臺(tái)設(shè)計(jì)[J];安徽農(nóng)業(yè)科學(xué);2011年20期

2 杜娟;;Nutch中文分詞的研究和改進(jìn)[J];軟件導(dǎo)刊;2011年06期

3 張旭;;構(gòu)建基于本地服務(wù)的垂直搜索引擎[J];才智;2011年18期

4 韓月陽;鄧世昆;賈時(shí)銀;李遠(yuǎn)方;;基于字分類的中文分詞的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年07期

5 劉兆偉;黃永峰;;面向主題搜索引擎的實(shí)現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期

6 陰桂梅;郭廣行;;智能答疑系統(tǒng)模型設(shè)計(jì)[J];電腦開發(fā)與應(yīng)用;2011年07期

7 劉曉星;胡暢霞;;WEB中文本信息檢索的關(guān)鍵技術(shù)研究[J];硅谷;2011年16期

8 楊春明;韓永國;;快速的領(lǐng)域文檔關(guān)鍵詞自動(dòng)提取算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年06期

9 谷俊;王昊;;基于領(lǐng)域中文文本的術(shù)語抽取方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2011年04期

10 胡莉;;中文“詞”的語言模型識(shí)別研究方法綜述[J];北方文學(xué)(下半月);2011年03期

相關(guān)會(huì)議論文 前10條

1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

2 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

5 向永清;鄧志鴻;于航;高寧;;面向XML文檔的二級(jí)索引技術(shù)及其在XML關(guān)鍵詞檢索中的應(yīng)用研究[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

6 彭輝;翟翔;;AutoCAD 2008自動(dòng)翻譯軟件研發(fā)[A];全國冶金自動(dòng)化信息網(wǎng)2010年年會(huì)論文集[C];2010年

7 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年

9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

相關(guān)重要報(bào)紙文章 前2條

1 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上海科技報(bào);2009年

2 高雪娟;企業(yè)搜索要為決策服務(wù)[N];中國計(jì)算機(jī)報(bào);2006年

相關(guān)博士學(xué)位論文 前9條

1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

6 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

7 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年

8 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

9 江錦華;XML小枝模式查詢處理技術(shù)研究[D];浙江大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年

2 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)[D];中南大學(xué);2005年

3 戚晶;基于RSS的搜索引擎的研究與實(shí)現(xiàn)[D];吉林大學(xué);2006年

4 王圓;文本內(nèi)容過濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年

5 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年

6 孟美華;桌面搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2009年

7 褚金正;面向特定領(lǐng)域的文本識(shí)別和分類[D];湖南大學(xué);2005年

8 張曉淼;基于神經(jīng)網(wǎng)絡(luò)的中文分詞算法的研究[D];大連理工大學(xué);2006年

9 謝騁超;基于語義的數(shù)據(jù)庫全文檢索系統(tǒng)[D];浙江大學(xué);2006年

10 陳默;基于神經(jīng)網(wǎng)絡(luò)的元搜索引擎[D];浙江大學(xué);2006年

,

本文編號(hào):1688907

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1688907.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fe7bb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com