淺談中文切詞算法
本文關(guān)鍵詞:淺談中文切詞算法
更多相關(guān)文章: 智能信息處理 網(wǎng)頁處理 切詞算法 網(wǎng)絡(luò)爬蟲
【摘要】:如何高效率的獲取滿足個性化的需求成為了新時代的一個熱門話題,搜索引擎在一定程度上體現(xiàn)了這一點。然而在搜索引擎中,內(nèi)部分詞算法機制是關(guān)鍵環(huán)節(jié),它的目的在于選取好的關(guān)鍵字。一個好的分詞算法會降低用戶搜索信息的時間和難度,大大提高查詢信息的效率。然而目前有很多分詞算法,它們的性能和效率各不相同,本文的主要研究目的是探討目前幾種比較流行分詞器算法的工作機制,根據(jù)它們自身的不同特點,在準(zhǔn)確率和召回率這兩個方面來比較它們的性能,并進一步研究它們是如何處理用戶關(guān)鍵字的。
【作者單位】: 福建師范大學(xué)閩南科技學(xué)院計算機系;
【關(guān)鍵詞】: 智能信息處理 網(wǎng)頁處理 切詞算法 網(wǎng)絡(luò)爬蟲
【基金】:大學(xué)生創(chuàng)新項目:列線尋呼系統(tǒng)
【分類號】:TP391.1
【正文快照】: 0引言所謂中文切詞[1]就是將一個漢字序列切分成一個一個單獨的詞。這些詞可以讓信息檢索系統(tǒng)理解用戶的檢索要求,進而為其搜索相關(guān)的內(nèi)容?梢哉f它是搜索引擎[2]的關(guān)鍵,是文本挖掘的基礎(chǔ)。但是如何分,分好之后如何讓計算機理解,其處理過程就是分詞算法。目前相關(guān)的中文分詞
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 曹桂宏,何丕廉,吳光遠(yuǎn),聶頌;中文分詞對中文信息檢索系統(tǒng)性能的影響[J];計算機工程與應(yīng)用;2003年19期
2 張自然,金燕;知識檢索與信息檢索的檢索效率比較[J];情報科學(xué);2005年04期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 周程遠(yuǎn);中文自動分詞系統(tǒng)的研究與實現(xiàn)[D];華東師范大學(xué);2010年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期
2 孔浩;全曉松;陳永華;;高校網(wǎng)絡(luò)社區(qū)輿論搜集中同義詞分詞器的實現(xiàn)[J];北京郵電大學(xué)學(xué)報(社會科學(xué)版);2012年05期
3 孫秉強;康耀紅;;經(jīng)過預(yù)處理的中文二元分詞技術(shù)[J];計算機時代;2006年01期
4 葉仕平;;淺談圖書館網(wǎng)絡(luò)信息檢索方法與技巧[J];科技情報開發(fā)與經(jīng)濟;2009年22期
5 王芳;萬常選;;基于可信度的中文完整詞自動識別[J];中文信息學(xué)報;2009年03期
6 廖利文;;現(xiàn)代信息檢索的演變[J];內(nèi)蒙古科技與經(jīng)濟;2006年12期
7 馮光;喬丹丹;常靜怡;;基于分詞匹配的主觀題自動評閱技術(shù)研究[J];計算機與現(xiàn)代化;2013年03期
8 楊建林;孫明軍;;知識檢索概念辨析[J];情報理論與實踐;2006年04期
9 焦玉英;宋曉晴;;基于VSM的文檔信息檢索改進[J];情報理論與實踐;2007年01期
10 李愛明;朱玲玲;;基于關(guān)鍵詞的網(wǎng)絡(luò)信息檢索與知識檢索比較[J];情報探索;2006年05期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 馬春雷;;基于向量空間模型的中文文本檢索研究[A];2007年河北省電子學(xué)會、河北省計算機學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
2 王芳;萬常選;;基于可信度的中文完整詞自動識別[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
3 王芳;萬常選;;基于互信息的中文完整詞自動識別模型[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
2 黃建年;農(nóng)業(yè)古籍的計算機斷句標(biāo)點與分詞標(biāo)引研究[D];南京農(nóng)業(yè)大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王紅勝;多文檔全文檢索系統(tǒng)的設(shè)計與開發(fā)[D];電子科技大學(xué);2010年
2 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學(xué);2010年
3 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計與開發(fā)[D];武漢理工大學(xué);2011年
4 何愛元;基于詞典和概率統(tǒng)計的中文分詞算法研究[D];遼寧大學(xué);2011年
5 于景茹;基于Lucene的職位垂直搜索引擎的研究與實現(xiàn)[D];鄭州大學(xué);2011年
6 邢敏玲;基于網(wǎng)頁分塊的主題爬蟲方法研究[D];重慶大學(xué);2011年
7 白玉昭;垂直搜索引擎的研究與實現(xiàn)[D];江南大學(xué);2012年
8 張曉淼;基于神經(jīng)網(wǎng)絡(luò)的中文分詞算法的研究[D];大連理工大學(xué);2006年
9 楊珂;基于Linux的智能內(nèi)容過濾防火墻的研究與實現(xiàn)[D];西北大學(xué);2006年
10 韋佳;語義Web在概念檢索中的研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2006年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭家義;網(wǎng)絡(luò)信息檢索效率研究[J];圖書與情報;2003年02期
2 劉志勇;網(wǎng)絡(luò)環(huán)境下信息檢索效率的評價[J];大連大學(xué)學(xué)報;2002年01期
3 韓利凱;;一種快速Web中文分詞算法的研究[J];航空計算技術(shù);2007年06期
4 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達陽;利用漢字二元語法關(guān)系解決漢語自動分詞中的交集型歧義[J];計算機研究與發(fā)展;1997年05期
5 歐振猛,余順爭;中文分詞算法在搜索引擎應(yīng)用中的研究[J];計算機工程與應(yīng)用;2000年08期
6 鄭德權(quán),于鳳,王開濤 ,趙鐵軍;基于漢語二字應(yīng)成詞的歧義字段切分方法[J];計算機工程與應(yīng)用;2003年01期
7 湛燕,陳昊,袁方,王熙照;基于中文文本分類的分詞方法研究[J];計算機工程與應(yīng)用;2003年23期
8 馬玉春,宋瀚濤;Web中文文本分詞技術(shù)研究[J];計算機應(yīng)用;2004年04期
9 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計算機與數(shù)字工程;2009年03期
10 肖紅;許少華;李欣;;具有三級索引詞庫結(jié)構(gòu)的中文分詞方法研究[J];計算機應(yīng)用研究;2006年08期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王熠;;現(xiàn)代會計信息系統(tǒng)構(gòu)建探析[J];山東理工大學(xué)學(xué)報(社會科學(xué)版);2005年06期
2 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期
3 于瑞萍;張明;;中文文本自動分類中特征詞選擇算法研究[J];硅谷;2009年20期
4 ;第三屆全國智能信息處理學(xué)術(shù)會議(NCIIP2011)征文通知[J];模式識別與人工智能;2011年01期
5 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計[J];現(xiàn)代圖書情報技術(shù);2008年06期
6 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機科學(xué)與探索;2011年01期
7 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期
8 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年05期
9 張瑞華;周延泉;王樅;李蕾;;移動終端離線瀏覽系統(tǒng)的新聞推薦服務(wù)研究[J];北京郵電大學(xué)學(xué)報;2006年06期
10 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
2 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
3 帥藕蓮;鄒生;;信息高速公路與智能集成信息處理[A];1995中國控制與決策學(xué)術(shù)年會論文集[C];1995年
4 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
5 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
6 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學(xué)術(shù)會議論文集[C];2010年
7 刮俊杰;吳樹國;伊勝偉;;基于詞效應(yīng)的中文術(shù)語提取方法[A];第三屆中國智能計算大會論文集[C];2009年
8 徐波;;海量音頻處理及嵌入式語音交互[A];中國中文信息學(xué)會第六次全國會員代表大會暨成立二十五周年學(xué)術(shù)會議中文信息處理重大成果匯報展資料匯編[C];2006年
9 ;第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議組織情況[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
10 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計與實現(xiàn)[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 王惠臨;意義計算研究的興起與發(fā)展[N];中國社會科學(xué)院報;2009年
2 張馳;發(fā)改委啟動金宏工程清華同方知網(wǎng)擔(dān)負(fù)研發(fā)重任[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2007年
3 郭瑩;全文檢索市場空間大[N];中國計算機報;2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 張瑞軍;基于信息鏈的智能信息處理關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2007年
2 吳應(yīng)良;網(wǎng)絡(luò)計算中的智能信息處理方法研究[D];華南理工大學(xué);2000年
3 姜保慶;關(guān)于弱比例規(guī)則的挖掘及推理研究[D];西南交通大學(xué);2005年
4 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學(xué);2012年
2 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
3 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
4 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
5 王毅桐;分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實現(xiàn)[D];電子科技大學(xué);2012年
6 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年
7 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
8 王洪威;主題網(wǎng)絡(luò)爬蟲的分析與設(shè)計[D];北京郵電大學(xué);2013年
9 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年
10 龔勇;搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年
,本文編號:811289
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/811289.html