淺談中文切詞算法
本文關鍵詞:淺談中文切詞算法
更多相關文章: 智能信息處理 網(wǎng)頁處理 切詞算法 網(wǎng)絡爬蟲
【摘要】:如何高效率的獲取滿足個性化的需求成為了新時代的一個熱門話題,搜索引擎在一定程度上體現(xiàn)了這一點。然而在搜索引擎中,內部分詞算法機制是關鍵環(huán)節(jié),它的目的在于選取好的關鍵字。一個好的分詞算法會降低用戶搜索信息的時間和難度,大大提高查詢信息的效率。然而目前有很多分詞算法,它們的性能和效率各不相同,本文的主要研究目的是探討目前幾種比較流行分詞器算法的工作機制,根據(jù)它們自身的不同特點,在準確率和召回率這兩個方面來比較它們的性能,并進一步研究它們是如何處理用戶關鍵字的。
【作者單位】: 福建師范大學閩南科技學院計算機系;
【關鍵詞】: 智能信息處理 網(wǎng)頁處理 切詞算法 網(wǎng)絡爬蟲
【基金】:大學生創(chuàng)新項目:列線尋呼系統(tǒng)
【分類號】:TP391.1
【正文快照】: 0引言所謂中文切詞[1]就是將一個漢字序列切分成一個一個單獨的詞。這些詞可以讓信息檢索系統(tǒng)理解用戶的檢索要求,進而為其搜索相關的內容。可以說它是搜索引擎[2]的關鍵,是文本挖掘的基礎。但是如何分,分好之后如何讓計算機理解,其處理過程就是分詞算法。目前相關的中文分詞
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 曹桂宏,何丕廉,吳光遠,聶頌;中文分詞對中文信息檢索系統(tǒng)性能的影響[J];計算機工程與應用;2003年19期
2 張自然,金燕;知識檢索與信息檢索的檢索效率比較[J];情報科學;2005年04期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 周程遠;中文自動分詞系統(tǒng)的研究與實現(xiàn)[D];華東師范大學;2010年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術;2009年10期
2 孔浩;全曉松;陳永華;;高校網(wǎng)絡社區(qū)輿論搜集中同義詞分詞器的實現(xiàn)[J];北京郵電大學學報(社會科學版);2012年05期
3 孫秉強;康耀紅;;經(jīng)過預處理的中文二元分詞技術[J];計算機時代;2006年01期
4 葉仕平;;淺談圖書館網(wǎng)絡信息檢索方法與技巧[J];科技情報開發(fā)與經(jīng)濟;2009年22期
5 王芳;萬常選;;基于可信度的中文完整詞自動識別[J];中文信息學報;2009年03期
6 廖利文;;現(xiàn)代信息檢索的演變[J];內蒙古科技與經(jīng)濟;2006年12期
7 馮光;喬丹丹;常靜怡;;基于分詞匹配的主觀題自動評閱技術研究[J];計算機與現(xiàn)代化;2013年03期
8 楊建林;孫明軍;;知識檢索概念辨析[J];情報理論與實踐;2006年04期
9 焦玉英;宋曉晴;;基于VSM的文檔信息檢索改進[J];情報理論與實踐;2007年01期
10 李愛明;朱玲玲;;基于關鍵詞的網(wǎng)絡信息檢索與知識檢索比較[J];情報探索;2006年05期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 馬春雷;;基于向量空間模型的中文文本檢索研究[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學術年會論文集[C];2007年
2 王芳;萬常選;;基于可信度的中文完整詞自動識別[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
3 王芳;萬常選;;基于互信息的中文完整詞自動識別模型[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學;2012年
2 黃建年;農(nóng)業(yè)古籍的計算機斷句標點與分詞標引研究[D];南京農(nóng)業(yè)大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王紅勝;多文檔全文檢索系統(tǒng)的設計與開發(fā)[D];電子科技大學;2010年
2 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學;2010年
3 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設計與開發(fā)[D];武漢理工大學;2011年
4 何愛元;基于詞典和概率統(tǒng)計的中文分詞算法研究[D];遼寧大學;2011年
5 于景茹;基于Lucene的職位垂直搜索引擎的研究與實現(xiàn)[D];鄭州大學;2011年
6 邢敏玲;基于網(wǎng)頁分塊的主題爬蟲方法研究[D];重慶大學;2011年
7 白玉昭;垂直搜索引擎的研究與實現(xiàn)[D];江南大學;2012年
8 張曉淼;基于神經(jīng)網(wǎng)絡的中文分詞算法的研究[D];大連理工大學;2006年
9 楊珂;基于Linux的智能內容過濾防火墻的研究與實現(xiàn)[D];西北大學;2006年
10 韋佳;語義Web在概念檢索中的研究與應用[D];哈爾濱工業(yè)大學;2006年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭家義;網(wǎng)絡信息檢索效率研究[J];圖書與情報;2003年02期
2 劉志勇;網(wǎng)絡環(huán)境下信息檢索效率的評價[J];大連大學學報;2002年01期
3 韓利凱;;一種快速Web中文分詞算法的研究[J];航空計算技術;2007年06期
4 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達陽;利用漢字二元語法關系解決漢語自動分詞中的交集型歧義[J];計算機研究與發(fā)展;1997年05期
5 歐振猛,余順爭;中文分詞算法在搜索引擎應用中的研究[J];計算機工程與應用;2000年08期
6 鄭德權,于鳳,王開濤 ,趙鐵軍;基于漢語二字應成詞的歧義字段切分方法[J];計算機工程與應用;2003年01期
7 湛燕,陳昊,袁方,王熙照;基于中文文本分類的分詞方法研究[J];計算機工程與應用;2003年23期
8 馬玉春,宋瀚濤;Web中文文本分詞技術研究[J];計算機應用;2004年04期
9 周程遠;朱敏;楊云;;基于詞典的中文分詞算法研究[J];計算機與數(shù)字工程;2009年03期
10 肖紅;許少華;李欣;;具有三級索引詞庫結構的中文分詞方法研究[J];計算機應用研究;2006年08期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王熠;;現(xiàn)代會計信息系統(tǒng)構建探析[J];山東理工大學學報(社會科學版);2005年06期
2 陳哲;;垂直搜索中網(wǎng)頁抓取技術的研究[J];科技信息;2009年22期
3 于瑞萍;張明;;中文文本自動分類中特征詞選擇算法研究[J];硅谷;2009年20期
4 ;第三屆全國智能信息處理學術會議(NCIIP2011)征文通知[J];模式識別與人工智能;2011年01期
5 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡爬蟲設計[J];現(xiàn)代圖書情報技術;2008年06期
6 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡爬蟲研究與優(yōu)化[J];計算機科學與探索;2011年01期
7 王芳;陳海建;;深入解析Web主題爬蟲的關鍵性原理[J];微型電腦應用;2011年07期
8 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設計與實現(xiàn)[J];現(xiàn)代圖書情報技術;2006年05期
9 張瑞華;周延泉;王樅;李蕾;;移動終端離線瀏覽系統(tǒng)的新聞推薦服務研究[J];北京郵電大學學報;2006年06期
10 彭軻;廖聞劍;;基于瀏覽器服務的網(wǎng)絡爬蟲[J];硅谷;2009年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡爬蟲的設計與實現(xiàn)[A];2010年全國通信安全學術會議論文集[C];2010年
2 徐劍;柯貴明;;網(wǎng)絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年
3 帥藕蓮;鄒生;;信息高速公路與智能集成信息處理[A];1995中國控制與決策學術年會論文集[C];1995年
4 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設計與實現(xiàn)[A];2008'中國信息技術與應用學術論壇論文集(二)[C];2008年
5 張軍;于浩;內野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
6 劉凡平;高艷華;于炯;張偉;;基于關鍵決策方法的站內搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年
7 刮俊杰;吳樹國;伊勝偉;;基于詞效應的中文術語提取方法[A];第三屆中國智能計算大會論文集[C];2009年
8 徐波;;海量音頻處理及嵌入式語音交互[A];中國中文信息學會第六次全國會員代表大會暨成立二十五周年學術會議中文信息處理重大成果匯報展資料匯編[C];2006年
9 ;第一屆全國信息檢索與內容安全學術會議組織情況[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
10 樸星海;趙鐵軍;鄭德權;張迪;;面向Blog的網(wǎng)絡爬行器設計與實現(xiàn)[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 王惠臨;意義計算研究的興起與發(fā)展[N];中國社會科學院報;2009年
2 張馳;發(fā)改委啟動金宏工程清華同方知網(wǎng)擔負研發(fā)重任[N];中國高新技術產(chǎn)業(yè)導報;2007年
3 郭瑩;全文檢索市場空間大[N];中國計算機報;2006年
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 張瑞軍;基于信息鏈的智能信息處理關鍵技術研究[D];武漢理工大學;2007年
2 吳應良;網(wǎng)絡計算中的智能信息處理方法研究[D];華南理工大學;2000年
3 姜保慶;關于弱比例規(guī)則的挖掘及推理研究[D];西南交通大學;2005年
4 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 金梅;網(wǎng)絡爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學;2012年
2 芮虎;比價購物平臺中網(wǎng)絡爬蟲的設計與實現(xiàn)[D];華東理工大學;2013年
3 趙茉莉;網(wǎng)絡爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2013年
4 龔秋艷;并行網(wǎng)絡爬蟲設計與實現(xiàn)[D];華東師范大學;2010年
5 王毅桐;分布式網(wǎng)絡爬蟲技術研究與實現(xiàn)[D];電子科技大學;2012年
6 黃曉鵬;基于網(wǎng)絡爬蟲技術的內容探測系統(tǒng)設計與實現(xiàn)[D];北京郵電大學;2010年
7 么士宇;基于分布式計算的網(wǎng)絡爬蟲技術研究[D];大連海事大學;2011年
8 王洪威;主題網(wǎng)絡爬蟲的分析與設計[D];北京郵電大學;2013年
9 郭海燕;搜索引擎中網(wǎng)絡爬蟲技術研究[D];西安電子科技大學;2009年
10 龔勇;搜索引擎中網(wǎng)絡爬蟲的研究[D];武漢理工大學;2010年
,本文編號:811289
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/811289.html