開(kāi)源中文分詞器在web搜索引擎中的應(yīng)用
本文關(guān)鍵詞:開(kāi)源中文分詞器在web搜索引擎中的應(yīng)用
更多相關(guān)文章: 分詞器 web搜索 信息檢索 智能分詞 全文搜索
【摘要】:目前,在信息檢索方面,一般分詞器對(duì)英文的支持相對(duì)較好,但對(duì)中文分詞效果不太理想;隨著web搜索在互聯(lián)網(wǎng)中的廣泛應(yīng)用,中文分詞器也出現(xiàn)了突飛猛進(jìn)的發(fā)展,尤其以IKAnalyzer分詞器為主的分詞工具,為更多企事業(yè)單位所采納。本文主要在詞條化等方面對(duì)分詞原理進(jìn)行深入的分析,并且對(duì)如何構(gòu)造智能分詞詞典進(jìn)行了探討。同時(shí),對(duì)分詞內(nèi)部結(jié)構(gòu)進(jìn)行研究,在分詞數(shù)目和速率方面對(duì)目前主流的中文分詞器進(jìn)行了比較,并運(yùn)用htmlparser庫(kù)對(duì)北京郵電大學(xué)的網(wǎng)站進(jìn)行解析,采用分詞工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服務(wù)器給出運(yùn)用中文分詞后的查詢效果圖,實(shí)現(xiàn)對(duì)北京郵電大學(xué)網(wǎng)站的全文搜索功能。
【作者單位】: 北京郵電大學(xué)電子工程學(xué)院;北京郵電大學(xué)自動(dòng)化學(xué)院;
【關(guān)鍵詞】: 分詞器 web搜索 信息檢索 智能分詞 全文搜索
【分類(lèi)號(hào)】:TP391.3
【正文快照】: O引言隨著互聯(lián)網(wǎng)的飛速發(fā)展,搜索引擎在實(shí)時(shí)搜索、社會(huì)化搜索和個(gè)性化搜索等方面發(fā)生著巨大的變化,,從而促使人們?cè)谛阅、功能和界面上的要求越?lái)越高,而其中起著關(guān)鍵作用的分詞技術(shù)也在潛移默化的更新?lián)Q代。目前幾大主要的搜索引擎都采用如下的工作原理:用戶輸人搜索關(guān)鍵
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 費(fèi)洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計(jì)的中文分詞的研究[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期
2 陳林;楊丹;趙俊芹;;基于語(yǔ)義理解的智能搜索引擎研究[J];計(jì)算機(jī)科學(xué);2008年06期
3 陳紅濤;楊放春;陳磊;;基于大規(guī)模中文搜索引擎的搜索日志挖掘[J];計(jì)算機(jī)應(yīng)用研究;2008年06期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 王茜;基于字符串匹配的中英文混合分詞技術(shù)研究[D];四川師范大學(xué);2011年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 白曉梅;張福利;;校園網(wǎng)中文搜索引擎系統(tǒng)的設(shè)計(jì)[J];鞍山師范學(xué)院學(xué)報(bào);2006年06期
2 耿新青;陶鳳梅;黃宏光;;一種基于近鄰匹配的中文分詞算法Jlppeccz[J];鞍山師范學(xué)院學(xué)報(bào);2010年04期
3 徐光俠;封雷;涂演;李成;;基于Android和Google Maps的生活輔助系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年02期
4 田占霄;韓憲忠;王克儉;;一種改進(jìn)的長(zhǎng)詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2009年04期
5 趙春紅;高希龍;王檸;趙威;劉國(guó)華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學(xué)學(xué)報(bào);2009年05期
6 湯國(guó)鋒;徐振偉;張華熊;;基于Lucene的中文分詞技術(shù)研究[J];電腦編程技巧與維護(hù);2012年10期
7 康松林;施榮華;;基于信息元的教學(xué)資源組織系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦與信息技術(shù);2006年04期
8 陳文君;於文雪;;漢英跨語(yǔ)言檢索系統(tǒng)中關(guān)鍵詞提取方法的研究[J];電腦知識(shí)與技術(shù);2009年28期
9 葉敏;范金鋒;;基于二叉排序樹(shù)及中文分詞的關(guān)鍵字過(guò)濾技術(shù)[J];電力信息化;2011年07期
10 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 王芳;萬(wàn)常選;;基于互信息的中文完整詞自動(dòng)識(shí)別模型[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 李群;主題搜索引擎聚類(lèi)算法的研究[D];北京林業(yè)大學(xué);2011年
2 夏天;研究性學(xué)習(xí)支持系統(tǒng)[D];華東師范大學(xué);2007年
3 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 馮海瑛;《萬(wàn)歷野獲編》分詞理論與實(shí)踐[D];廣西師范學(xué)院;2010年
2 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過(guò)濾研究[D];鄭州大學(xué);2010年
3 劉國(guó)峰;數(shù)據(jù)模板匹配研究及在社保審計(jì)中的應(yīng)用[D];哈爾濱工程大學(xué);2010年
4 孔勝;文本資源的知識(shí)抽取研究[D];大連理工大學(xué);2010年
5 李丹;基于規(guī)則與統(tǒng)計(jì)的漢語(yǔ)自動(dòng)分詞研究[D];長(zhǎng)春工業(yè)大學(xué);2010年
6 周月紅;基于Lucene的站內(nèi)搜索引擎的設(shè)計(jì)與開(kāi)發(fā)[D];華東理工大學(xué);2011年
7 林淥;基于新聞主題模型的熱點(diǎn)工作挖掘系統(tǒng)[D];浙江大學(xué);2011年
8 曹亞輝;非結(jié)構(gòu)文本最佳近似匹配系統(tǒng)的研究與實(shí)現(xiàn)[D];東華大學(xué);2011年
9 惠國(guó)寶;基于統(tǒng)計(jì)和語(yǔ)義分析的分詞及在產(chǎn)品設(shè)計(jì)中的應(yīng)用[D];西安電子科技大學(xué);2011年
10 詹圣君;基于用戶行為日志分析的搜索引擎排序算法研究[D];湖北工業(yè)大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 孫茂松,鄒嘉彥;漢語(yǔ)自動(dòng)分詞研究評(píng)述[J];當(dāng)代語(yǔ)言學(xué);2001年01期
2 王顯芳,杜利民;一種能夠檢測(cè)所有交叉歧義的漢語(yǔ)分詞算法[J];電子學(xué)報(bào);2004年01期
3 張仰森,徐波,曹元大;自然語(yǔ)言處理中的語(yǔ)言模型及其比較研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期
4 王繼民,陳
本文編號(hào):1107837
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1107837.html