Lucene中文分詞“庖丁解! Paoding Analysis
本文關(guān)鍵詞:基于Lucene的中文自然語(yǔ)言搜索引擎,由筆耕文化傳播整理發(fā)布。
Java開(kāi)源分類 > 搜索引擎
Lucene中文分詞“庖丁解牛” Paoding Analysis 簡(jiǎn)介信息
Paoding's Knives中文分詞具有極高效率和高擴(kuò)展性。引入隱喻,采用完全的面向?qū)ο笤O(shè)計(jì),構(gòu)思先進(jìn)。高效率:在PIII 1G內(nèi)存?zhèn)人機(jī)器上,1秒可準(zhǔn)確分詞100萬(wàn)漢字。采用基于不限制個(gè)數(shù)的詞典文件對(duì)文章進(jìn)行有效切分,使能夠?qū)?duì)詞匯分類定義。能夠?qū)ξ粗脑~匯進(jìn)行合理解析。
該項(xiàng)目主頁(yè):
本分類【搜索引擎】其它開(kāi)源項(xiàng)目
基于Lucene的中文自然語(yǔ)言搜索引擎.pdf
基于Lucene的中文自然語(yǔ)言搜索引擎摘要Internet技術(shù)的飛速發(fā)展,信息的發(fā)布與共享超越了時(shí)空的限制,人類進(jìn)入一個(gè)前所未有的“信息爆炸”時(shí)代;ヂ(lián)網(wǎng)信息的極速膨脹提供給用戶海量的信息資源的同時(shí),也帶來(lái)了尋找信息的困難。如果沒(méi)有一個(gè)強(qiáng)有力的工具來(lái)幫助人們尋找、發(fā)掘有用的信息,人們就會(huì)被湮沒(méi)在信...
Lucene 全文搜索引擎的應(yīng)用(設(shè)計(jì))論文.pdf
Lucene是一個(gè)廣受贊譽(yù)的搜索引擎開(kāi)發(fā)庫(kù),它可以很方便地為圖書信息文檔建立索引并提供搜索。本文通過(guò)對(duì)Lucene技術(shù)的研究,采用Lucene技術(shù)設(shè)計(jì)和開(kāi)發(fā)了上海市高校圖書搜索引擎系統(tǒng)。論文詳細(xì)介紹了該系統(tǒng)的設(shè)計(jì)架構(gòu)和關(guān)鍵實(shí)現(xiàn)技術(shù)。系統(tǒng)針對(duì)各高校圖書數(shù)據(jù)庫(kù)異構(gòu)的問(wèn)題,通過(guò)文檔對(duì)象模型技術(shù)開(kāi)放出統(tǒng)一的...
Lucene 全文搜索引擎的應(yīng)用本科生畢業(yè)設(shè)計(jì)(論文).pdf
Lucene是一個(gè)廣受贊譽(yù)的搜索引擎開(kāi)發(fā)庫(kù),它可以很方便地為圖書信息文檔建立索引并提供搜索。本文通過(guò)對(duì)Lucene技術(shù)的研究,采用Lucene技術(shù)設(shè)計(jì)和開(kāi)發(fā)了上海市高校圖書搜索引擎系統(tǒng)。論文詳細(xì)介紹了該系統(tǒng)的設(shè)計(jì)架構(gòu)和關(guān)鍵實(shí)現(xiàn)技術(shù)。系統(tǒng)針對(duì)各高校圖書數(shù)據(jù)庫(kù)異構(gòu)的問(wèn)題,通過(guò)文檔對(duì)象模型技術(shù)開(kāi)放出統(tǒng)一的...
一個(gè)例子學(xué)懂搜索引擎(lucene).doc
其實(shí),lucene是一個(gè)很容易上手的搜索引擎框架,傳統(tǒng)的搜索引擎,涉及到爬蟲(chóng),也就是爬取網(wǎng)頁(yè),然后對(duì)網(wǎng)頁(yè)進(jìn)行加工,也就是索引,最后用于搜索,lucene這個(gè)框架可以很方便的幫你做到后面兩個(gè)步驟,也就是索引和搜索!本文嘗試通過(guò)一個(gè)例子,使大家掌握l(shuí)ucene的使用核心方法,包括分詞、索引、搜索不同的目...
中文搜索引擎核心技術(shù)揭密:中文分詞.doc
目前在中文搜索引擎領(lǐng)域,國(guó)內(nèi)的搜索引擎已經(jīng)和國(guó)外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面,有一個(gè)重要的原因就在于中文和英文兩種語(yǔ)言自身的書寫方式不同,這其中對(duì)于計(jì)算機(jī)涉及的技術(shù)就是中文分詞。什么是中文分詞眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開(kāi),而中文是以字為單位,句子中所有的...
相關(guān)的經(jīng)驗(yàn) -> 更多
11款開(kāi)放中文分詞引擎大比拼
來(lái)自: 在逐漸步入DT(Data Technology)時(shí)代的今天,自然語(yǔ)義分析技術(shù)越發(fā)不可或缺。對(duì)于我們每天打交道的中文來(lái)說(shuō),并沒(méi)有類似英文空格的邊界標(biāo)志。而理解句... ...
java版結(jié)巴分詞:jieba-analysis
結(jié)巴分詞的原始版本為python編寫,目前該項(xiàng)目在github上的關(guān)注量為170, 打星727次(最新的數(shù)據(jù)以原倉(cāng)庫(kù)為準(zhǔn)),F(xiàn)ork238次,可以說(shuō)已經(jīng)有一定的用戶群。 結(jié)巴分詞(java版)只保留的原項(xiàng)目針對(duì)搜索引擎分詞的功能(cut_for_index、cut_for_search),詞性標(biāo)注... ...
lucene創(chuàng)建索引初步和搜索初步
1 lucene簡(jiǎn)介 1.1 什么是lucene Lucene是一個(gè)全文搜索框架,而不是應(yīng)用產(chǎn)品。因此它并不像 或者google Desktop那么拿來(lái)就能用,它只是提供了一種工具讓你能實(shí)現(xiàn)這些產(chǎn)品。 2 lucene的工作方式 &nbs... ...
Lucene開(kāi)發(fā)實(shí)例:Lucene中文分詞
1、準(zhǔn)備工作 下載lucene 3.6.1 : 下載中文分詞IK Analyzer: (注意下載的是IK Analyzer ... ...
基于IKAnalyzer實(shí)現(xiàn)一個(gè)Elasticsearch中文分詞插件
雖然Elasticsearch有原生的中文插件elasticsearch-analysis-smartcn(實(shí)際上是lucence的org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer),,但它似乎沒(méi)能滿足我的要求。比如我希望對(duì)文檔中的“林夕... ...
本文關(guān)鍵詞:基于Lucene的中文自然語(yǔ)言搜索引擎,由筆耕文化傳播整理發(fā)布。
本文編號(hào):70725
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/70725.html