天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Lucene的中文分詞方法設(shè)計與實(shí)現(xiàn)

發(fā)布時間:2018-03-24 00:00

  本文選題:中文分詞 切入點(diǎn):搜索引擎 出處:《四川大學(xué)學(xué)報(自然科學(xué)版)》2008年05期


【摘要】:本文設(shè)計實(shí)現(xiàn)了一個中文分詞模塊,其主要研究目的在于尋找更為有效的中文詞匯處理方法,提高全文檢索系統(tǒng)的中文處理能力.整個模塊基于當(dāng)前最流行的搜索引擎架構(gòu)Lucene,實(shí)現(xiàn)了帶有歧義消除功能的正向最大匹配算法.在系統(tǒng)評測方面,比較了該方法與現(xiàn)有方法的區(qū)別,對于如何構(gòu)建一個高效的中文檢索系統(tǒng),提出了一種實(shí)現(xiàn).
[Abstract]:This paper designs and implements a Chinese word segmentation module, the main purpose of which is to find a more effective Chinese word processing method. The whole module is based on the most popular search engine architecture Lucene. the forward maximum matching algorithm with ambiguity disambiguation is realized. The differences between this method and the existing methods are compared, and an implementation of how to construct an efficient Chinese retrieval system is proposed.
【作者單位】: 四川大學(xué)計算機(jī)學(xué)院;瀘州醫(yī)學(xué)院生物工程系;
【基金】:四川省重點(diǎn)科技項(xiàng)目(05GG021-003-2)
【分類號】:TP391.12

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 彭波;搜索引擎的混合索引技術(shù)[J];計算機(jī)工程與應(yīng)用;2004年22期

2 費(fèi)洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機(jī)工程與應(yīng)用;2005年07期

3 秦文,苑春法;基于決策樹的漢語未登錄詞識別[J];中文信息學(xué)報;2004年01期

4 郭偉;陳蓉;周偉;熊偉;于中華;;基于延遲決策和斜率的新詞識別方法[J];四川大學(xué)學(xué)報(自然科學(xué)版);2007年03期

5 王莉云;王華;陳剛;姚乃明;;基于Lucene的全文檢索系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)工程與設(shè)計;2007年24期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 白曉梅;張福利;;校園網(wǎng)中文搜索引擎系統(tǒng)的設(shè)計[J];鞍山師范學(xué)院學(xué)報;2006年06期

2 耿新青;陶鳳梅;黃宏光;;一種基于近鄰匹配的中文分詞算法Jlppeccz[J];鞍山師范學(xué)院學(xué)報;2010年04期

3 徐光俠;封雷;涂演;李成;;基于Android和Google Maps的生活輔助系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2012年02期

4 周蕾;;基于碎片分詞的未登錄詞識別方法[J];常熟理工學(xué)院學(xué)報;2007年02期

5 趙春紅;高希龍;王檸;趙威;劉國華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學(xué)學(xué)報;2009年05期

6 湯國鋒;徐振偉;張華熊;;基于Lucene的中文分詞技術(shù)研究[J];電腦編程技巧與維護(hù);2012年10期

7 康松林;施榮華;;基于信息元的教學(xué)資源組織系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J];電腦與信息技術(shù);2006年04期

8 王銳;張穎慧;陳麗;;一種基于配置策略的網(wǎng)絡(luò)資源數(shù)據(jù)搜索方法[J];電信科學(xué);2011年11期

9 葉敏;范金鋒;;基于二叉排序樹及中文分詞的關(guān)鍵字過濾技術(shù)[J];電力信息化;2011年07期

10 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識庫系統(tǒng)結(jié)構(gòu)設(shè)計[J];福建電腦;2012年01期

相關(guān)會議論文 前5條

1 ;THE APPLICATION OF FULLl-TEXT INDEX WITH RULE LIBRATY IN INTEGRATED GEOGRAPHIC INFORMATION COLLECTION DATABASE ENGINE[A];《測繪通報》測繪科學(xué)前沿技術(shù)論壇摘要集[C];2008年

2 何偉;侯敏;;利用詞匯時間分布信息提取未登錄詞[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2007年

3 王芳;萬常選;;基于可信度的中文完整詞自動識別[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

4 王海雄;郭劍毅;余正濤;毛存禮;張朝勝;雷春雅;;基于CRFs的中文領(lǐng)域術(shù)語自動抽取研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

5 王芳;萬常選;;基于互信息的中文完整詞自動識別模型[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年

相關(guān)博士學(xué)位論文 前10條

1 黃水清;非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)方法及在農(nóng)業(yè)經(jīng)濟(jì)學(xué)中的應(yīng)用[D];南京農(nóng)業(yè)大學(xué);2010年

2 李良炎;基于詞聯(lián)接的自然語言處理技術(shù)及其應(yīng)用研究[D];重慶大學(xué);2004年

3 夏天;研究性學(xué)習(xí)支持系統(tǒng)[D];華東師范大學(xué);2007年

4 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年

5 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

6 高紅;基于統(tǒng)計語言模型的漢語淺層分析研究[D];大連理工大學(xué);2007年

7 孫凌云;面向產(chǎn)品概念設(shè)計的專利地圖技術(shù)研究[D];浙江大學(xué);2008年

8 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

9 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年

10 劉林泉;水聲綜合測控系統(tǒng)關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 馮海瑛;《萬歷野獲編》分詞理論與實(shí)踐[D];廣西師范學(xué)院;2010年

2 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年

3 劉國峰;數(shù)據(jù)模板匹配研究及在社保審計中的應(yīng)用[D];哈爾濱工程大學(xué);2010年

4 孔勝;文本資源的知識抽取研究[D];大連理工大學(xué);2010年

5 廖文平;基于CRF的中文地名識別研究[D];大連理工大學(xué);2010年

6 紅霞;基于層疊條件隨機(jī)場的中文機(jī)構(gòu)名識別的研究[D];大連理工大學(xué);2010年

7 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學(xué);2010年

8 林淥;基于新聞主題模型的熱點(diǎn)工作挖掘系統(tǒng)[D];浙江大學(xué);2011年

9 曹亞輝;非結(jié)構(gòu)文本最佳近似匹配系統(tǒng)的研究與實(shí)現(xiàn)[D];東華大學(xué);2011年

10 惠國寶;基于統(tǒng)計和語義分析的分詞及在產(chǎn)品設(shè)計中的應(yīng)用[D];西安電子科技大學(xué);2011年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達(dá)陽;利用漢字二元語法關(guān)系解決漢語自動分詞中的交集型歧義[J];計算機(jī)研究與發(fā)展;1997年05期

2 彭波;搜索引擎的混合索引技術(shù)[J];計算機(jī)工程與應(yīng)用;2004年22期

3 費(fèi)洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機(jī)工程與應(yīng)用;2005年07期

4 丁承,邵志清;基于字表的中文搜索引擎分詞系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)工程;2001年02期

5 秦浩偉,步豐林;一個中文新詞識別特征的研究[J];計算機(jī)工程;2004年S1期

6 秦文,苑春法;基于決策樹的漢語未登錄詞識別[J];中文信息學(xué)報;2004年01期

7 韓維良;漢語自動分詞系統(tǒng)中切分歧義與未登錄詞的處理策略[J];青海師范大學(xué)學(xué)報(自然科學(xué)版);2004年02期

8 周麗琴,楊季文,呂強(qiáng);基于Web的字詞頻統(tǒng)計程序的設(shè)計與應(yīng)用[J];蘇州大學(xué)學(xué)報(自然科學(xué));2002年01期

9 柯和平;基于全文檢索和流媒體技術(shù)的素材庫設(shè)計建設(shè)[J];計算機(jī)工程與設(shè)計;2004年09期

10 陳小荷;自動分詞中未登錄詞問題的一攬子解決方案[J];語言文字應(yīng)用;1999年03期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 謝峰;劉洪星;;基于Lucene的Web站內(nèi)搜索引擎的研究[J];電腦知識與技術(shù);2008年04期

2 劉兆偉;黃永峰;;面向主題搜索引擎的實(shí)現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期

3 胡繼鈞;;基于Lucene全文檢索引擎的研究與實(shí)現(xiàn)[J];科技創(chuàng)新導(dǎo)報;2010年20期

4 向暉;郭一平;王亮;;基于Lucene的中文字典分詞模塊的設(shè)計與實(shí)現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年08期

5 李穎;李志蜀;鄧歡;;基于Lucene的中文分詞方法設(shè)計與實(shí)現(xiàn)[J];四川大學(xué)學(xué)報(自然科學(xué)版);2008年05期

6 匡振國;倪宏;嵇智輝;劉磊;;一種基于Lucene的影片搜索引擎的研究和應(yīng)用[J];計算機(jī)工程與應(yīng)用;2008年29期

7 鄭如濱;撒力;謝婷;;基于Heritrix與Lucene的垂直搜索引擎研究[J];電腦知識與技術(shù);2008年29期

8 溫艷鴻;;基于lucene的文件搜索引擎的設(shè)計與擴(kuò)展[J];福建電腦;2007年08期

9 勵子閏;余青松;陳勝東;;基于全文檢索引擎的信息檢索技術(shù)的應(yīng)用研究[J];計算機(jī)與數(shù)字工程;2008年09期

10 侯云;;構(gòu)建基于Lucene的網(wǎng)站站內(nèi)搜索[J];信息與電腦(理論版);2010年02期

相關(guān)會議論文 前10條

1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2008年

2 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

3 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

4 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實(shí)現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年

5 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

6 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

7 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集[C];2010年

8 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機(jī)學(xué)會2008年年會論文集[C];2008年

9 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年

10 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實(shí)現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年

相關(guān)重要報紙文章 前10條

1 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對比[N];計算機(jī)世界;2005年

2 姜蕊;過半用戶難辨百度雅虎[N];中國商報;2006年

3 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年

4 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟(jì)參考報;2007年

5 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年

6 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國計算機(jī)報;2005年

7 陳珊;浙江移動推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

8 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國經(jīng)營報;2005年

9 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年

10 本報記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報;2006年

相關(guān)博士學(xué)位論文 前10條

1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

7 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年

8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

9 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

10 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 馮斌;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2008年

2 徐財應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長春理工大學(xué);2010年

3 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年

4 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學(xué);2011年

5 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計與實(shí)現(xiàn)[D];浙江工商大學(xué);2011年

6 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年

7 李建林;基于Lucene的Web搜索引擎的研究[D];蘭州理工大學(xué);2010年

8 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

9 王冬坡;基于Lucene的主題搜索引擎的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2010年

10 劉運(yùn)佳;基于Lucene和Heririx構(gòu)建搜索引擎的研究和示例實(shí)現(xiàn)[D];電子科技大學(xué);2008年

,

本文編號:1655772

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1655772.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶001d4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲一区二区三区av高清| 久久精品国产亚洲av麻豆| 人妻巨大乳一二三区麻豆| 在线观看免费午夜福利| 99久久成人精品国产免费| 隔壁的日本人妻中文字幕版| 日韩在线一区中文字幕| 中文字幕一区二区三区大片| 欧美偷拍一区二区三区四区| 亚洲中文字幕人妻av| 国产综合一区二区三区av| 中文字幕佐山爱一区二区免费| 欧美一区二区三区视频区| 亚洲欧洲日韩综合二区| 草草草草在线观看视频| 久久精品中文扫妇内射| 人妻一区二区三区多毛女| 粗暴蹂躏中文一区二区三区| 又黄又色又爽又免费的视频| 成人国产一区二区三区精品麻豆| 国产欧美亚洲精品自拍| 国产精品久久熟女吞精| 日本成人中文字幕一区| 91欧美亚洲视频在线| 亚洲中文字幕一区三区| 国产一级二级三级观看| 欧美成人黄色一级视频| 色综合视频一区二区观看| 欧美91精品国产自产| 欧美国产日韩变态另类在线看| 国产精品丝袜美腿一区二区| 精品人妻一区二区三区四在线 | 国产亚州欧美一区二区| 国产成人精品在线一区二区三区 | 亚洲国产精品久久琪琪| 亚洲欧美日韩精品永久| 日本中文字幕在线精品| 国产对白老熟女正在播放| 91亚洲熟女少妇在线观看| 内用黄老外示儒术出处| 亚洲专区中文字幕视频|