天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建

發(fā)布時(shí)間:2016-05-30 23:00

  本文關(guān)鍵詞:支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建,由筆耕文化傳播整理發(fā)布。


中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率有重大影響。在剖析開源搜索引擎Nutch的源代碼結(jié)構(gòu)的基礎(chǔ)上,基于JavaCC實(shí)現(xiàn)了一個(gè)可擴(kuò)展的詞法分析器并將其與Nutch集成,構(gòu)建了一個(gè)支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎NutchEnhanced。它可用作評(píng)測(cè)各類中文分詞算法對(duì)搜索引擎的影響的實(shí)驗(yàn)平臺(tái)。對(duì)NutchEnhanced的搜索質(zhì)量與Nutch、Google、百度進(jìn)行了對(duì)比評(píng)測(cè)。結(jié)果表明它遠(yuǎn)優(yōu)于Nutc

維普資訊

第 2卷第 2期 7 3 VO . 7 12

計(jì)算機(jī)工程與設(shè)計(jì) Co p trE gn eiga dDe in m u e n ie r n sg n

20年 1月 06 2 De .2 0 c 06

N O. 3 2

支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建 曹羽中,曹勇剛,金茂忠,劉超 (京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京 108)北 003 摘要:中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率有重大影響。剖析開源搜索引擎 N t在 u h的源代碼結(jié)構(gòu)的基礎(chǔ)上, c 基于 JvC a a C實(shí)現(xiàn)了一個(gè)可擴(kuò)展的詞法分析器并將其與 N t uc h集成,構(gòu)建了一個(gè)支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎 N t - uc h E hn e。它可用作評(píng)測(cè)各類中文分詞算法對(duì)搜索引擎的影響的實(shí)驗(yàn)平臺(tái)。對(duì) N th n acd的搜索質(zhì)量與 N th o g、 n acd ucE hne uc、G o l e百度進(jìn)行了對(duì)比評(píng)測(cè)結(jié)果表明它遠(yuǎn)優(yōu)于 N th其查全率達(dá)到了 O 4前 3 uc, ., O個(gè)搜索結(jié)果的查準(zhǔn)率達(dá)到了 O8, 7 .總體上具有與 6 G o l, o g百度接近的中文搜索質(zhì)量 e

關(guān)鍵詞:中文分詞;分詞算法;搜索引擎;詞法分析器;檢索精度

中圖法分類號(hào):P9. T 31 3

文獻(xiàn)標(biāo)識(shí)碼: A

文章編號(hào):00 04 20)3 35 4 10- 2 (06 2- 9- 7 4 0

Co s u t n o e e r h e g n u p rig it l g n i e ewo d s g n ain n t ci f b s a c n i es p o t el e t r o w n n i Chn s r e me tt o CAO— h n, CAO n— a g JN a—h n, L U a Yu z o g Yo g g n, I M o z o g I Ch o

(co l f o p tr c n e n n i e n, e ig nv rt Ae nuisn t n ui, eig10 8, hn) Sh o C m ue i c d gn r g B in i syo r at d r at s B in 0 3 C ia o Se a E ei j U ei f o c a Aso c j 0 Ab ta t Chn s r e me tt nh savtl fe t ntepe iina dterc lo bs ac n iefrChn s . Bya ay ig sr c: ieewods g

nai a i c r cso n al f o ae O h h e we e rhe gn o iee n lzn

n o e o rewe e he gn—Nuc, asaa l xc l ay e lme tdb s do a a a p nsu c bsac n ie r th c lbel ia lz rs mpe ne ae nJv CC. T e r u hitgaigiwi e n a ii h nt o g e rt t h n n t h Nuc, awe e c n ie th bsa he gn—Nuc En a c dwhc u p r tl g n ie e r e me tt nic n tu td a diu e s lt r th h n e ihsp o t i el e t n s ds g nai o sr ce, n sda pa- sn i Ch wo o s s a o m si f c v ro s fr fr et gtee e t f aiu ie ewo ds g nainag rtmsnsac n ie T e x ei na s lso o t n h o Chn s r e me tt lo h e he gn . h p rme tleut h w, fr iee o i i r e r o n s Ch q ey Nuc En a c do tefr tho epe iin W i e al f .4a dp e iino tp3 eut et gO8, i iee u r, th h e up romsNuc nt rcso . n h t rc lo 07 rcso fo 0rs l g tn .6 t Chn s h n s i s s ac u lyi sg o s o l n iui e ea。 e rhq ai a o da t s Go gea dBad g n rl n Ke r s Chn s r e me tt n; wods g nainag rtm; s ac n ie lxc l ay e; p e iin ywo d: ieewo ds g nai o r e me tt lo h o i e he gn; e ia a lz r rcso r n

O引言 搜索引擎通過蜘蛛程序 (蟲)爬自動(dòng)獲取網(wǎng)頁,,網(wǎng)頁內(nèi)把 容切分成詞條 ( kn建立倒排索引,后把用戶輸入的關(guān)鍵 t e) o然 字與索引進(jìn)行匹配,而幫助人們找到他們感興趣的內(nèi)容。從

類似于“綜合表現(xiàn)和平時(shí)成績(jī)”這樣的無關(guān)結(jié)果,

百度搜索在“和服”會(huì)返回類似于“,管理和服務(wù)”這樣的無關(guān)結(jié)果,要提高中文搜索引擎的搜索準(zhǔn)確度,還有許多研究工作可做。 上面提到都是商品化的搜索引擎系統(tǒng),其相關(guān)算法是不公開的,研究人員有了新的想法和改進(jìn)方案,也不可能到這些

由于中文沒有類似英文中的空格這樣的顯式表示詞的邊界標(biāo) 志,對(duì)中文進(jìn)行有效的索引和查詢,先遇到的就是分詞問要首

搜索引擎上去進(jìn)行相關(guān)實(shí)驗(yàn)。為了構(gòu)建一個(gè)進(jìn)行搜索引擎技 術(shù)、文本挖掘技術(shù)相關(guān)研究的實(shí)驗(yàn)平臺(tái),我們?cè)陂_源搜索引擎 Nuc口的基礎(chǔ)上, th基于 JvC aa C為 Nu h開發(fā)了一個(gè)可擴(kuò)展的 t c詞法分析器,用可置換,易擴(kuò)充的方式在詞法分析的過程中集成中文分詞,繁簡(jiǎn)轉(zhuǎn)換等中文處理功能.實(shí)現(xiàn)了一個(gè)支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎N t E h cd實(shí)驗(yàn)表明, uc— uc na e。 h n Nt h

題。具有中文分詞能力的搜索引擎返回的搜索結(jié)果包含很不多無關(guān)內(nèi)容,準(zhǔn)確度往往不盡如人意。2世紀(jì) 8其 O O年代起, 北京航空航天大學(xué)梁南元等就開始從事基于詞典和規(guī)則的中 文分詞技術(shù)的研究…到目前為止,于統(tǒng)計(jì)的分詞技術(shù)由于 基具備識(shí)別未登錄詞 (不在詞典中出現(xiàn)的詞)的能力,逐漸成為主流,它們常常被稱為智能分詞技術(shù)。研究如何把智能分詞技術(shù)的研究成果引入搜索引擎技術(shù)中以提高搜索的準(zhǔn)確度,

E h cd n a e顯著的改進(jìn)了N t的中文搜索準(zhǔn)確度,具有近似 n uc h它 G o l的英文搜索能力, o ge中文搜索質(zhì)量也接近于 Goge ol和百

度的水平。研究人員還可以方便的在 N t Eh cd中集成 u h na e c n 各種不同的中文分詞算法/系統(tǒng),測(cè)中文分詞對(duì)搜索引擎查評(píng) 全率,準(zhǔn)率,引速度等指標(biāo)的影響查索

是具有重要意義的,盡管目前國(guó)內(nèi)市場(chǎng)上的主流搜索引擎均 支持中文分詞技術(shù),由于中文分詞固有的難度,但它們的分詞結(jié)果還遠(yuǎn)不能令人滿意。例如在 Goge索“ o l搜和平”會(huì)返回, 收稿日期:20—1 5 05 1 0。 -

本文首先介紹了 N t uc h以及中文分詞技術(shù)在信息檢索上

基金項(xiàng)目:國(guó)家 83高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目 ( 0A I93) 6 2 4 A 00。 0 1 作者簡(jiǎn)介:曹羽中 (9 8,男,湖南雙峰人,

碩士研究生,研究方向?yàn)檐浖こ、信息檢索、文本挖掘:曹勇剛 (9 7,男,博士研究 1 7一) 17一)生;金茂忠 ( 4一) 1 1,男,教授,博士生導(dǎo)師;劉超 ( 5一) 9 1 8,男,教授。 9 ——

4 9 - 3 5——

支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建


  本文關(guān)鍵詞:支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建,由筆耕文化傳播整理發(fā)布。



本文編號(hào):52157

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/52157.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bb277***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com