中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
本文關(guān)鍵詞:支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建,由筆耕文化傳播整理發(fā)布。
值的信息,從而指導(dǎo)企業(yè)的發(fā)展。“數(shù)據(jù)挖掘”則是以眾多原始數(shù)據(jù)為基礎(chǔ),利用科學(xué)的數(shù)學(xué)模型對(duì)其加以分析,從而獲得結(jié)論!皵(shù)據(jù)挖掘”所需要的原始數(shù)據(jù),要求覆蓋面廣,并具有一定時(shí)間的積累。例如在預(yù)測(cè)分析某項(xiàng)商品的市場(chǎng)銷(xiāo)售時(shí),原始數(shù)據(jù)只能反映銷(xiāo)售狀況,而“數(shù)據(jù)挖掘”卻能給決策者很好的指導(dǎo)作用,可以幫助決策者看清未來(lái)市場(chǎng)的走向,對(duì)于新產(chǎn)品的開(kāi)發(fā)及應(yīng)用方向,同樣能夠起到很好的指導(dǎo)作用。當(dāng)然,信息系統(tǒng)要能夠支持“數(shù)據(jù)挖掘”,就必須努力提高技術(shù)和規(guī)模層次?傊,現(xiàn)今的數(shù)據(jù)資源已經(jīng)不單純是統(tǒng)計(jì)報(bào)表,它對(duì)企業(yè)的經(jīng)營(yíng)甚至發(fā)展戰(zhàn)略的制定都起著至關(guān)重要的作用。
數(shù)據(jù)和信息系統(tǒng)是相輔相成、缺一不可的。數(shù)據(jù)是信息系統(tǒng)的加工對(duì)象,沒(méi)有信息系統(tǒng),數(shù)據(jù)將失去價(jià)值;數(shù)據(jù)是信息系統(tǒng)的靈魂,缺少了數(shù)據(jù),信息系統(tǒng)也就變得毫無(wú)意義。因此,信息系統(tǒng)建設(shè)的價(jià)值通過(guò)數(shù)據(jù)資源表現(xiàn)出來(lái)。
3.3 信息化使得企業(yè)更好地融入國(guó)際環(huán)境
我國(guó)在正式加入WTO后,經(jīng)濟(jì)逐步融入到國(guó)際社會(huì)中去。要想更好地融入國(guó)際環(huán)境中,就必須不斷深化企業(yè)改革,不能固守國(guó)內(nèi)市場(chǎng),大力開(kāi)拓國(guó)際市場(chǎng),同時(shí)保持國(guó)內(nèi)行業(yè)市場(chǎng)的傳統(tǒng)優(yōu)勢(shì)。從管理層來(lái)看,為了保持企業(yè)的良好發(fā)展?jié)摿,保證企業(yè)持續(xù)和諧發(fā)展,就必須擴(kuò)大企業(yè)目標(biāo)的市場(chǎng)范圍,改革經(jīng)營(yíng)方式,提高工作效率。
如今,經(jīng)濟(jì)全球化發(fā)展迅速,企業(yè)要想在國(guó)際競(jìng)爭(zhēng)中立于不敗之地,就必須提高企業(yè)的核心競(jìng)爭(zhēng)力,重點(diǎn)是企業(yè)的軟實(shí)力。信息化就成為提高軟實(shí)力最有力的支持和最(上接第184頁(yè))
3.2 在搜索引擎當(dāng)中,利用理解的分詞方法,需要大量的語(yǔ)言知識(shí)和信息。然而,一直由于中文的語(yǔ)言知識(shí)一直是比較復(fù)雜的,每個(gè)詞都有好幾種意識(shí),基于理解的分詞方法難以將各種的語(yǔ)言組織成一定的詞組,導(dǎo)致中文分詞技術(shù)對(duì)搜索引擎的查準(zhǔn)率有一定的局限作用。
3.3 基于字符串的中文分詞方法在搜索引擎當(dāng)中有著一定的優(yōu)點(diǎn),能夠在一定的程度上促進(jìn)檢索的查全率。但是由于在對(duì)字符進(jìn)行匹配時(shí),由于中文語(yǔ)言的復(fù)雜性,會(huì)在一定程度上限制了用戶所需要信息的準(zhǔn)確性,這時(shí)對(duì)檢索的查準(zhǔn)率產(chǎn)生了一定的阻礙。
3.4 中文分詞技術(shù)中,利用統(tǒng)計(jì)的分詞方法,將詞組在搜索引擎中出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),然后可以出現(xiàn)新的詞組,然后對(duì)分詞進(jìn)行切分,利用它們的語(yǔ)言特征進(jìn)行統(tǒng)計(jì),從而,能夠提高搜索引擎中檢索的查準(zhǔn)率。
3.5 中文分詞的各種技術(shù)都會(huì)對(duì)搜索引擎產(chǎn)生或大或小或優(yōu)或劣的影響。這就需要科研人員以及相關(guān)的技術(shù)人員對(duì)中文分詞進(jìn)行一定的分析,將那些不好的影響運(yùn)用相關(guān)的技術(shù)加以改善,讓中文分詞技術(shù)在搜索引擎中發(fā)揮出最大的良好的影響。雖然,依照我國(guó)目前的現(xiàn)狀看來(lái),中文分詞技術(shù)沒(méi)有很好的研究隊(duì)伍,讓這項(xiàng)技術(shù)服務(wù)于更多的產(chǎn)品還有很長(zhǎng)的路走,但是,現(xiàn)代的分詞技術(shù)對(duì)搜索引擎中的查準(zhǔn)率還有查全率都有著一定的促進(jìn)作用。
259│Computer CD Software and Applications
有效的手段。
4 結(jié)語(yǔ)
信息化建設(shè)舉足輕重,我們必須將其擺在企業(yè)發(fā)展戰(zhàn)略的高度上,利用信息化建設(shè),推動(dòng)企業(yè)的未來(lái)發(fā)展,為企業(yè)帶來(lái)更多的經(jīng)濟(jì)效益。此外,信息化建設(shè)是一項(xiàng)長(zhǎng)遠(yuǎn)投資項(xiàng)目,靠IT技術(shù)人員獨(dú)立操作是無(wú)法實(shí)現(xiàn)的。不僅需要得到領(lǐng)導(dǎo)者充分的重視,而且需要企業(yè)所有員工上下一心,切勿急功近利,需要整體規(guī)劃、分步實(shí)施,依靠全體員工的共同努力才能夠最終成功實(shí)施。
總而言之,信息化不是企業(yè)產(chǎn)品,不能直接轉(zhuǎn)化為企業(yè)效益,但在企業(yè)經(jīng)營(yíng)的過(guò)程中,信息化所發(fā)揮的作用舉足輕重。就現(xiàn)代企業(yè)而言,無(wú)論是傳統(tǒng)產(chǎn)業(yè)還是新興的高技術(shù)產(chǎn)業(yè),,無(wú)論是面對(duì)國(guó)內(nèi)市場(chǎng)還是要做大做強(qiáng)走出去的國(guó)際型企業(yè),信息化都將對(duì)企業(yè)的管理和結(jié)構(gòu)產(chǎn)生重大的變革。只要我們進(jìn)行正確的分析規(guī)范的管理,在信息化建設(shè)的道路上應(yīng)該會(huì)收獲成功。
參考文獻(xiàn):
[1]龔炳錚.加速發(fā)展企業(yè)信息化的思考[J].電子與信息化增刊,1999.
[2]趙穎,姜宏.中小企業(yè)管理信息系統(tǒng)建設(shè)模式分析[J].信息系統(tǒng)工程,2003(04):26-28.
[3]楊梅枝,蒲清泉.信息化是加快實(shí)現(xiàn)工業(yè)化和現(xiàn)代化的必然趨勢(shì)[J].當(dāng)代思潮,2003(1).
[作者簡(jiǎn)介]丁寧(1980-),女,工程師。
4 總結(jié)
在網(wǎng)絡(luò)信息化高速發(fā)展的時(shí)代,給人們的生活方式、生產(chǎn)方式帶來(lái)了極大的方便。尤其是中文分詞技術(shù)在搜索引擎中的應(yīng)用,不僅提高了人們的生活水平,也推動(dòng)了信息化的發(fā)展。在搜索引擎當(dāng)中,查準(zhǔn)率與查全率只能存其一,不能夠同時(shí)存在。在利用中文分析技術(shù)后,對(duì)搜索引擎的查全率與查準(zhǔn)率有著一定的推動(dòng)作用,這就需要研究人員要全面的發(fā)展中文分詞技術(shù),改善搜索引擎中出現(xiàn)的問(wèn)題,保證查全率與查準(zhǔn)率能夠同時(shí)出現(xiàn),全面發(fā)展。
參考文獻(xiàn):
[1]曹羽中,曹勇剛,金茂忠,劉超.支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(23):36-39.
[2]何莘,王琬蕪.自然語(yǔ)言檢索中的中文分詞技術(shù)研究進(jìn)展及應(yīng)用[J].情報(bào)科學(xué),2008,26(05):03-05.
[3]鄭京華.提高搜索引擎檢索準(zhǔn)確率的策略[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2007,21(17):67-69.
[作者簡(jiǎn)介]馮佳捷(1990.8-),男,河北石家莊人,研究方向:計(jì)算機(jī)算法應(yīng)用,工程實(shí)踐;單位:華中師范大學(xué)軟件工程2010級(jí);王瑞(1991.1-),男,重慶人,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)安全,華中師范大學(xué)軟件工程2010級(jí)。
本文關(guān)鍵詞:支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建,由筆耕文化傳播整理發(fā)布。
本文編號(hào):55105
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/55105.html