搜索引擎及網(wǎng)絡(luò)數(shù)據(jù)挖掘相關(guān)技術(shù)研究
發(fā)布時(shí)間:2014-09-16 16:12
【摘要】 數(shù)據(jù)挖掘相關(guān)技術(shù)的廣泛應(yīng)用,增加了網(wǎng)絡(luò)搜索的廣度和深度。本文首先對(duì)數(shù)據(jù)挖掘技術(shù)知識(shí)進(jìn)行了概念性的總結(jié),然后在對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域與發(fā)展做了詳細(xì)分析,從而對(duì)數(shù)據(jù)挖掘的功能、作用有了詳細(xì)的了解,最后則總結(jié)了數(shù)據(jù)挖掘技術(shù)在搜索引擎中的應(yīng)用。
【關(guān)鍵詞】 搜索引擎,網(wǎng)絡(luò)數(shù)據(jù)挖掘,相關(guān)技術(shù)研究
在社會(huì)的發(fā)展之下,網(wǎng)絡(luò)已經(jīng)成為人們生活與生產(chǎn)中必不可少的工具,但是網(wǎng)絡(luò)中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網(wǎng)絡(luò)信息檢索在檢準(zhǔn)率與檢全率方面依然難以滿足人們的需求,而將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中即可很好的解決這一問題。
1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)就是從大量模糊、隨機(jī)、不完全、有噪聲信息中提出有用信息的一個(gè)過程,與數(shù)據(jù)挖掘技術(shù)相關(guān)的技術(shù)還有數(shù)據(jù)分析技術(shù)、數(shù)據(jù)融合技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)等等,在技術(shù)水平的發(fā)展下,統(tǒng)計(jì)學(xué)方法、決策樹、關(guān)聯(lián)分析等一些新型數(shù)據(jù)挖掘技術(shù)也相繼出現(xiàn)。與數(shù)據(jù)挖掘不同,信息檢索實(shí)質(zhì)上是一種信息發(fā)現(xiàn)任務(wù),也是知識(shí)發(fā)展過程中的重要環(huán)節(jié),信息檢索能夠幫助人們了解各項(xiàng)靜態(tài)信息,但是難以分析到數(shù)據(jù)間的關(guān)系及其未來發(fā)展趨勢(shì)。而應(yīng)用數(shù)據(jù)挖掘技術(shù)則可以有效提升系統(tǒng)檢索能力,預(yù)測(cè)出未來的走勢(shì),因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中也是大勢(shì)所趨。
2 搜索引擎與網(wǎng)絡(luò)數(shù)據(jù)挖掘
網(wǎng)絡(luò)數(shù)據(jù)挖掘是一種將數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)融合的一種新模式,網(wǎng)絡(luò)數(shù)據(jù)挖掘也能夠稱之為Web挖掘,網(wǎng)絡(luò)數(shù)據(jù)的頁(yè)面復(fù)雜本文由筆耕文化傳播http://www.bigengculture.com/收集整理、數(shù)據(jù)內(nèi)容繁雜,文章也具有不規(guī)則性,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在數(shù)據(jù)挖掘中可以有效的解決上述問題,根據(jù)處理對(duì)象,網(wǎng)絡(luò)數(shù)據(jù)挖掘任務(wù)有三種類型,即網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)使用挖掘與網(wǎng)絡(luò)結(jié)構(gòu)挖掘。
2.1 網(wǎng)絡(luò)內(nèi)容的挖掘
網(wǎng)絡(luò)內(nèi)容挖掘就是從網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)內(nèi)容與網(wǎng)絡(luò)文檔中挖掘信息,很多網(wǎng)絡(luò)信息是能夠在網(wǎng)絡(luò)中過去的,但是依然有很大一部分?jǐn)?shù)據(jù)難以采用該種方法獲取,如使用PHP、JSP與ASP的動(dòng)態(tài)網(wǎng)頁(yè),拒絕訪問的網(wǎng)站,商業(yè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。這些內(nèi)容都能夠使用網(wǎng)絡(luò)內(nèi)容挖掘法來獲取,這可以使用兩個(gè)方法:網(wǎng)絡(luò)頁(yè)面內(nèi)容挖掘法與搜索結(jié)果再挖掘法。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)挖掘法
網(wǎng)絡(luò)結(jié)構(gòu)挖掘法強(qiáng)調(diào)挖掘網(wǎng)頁(yè)中的鏈接結(jié)構(gòu),并從中推導(dǎo)相關(guān)的知識(shí),這種挖掘法與引文分析有著密切的關(guān)系,網(wǎng)絡(luò)中的鏈接信息能夠?yàn)閿?shù)據(jù)挖掘提供全面的支持,為了獲取到理想的效果,可以來分析網(wǎng)頁(yè)鏈接與鏈接數(shù)量,并建立起鏈接結(jié)構(gòu)模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。
2.3 網(wǎng)絡(luò)使用挖掘法
網(wǎng)絡(luò)使用挖掘法就是通過日志發(fā)現(xiàn)來訪問頁(yè)面的一種模式,與網(wǎng)絡(luò)內(nèi)容挖掘模式和網(wǎng)絡(luò)結(jié)構(gòu)挖掘模式不同,網(wǎng)絡(luò)使用挖掘法的挖掘?qū)ο蠓鞘蔷W(wǎng)絡(luò)與用戶交互中的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)大多來自Cookies或者Web服務(wù)器中的信息、系統(tǒng)交互信息與訪問記錄。
3 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用作用
目前,人們已經(jīng)進(jìn)入了一個(gè)信息爆炸時(shí)代,雖然眾多搜索引擎網(wǎng)絡(luò)可以滿足人們對(duì)于信息檢索的基本需求,但是還是有很多地方不到位,目前,網(wǎng)絡(luò)挖掘技術(shù)已經(jīng)開始在網(wǎng)絡(luò)領(lǐng)域中得到了應(yīng)用,也取得了一定的成效。實(shí)踐顯示,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在網(wǎng)絡(luò)信息檢索中能夠取得如下的效用:
3.1 提升標(biāo)引準(zhǔn)確性
標(biāo)引能夠準(zhǔn)確選擇出文獻(xiàn)的檢索標(biāo)示,網(wǎng)絡(luò)信息范圍廣、復(fù)雜性高、數(shù)量多,使用人工標(biāo)引很難取得理想的檢索效果,因此,必須要使用自動(dòng)標(biāo)引。將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中能夠深刻的揭示出相關(guān)信息的聯(lián)系,幫助用戶在文檔中進(jìn)行標(biāo)注,提升信息攝取的準(zhǔn)確性。而以此為基礎(chǔ)來應(yīng)用加權(quán)算法則能夠得出具體的信息關(guān)聯(lián),對(duì)于提升檢索效果有著十分積極的效用。
3.2 可以對(duì)檢索結(jié)果進(jìn)行分類
在網(wǎng)絡(luò)世界中,各個(gè)網(wǎng)站之間的轉(zhuǎn)載情況嚴(yán)重,用戶在使用搜索引擎時(shí)必然會(huì)檢索出大量的重復(fù)信息,這不僅會(huì)降低檢索效率,也會(huì)浪費(fèi)資源。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在檢索工作中就能夠挖掘出網(wǎng)頁(yè)中的語義內(nèi)容,有效提升檢索效率。此外,數(shù)據(jù)挖掘技術(shù)也可以有效提升檢索質(zhì)量,該種方法是建立在層次法與劃分法基礎(chǔ)上,如果檢索文檔相似性大,即可進(jìn)行聚類處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據(jù)自己的需要自行選擇,這就有效減少了瀏覽數(shù)量。
3.3 能夠提升自動(dòng)摘要質(zhì)量
自動(dòng)摘要即利用網(wǎng)絡(luò)來分析文章結(jié)構(gòu)、主題語句的方式,自動(dòng)摘要可以有效幫助用戶來加工與整合信息,與自動(dòng)摘要相比,人工編制摘要會(huì)浪費(fèi)大量的時(shí)間,將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中能夠提升自動(dòng)摘要的質(zhì)量,該種技術(shù)是通過文檔內(nèi)容來總結(jié)文本信息,能夠?qū)eb中的重要內(nèi)容總結(jié)起來,并提取出摘要。這對(duì)于優(yōu)化網(wǎng)絡(luò)信息資源的處理質(zhì)量有著十分積極的意義。
4 結(jié)語
總而言之,將數(shù)據(jù)網(wǎng)絡(luò)挖掘技術(shù)應(yīng)用在搜索引擎中已經(jīng)成為了一個(gè)大勢(shì)所趨,采用該種技術(shù)可以有效提升標(biāo)引、自動(dòng)分類、自動(dòng)摘要以及自動(dòng)聚類的準(zhǔn)確性,可以根據(jù)用戶的具體需求來建立模型,從而為用戶提供出更加針對(duì)性的信息支持。其中,最為常用的技術(shù)就是自由分類法,自由分類法能夠?qū)㈦y以用傳統(tǒng)方式細(xì)化的信息歸入熟悉類目中,并在排序檢索與信息組織上很好的彌補(bǔ)與了傳統(tǒng)搜索方法的缺陷,但是,該種方法也存在一些局限性,多應(yīng)用在小范圍網(wǎng)絡(luò)中,相信在不久的將來,網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)定可以在搜索引擎中得到更加廣泛的使用。
參考文獻(xiàn):
本文編號(hào):9012
【關(guān)鍵詞】 搜索引擎,網(wǎng)絡(luò)數(shù)據(jù)挖掘,相關(guān)技術(shù)研究
在社會(huì)的發(fā)展之下,網(wǎng)絡(luò)已經(jīng)成為人們生活與生產(chǎn)中必不可少的工具,但是網(wǎng)絡(luò)中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網(wǎng)絡(luò)信息檢索在檢準(zhǔn)率與檢全率方面依然難以滿足人們的需求,而將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中即可很好的解決這一問題。
1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)就是從大量模糊、隨機(jī)、不完全、有噪聲信息中提出有用信息的一個(gè)過程,與數(shù)據(jù)挖掘技術(shù)相關(guān)的技術(shù)還有數(shù)據(jù)分析技術(shù)、數(shù)據(jù)融合技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)等等,在技術(shù)水平的發(fā)展下,統(tǒng)計(jì)學(xué)方法、決策樹、關(guān)聯(lián)分析等一些新型數(shù)據(jù)挖掘技術(shù)也相繼出現(xiàn)。與數(shù)據(jù)挖掘不同,信息檢索實(shí)質(zhì)上是一種信息發(fā)現(xiàn)任務(wù),也是知識(shí)發(fā)展過程中的重要環(huán)節(jié),信息檢索能夠幫助人們了解各項(xiàng)靜態(tài)信息,但是難以分析到數(shù)據(jù)間的關(guān)系及其未來發(fā)展趨勢(shì)。而應(yīng)用數(shù)據(jù)挖掘技術(shù)則可以有效提升系統(tǒng)檢索能力,預(yù)測(cè)出未來的走勢(shì),因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中也是大勢(shì)所趨。
2 搜索引擎與網(wǎng)絡(luò)數(shù)據(jù)挖掘
網(wǎng)絡(luò)數(shù)據(jù)挖掘是一種將數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)融合的一種新模式,網(wǎng)絡(luò)數(shù)據(jù)挖掘也能夠稱之為Web挖掘,網(wǎng)絡(luò)數(shù)據(jù)的頁(yè)面復(fù)雜本文由筆耕文化傳播http://www.bigengculture.com/收集整理、數(shù)據(jù)內(nèi)容繁雜,文章也具有不規(guī)則性,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在數(shù)據(jù)挖掘中可以有效的解決上述問題,根據(jù)處理對(duì)象,網(wǎng)絡(luò)數(shù)據(jù)挖掘任務(wù)有三種類型,即網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)使用挖掘與網(wǎng)絡(luò)結(jié)構(gòu)挖掘。
2.1 網(wǎng)絡(luò)內(nèi)容的挖掘
網(wǎng)絡(luò)內(nèi)容挖掘就是從網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)內(nèi)容與網(wǎng)絡(luò)文檔中挖掘信息,很多網(wǎng)絡(luò)信息是能夠在網(wǎng)絡(luò)中過去的,但是依然有很大一部分?jǐn)?shù)據(jù)難以采用該種方法獲取,如使用PHP、JSP與ASP的動(dòng)態(tài)網(wǎng)頁(yè),拒絕訪問的網(wǎng)站,商業(yè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。這些內(nèi)容都能夠使用網(wǎng)絡(luò)內(nèi)容挖掘法來獲取,這可以使用兩個(gè)方法:網(wǎng)絡(luò)頁(yè)面內(nèi)容挖掘法與搜索結(jié)果再挖掘法。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)挖掘法
網(wǎng)絡(luò)結(jié)構(gòu)挖掘法強(qiáng)調(diào)挖掘網(wǎng)頁(yè)中的鏈接結(jié)構(gòu),并從中推導(dǎo)相關(guān)的知識(shí),這種挖掘法與引文分析有著密切的關(guān)系,網(wǎng)絡(luò)中的鏈接信息能夠?yàn)閿?shù)據(jù)挖掘提供全面的支持,為了獲取到理想的效果,可以來分析網(wǎng)頁(yè)鏈接與鏈接數(shù)量,并建立起鏈接結(jié)構(gòu)模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。
2.3 網(wǎng)絡(luò)使用挖掘法
網(wǎng)絡(luò)使用挖掘法就是通過日志發(fā)現(xiàn)來訪問頁(yè)面的一種模式,與網(wǎng)絡(luò)內(nèi)容挖掘模式和網(wǎng)絡(luò)結(jié)構(gòu)挖掘模式不同,網(wǎng)絡(luò)使用挖掘法的挖掘?qū)ο蠓鞘蔷W(wǎng)絡(luò)與用戶交互中的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)大多來自Cookies或者Web服務(wù)器中的信息、系統(tǒng)交互信息與訪問記錄。
3 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用作用
目前,人們已經(jīng)進(jìn)入了一個(gè)信息爆炸時(shí)代,雖然眾多搜索引擎網(wǎng)絡(luò)可以滿足人們對(duì)于信息檢索的基本需求,但是還是有很多地方不到位,目前,網(wǎng)絡(luò)挖掘技術(shù)已經(jīng)開始在網(wǎng)絡(luò)領(lǐng)域中得到了應(yīng)用,也取得了一定的成效。實(shí)踐顯示,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在網(wǎng)絡(luò)信息檢索中能夠取得如下的效用:
3.1 提升標(biāo)引準(zhǔn)確性
標(biāo)引能夠準(zhǔn)確選擇出文獻(xiàn)的檢索標(biāo)示,網(wǎng)絡(luò)信息范圍廣、復(fù)雜性高、數(shù)量多,使用人工標(biāo)引很難取得理想的檢索效果,因此,必須要使用自動(dòng)標(biāo)引。將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中能夠深刻的揭示出相關(guān)信息的聯(lián)系,幫助用戶在文檔中進(jìn)行標(biāo)注,提升信息攝取的準(zhǔn)確性。而以此為基礎(chǔ)來應(yīng)用加權(quán)算法則能夠得出具體的信息關(guān)聯(lián),對(duì)于提升檢索效果有著十分積極的效用。
3.2 可以對(duì)檢索結(jié)果進(jìn)行分類
在網(wǎng)絡(luò)世界中,各個(gè)網(wǎng)站之間的轉(zhuǎn)載情況嚴(yán)重,用戶在使用搜索引擎時(shí)必然會(huì)檢索出大量的重復(fù)信息,這不僅會(huì)降低檢索效率,也會(huì)浪費(fèi)資源。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在檢索工作中就能夠挖掘出網(wǎng)頁(yè)中的語義內(nèi)容,有效提升檢索效率。此外,數(shù)據(jù)挖掘技術(shù)也可以有效提升檢索質(zhì)量,該種方法是建立在層次法與劃分法基礎(chǔ)上,如果檢索文檔相似性大,即可進(jìn)行聚類處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據(jù)自己的需要自行選擇,這就有效減少了瀏覽數(shù)量。
3.3 能夠提升自動(dòng)摘要質(zhì)量
自動(dòng)摘要即利用網(wǎng)絡(luò)來分析文章結(jié)構(gòu)、主題語句的方式,自動(dòng)摘要可以有效幫助用戶來加工與整合信息,與自動(dòng)摘要相比,人工編制摘要會(huì)浪費(fèi)大量的時(shí)間,將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中能夠提升自動(dòng)摘要的質(zhì)量,該種技術(shù)是通過文檔內(nèi)容來總結(jié)文本信息,能夠?qū)eb中的重要內(nèi)容總結(jié)起來,并提取出摘要。這對(duì)于優(yōu)化網(wǎng)絡(luò)信息資源的處理質(zhì)量有著十分積極的意義。
4 結(jié)語
總而言之,將數(shù)據(jù)網(wǎng)絡(luò)挖掘技術(shù)應(yīng)用在搜索引擎中已經(jīng)成為了一個(gè)大勢(shì)所趨,采用該種技術(shù)可以有效提升標(biāo)引、自動(dòng)分類、自動(dòng)摘要以及自動(dòng)聚類的準(zhǔn)確性,可以根據(jù)用戶的具體需求來建立模型,從而為用戶提供出更加針對(duì)性的信息支持。其中,最為常用的技術(shù)就是自由分類法,自由分類法能夠?qū)㈦y以用傳統(tǒng)方式細(xì)化的信息歸入熟悉類目中,并在排序檢索與信息組織上很好的彌補(bǔ)與了傳統(tǒng)搜索方法的缺陷,但是,該種方法也存在一些局限性,多應(yīng)用在小范圍網(wǎng)絡(luò)中,相信在不久的將來,網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)定可以在搜索引擎中得到更加廣泛的使用。
參考文獻(xiàn):
- [1] 邱均平,余以勝. 基于知識(shí)庫(kù)系統(tǒng)的智能搜索引擎研究[J]. 情報(bào)科學(xué). 2006(03)
- [2] 凌志泉. 搜索引擎中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)[J]. 計(jì)算機(jī)工程與設(shè)計(jì). 2003(09)
本文編號(hào):9012
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/9012.html
最近更新
教材專著