Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用
本文關(guān)鍵詞:Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用:1概述
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)及互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)(ElectronicCommerce, EC)在企業(yè)經(jīng)營(yíng)業(yè)務(wù)中的應(yīng)用越來(lái)越普遍。它是傳統(tǒng)企業(yè)的經(jīng)營(yíng)業(yè)務(wù)在互聯(lián)網(wǎng)環(huán)境下電子化的結(jié)果,這些經(jīng)營(yíng)業(yè)務(wù)包括產(chǎn)品或服務(wù)的交易以及為實(shí)現(xiàn)交易而發(fā)生的各種相應(yīng)業(yè)務(wù)活動(dòng)。隨著電子商務(wù)在企業(yè)應(yīng)用不斷深入、對(duì)外聯(lián)系增多,企業(yè)對(duì)潛在客戶(hù)、供應(yīng)商和產(chǎn)品等方面的貨源信息要求越來(lái)越高。電子商務(wù)環(huán)境中的企業(yè)必須超越以往相對(duì)狹隘的經(jīng)營(yíng)環(huán)境,有效地收集、利用貨源信息。
Web挖掘是提高電子商務(wù)企業(yè)效率的有效工具,,它從Web內(nèi)容、結(jié)構(gòu)、使用等方面提煉對(duì)電子商務(wù)運(yùn)作有價(jià)值的信息。利用Web挖掘技術(shù)在信息方面支持高效電子商務(wù)的研究包括:將數(shù)據(jù)挖掘(data mining)技術(shù)應(yīng)用擴(kuò)展到Web挖掘的應(yīng)用中;采用信息檢索技術(shù)對(duì)Web信息進(jìn)行分類(lèi)、篩選;支持電子商務(wù)運(yùn)作的信息收集等。
本文研究電子商務(wù)環(huán)境中企業(yè)如何有效利用互聯(lián)網(wǎng)收集、挖掘業(yè)務(wù)信息的問(wèn)題,分析了Web挖掘在電子商務(wù)中的作用,利用Agent和Web挖掘技術(shù)設(shè)計(jì)了以元搜索引擎為核心的貨源搜索機(jī)器人。元搜索引擎利用通用搜索引擎擴(kuò)大信息搜索范圍,搜索有關(guān)貨源信息,采用Web挖掘方法對(duì)貨源信息進(jìn)行過(guò)濾分析,從中篩選對(duì)企業(yè)有潛在價(jià)值的客戶(hù)、供應(yīng)商和產(chǎn)品信息,為企業(yè)電子商務(wù)中的業(yè)務(wù)處理和決策提供依據(jù)。
Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用:2貨源搜索
電子商務(wù)在給企業(yè)帶來(lái)巨大發(fā)展機(jī)遇的同時(shí),也使企業(yè)面臨超出傳統(tǒng)經(jīng)營(yíng)模式的挑戰(zhàn)。如圖1(a)所示,在傳統(tǒng)經(jīng)營(yíng)環(huán)境下,企業(yè)的市場(chǎng)范圍物理上受到地區(qū)或國(guó)家的限制,與客戶(hù)、供應(yīng)商的業(yè)務(wù)范圍主要集中在采購(gòu)、銷(xiāo)售等外部業(yè)務(wù)環(huán)節(jié),企業(yè)競(jìng)爭(zhēng)壓力小。如圖1(b)所示,在電子商務(wù)環(huán)境下,市場(chǎng)和業(yè)務(wù)范圍延伸擴(kuò)展,企業(yè)之間合作加強(qiáng),并向企業(yè)內(nèi)部滲透,企業(yè)與伙伴之間合作緊密,競(jìng)爭(zhēng)對(duì)手增多,競(jìng)爭(zhēng)壓力變大。為了適應(yīng)電子商務(wù)這種大范圍、高強(qiáng)度的競(jìng)爭(zhēng)環(huán)境,企業(yè)必須充分利用電子商務(wù)的有利條件,大力挖掘潛在客戶(hù)、供應(yīng)商、產(chǎn)品和競(jìng)爭(zhēng)對(duì)手的相關(guān)信息。本文將這些信息統(tǒng)稱(chēng)為貨源信息。
采用Agent與Web挖掘技術(shù)自動(dòng)進(jìn)行貨源信息搜索、分檢的計(jì)算機(jī)軟件稱(chēng)為貨源搜索機(jī)器人(Business Search Robot)。貨源搜索機(jī)器人的主要功能包括:
(1)根據(jù)用戶(hù)需要,設(shè)置搜索線索條件信息;
(2)在互聯(lián)網(wǎng)上收集滿足搜索條件的頁(yè)面信息;
(3)分檢所得頁(yè)面信息,按特指領(lǐng)域知識(shí)進(jìn)行頁(yè)面過(guò)濾、分類(lèi)、索引;
(4)存儲(chǔ)搜索結(jié)果于數(shù)據(jù)庫(kù)中;
(5)以用戶(hù)所需形式提供相關(guān)貨源信息。
實(shí)現(xiàn)這些功能的關(guān)鍵在于(2)和(3)的實(shí)現(xiàn)。本文從搜索引擎和貨源信息分檢方面介紹貨源搜索機(jī)器人的設(shè)計(jì)與實(shí)現(xiàn)。
Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用:3貨源搜索引擎
搜索引擎(Search Engine,SE)是以互聯(lián)網(wǎng)上Web站點(diǎn)提供的頁(yè)面為信息源,為方便信息使用者檢索所需信息而設(shè)計(jì)開(kāi)發(fā)的計(jì)算機(jī)軟件。目前商業(yè)化的通用搜索引擎有很多,如:百度,搜狐,Yahoo!, Google, Excite,A1ta Vista等。盡管通用搜索引擎正不斷提高計(jì)算和網(wǎng)絡(luò)訪問(wèn)能力,但仍存在以下幾點(diǎn)不足:
(1)每個(gè)通用搜索引擎相對(duì)于整個(gè)互聯(lián)網(wǎng)的覆蓋范圍是有限的;
(2)在搜索結(jié)果中有相當(dāng)一部分是和搜索內(nèi)容無(wú)關(guān)的;
(3)搜索結(jié)果的鏈接有些是無(wú)效鏈接。
為避免以上問(wèn)題,本文提出的貨源搜索機(jī)器人采用元搜索模式設(shè)計(jì)搜索引擎。元搜索引擎利用多個(gè)通用搜索引擎來(lái)實(shí)現(xiàn)完成自身的搜索,搜索范圍要大于單個(gè)通用搜索引擎。通過(guò)篩選、過(guò)濾搜索結(jié)果,得到與搜索目標(biāo)內(nèi)容盡可能接近的結(jié)果。該元搜索引擎的設(shè)計(jì)結(jié)構(gòu)如圖2所示。
貨源搜索機(jī)器人分為6個(gè)功能模塊:
(1)搜索引擎代理模塊按預(yù)定的搜索線索制定通用搜索引擎使用的搜索條件,并提交給通用搜索引擎,通用搜索引擎再把搜索結(jié)果返回給搜索引擎代理。
(2)檢索分析模塊對(duì)從通用搜索引擎得到的搜索結(jié)果進(jìn)行解析,檢驗(yàn)網(wǎng)絡(luò)鏈接的有效性。
(3)貨源信息分析模塊對(duì)檢索分析結(jié)果進(jìn)行整理、歸納和分類(lèi),得到與領(lǐng)域相關(guān)的貨源信息數(shù)據(jù)。
(4)信息存儲(chǔ)模塊負(fù)責(zé)把分檢得到的貨源信息存儲(chǔ)在數(shù)據(jù)庫(kù)中。
(5)查詢(xún)處理模塊根據(jù)服務(wù)請(qǐng)求在貨源信息數(shù)據(jù)庫(kù)中檢索,并把檢索結(jié)果反饋給用戶(hù)。
(6)用戶(hù)接口模塊負(fù)責(zé)接收用戶(hù)的檢索服務(wù)請(qǐng)求,設(shè)置系統(tǒng)的參數(shù)。
Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用:4貨源信息分檢
在運(yùn)用元搜索引擎收集到貨源相關(guān)信息(raw informarion)后,下一步是對(duì)這些信息進(jìn)行貨源信息分檢。貨源信息分檢分為2個(gè)方面來(lái)實(shí)現(xiàn):系統(tǒng)分檢和用戶(hù)分檢,如圖3所示。系統(tǒng)分檢的處理對(duì)象是從搜索引擎獲得的搜索結(jié)果,輸出是特指領(lǐng)域相關(guān)的貨源信息。用戶(hù)分檢的處理對(duì)象是系統(tǒng)分檢的結(jié)果,輸出是用戶(hù)需求相關(guān)的貨源信息。
4.1系統(tǒng)分檢
系統(tǒng)分檢對(duì)收集的貨源信息進(jìn)行分析整理。由搜索引擎獲得的搜索結(jié)果雖然經(jīng)過(guò)搜索詞的過(guò)濾,但為了盡可能擴(kuò)大搜索范圍,搜索結(jié)果頁(yè)面往往很多,其中有很多是與特指領(lǐng)域不相關(guān)的。系統(tǒng)分檢相當(dāng)于對(duì)搜索結(jié)果的預(yù)處理,篩選出利用價(jià)值更高的貨源信息。系統(tǒng)分檢的實(shí)現(xiàn)步驟如下:
(1)校驗(yàn)搜索結(jié)果頁(yè)面的有效性;
(2)從搜索結(jié)果摘要中抽取描述詞匯;
(3)分析描述詞匯與領(lǐng)域知識(shí)敘詞的相關(guān)性;
(4)根據(jù)敘詞相關(guān)性分檢搜索結(jié)果;
(5)排除相關(guān)度低于預(yù)設(shè)17值占.的搜索結(jié)果;
(6)解析搜索結(jié)果頁(yè)面;
(7)將系統(tǒng)分檢結(jié)果存入貨源信息數(shù)據(jù)庫(kù)待查。
其中,確定搜索結(jié)果與特指領(lǐng)域知識(shí)敘詞的相關(guān)性可以根據(jù)需要采用不同判斷模型。本文以向量模型為例加以說(shuō)明。假設(shè)搜索引擎搜索到S個(gè)頁(yè)面,搜索特指領(lǐng)域知識(shí)有N個(gè)敘詞。系統(tǒng)分檢中還可以采用其他方法或模型對(duì)搜索結(jié)果領(lǐng)域相關(guān)性進(jìn)行確定,例如基于概率、模糊集合、隱含語(yǔ)義等的判斷模型。在特指領(lǐng)域知識(shí)表示上,可以采用多層面、多角度的方法選擇敘詞,設(shè)置相應(yīng)權(quán)重。具體實(shí)現(xiàn)可借鑒信息檢索中全局或局部聚類(lèi)方法。
4.2用戶(hù)分檢
用戶(hù)分檢是按用戶(hù)需求進(jìn)行的。如果把系統(tǒng)分檢看作一次分檢,那么用戶(hù)分檢就相當(dāng)于對(duì)貨源信息的二次分檢。用戶(hù)需求表示為DNF(Disjuncrive Normal Form)范式的形式,用戶(hù)分檢的實(shí)現(xiàn)步驟如下:
(1)用戶(hù)輸入需求,設(shè)置貨源查詢(xún)?cè)~;
(2)在貨源數(shù)據(jù)庫(kù)中檢索滿足用戶(hù)需求的信息;
(3)分析檢索結(jié)果與用戶(hù)需求的相關(guān)性;
(4)保留相關(guān)度高于預(yù)設(shè)17值民的檢索結(jié)果;
(5)以用戶(hù)所需形式輸出檢索結(jié)果。
綜上所述,在貨源信息分檢過(guò)程中,利用系統(tǒng)分檢對(duì)所關(guān)注的領(lǐng)域相關(guān)信息進(jìn)行大范圍搜索和初步篩選過(guò)濾,再在用戶(hù)的參與下利用用戶(hù)分檢對(duì)貨源信息進(jìn)行小范圍的搜索,就可以找到用戶(hù)需求滿意度較高的貨源信息。
Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用:5實(shí)驗(yàn)結(jié)果及分析
本節(jié)通過(guò)實(shí)例計(jì)算說(shuō)明了貨源搜索機(jī)器人的搜索效果。通過(guò)2次對(duì)貨源信息的分檢,使搜索結(jié)果的查準(zhǔn)率和查全率均得到一定的提高。實(shí)例采用網(wǎng)絡(luò)新聞組文獻(xiàn)(選自USE-NETnewsgroups)作為實(shí)驗(yàn)數(shù)據(jù),其中,包括汽車(chē)類(lèi)、摩托車(chē)類(lèi)等其他類(lèi)文獻(xiàn)共2,000篇。
5.1系統(tǒng)分檢結(jié)果
搜索目標(biāo)領(lǐng)域是與汽車(chē)類(lèi)相關(guān)的貨源信息,汽車(chē)類(lèi)文獻(xiàn)共600篇。系統(tǒng)分檢結(jié)果如表1所示。從表1可以看出,系統(tǒng)分檢可以有效地從通用搜索引擎的返回結(jié)果中提取出與搜索領(lǐng)域相關(guān)的貨源信息,為之后的用戶(hù)分檢做好充分準(zhǔn)備。
5.2用戶(hù)分檢結(jié)果
假設(shè)用戶(hù)搜索目標(biāo)是滿足表達(dá)式,并與汽車(chē)類(lèi)相關(guān)的貨源信息。用戶(hù)分檢結(jié)果如表2所示。
表2說(shuō)明,如果直接在通用搜索引擎返回的結(jié)果中進(jìn)行搜索(不經(jīng)過(guò)系統(tǒng)分檢),則用戶(hù)分檢的查準(zhǔn)率平均值在50%左右,經(jīng)過(guò)系統(tǒng)分檢后,查準(zhǔn)率平均值能達(dá)到75%,并且在返回文獻(xiàn)數(shù)相同的情況下,經(jīng)過(guò)系統(tǒng)分檢后的查準(zhǔn)率比不經(jīng)過(guò)系統(tǒng)分檢的查準(zhǔn)率平均提高22.1%,查全率平均提高15.9%。
用戶(hù)分檢的比較結(jié)果如圖4所示。圖4表明,在查全率相同時(shí),經(jīng)過(guò)系統(tǒng)分檢后的用戶(hù)分檢的查準(zhǔn)率明顯高于不經(jīng)過(guò)系統(tǒng)分檢的查準(zhǔn)率。因此,貨源搜索機(jī)器人通過(guò)系統(tǒng)和用戶(hù)的2次分檢搜索領(lǐng)域相關(guān)的貨源信息是非常有效的。
Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用:6結(jié)束語(yǔ)
本文針對(duì)電子商務(wù)環(huán)境下的貨源信息搜索問(wèn)題,采用Web挖掘和信息檢索技術(shù),提出一種貨源搜索機(jī)器人設(shè)計(jì)與實(shí)現(xiàn)的方法。這種基于元搜索引擎的搜索方法擴(kuò)大了貨源搜索范圍,通過(guò)對(duì)系統(tǒng)和用戶(hù)的2次分檢發(fā)現(xiàn)更有價(jià)值的貨源相關(guān)信息。文中提出的搜索機(jī)器人的設(shè)計(jì)方法對(duì)其他領(lǐng)域知識(shí)相關(guān)的大范圍信息搜索也有很好的應(yīng)用價(jià)值。
本文關(guān)鍵詞:Web挖掘在電子商務(wù)貨源搜索中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):246960
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/246960.html