數(shù)據(jù)挖掘系統(tǒng),是人工智能研究領(lǐng)域的熱點(diǎn)問題之一。網(wǎng)站數(shù)據(jù)挖掘,作為數(shù)據(jù)挖掘的一個(gè)具體應(yīng)用,在商業(yè)智能中具有非常廣泛的應(yīng)用,以人工智能和大數(shù)據(jù)技術(shù)為基礎(chǔ),能夠?qū)σ酝e累下來的數(shù)據(jù)加以分析,在轉(zhuǎn)化為能夠幫助企業(yè)提升企業(yè)運(yùn)營和管理方面知識的同時(shí),也能夠挖掘潛在客戶以及作預(yù)測未來發(fā)展方向等。簡單來說,在商業(yè)智能領(lǐng)域中,網(wǎng)站數(shù)據(jù)挖掘就是一種能夠?yàn)槠髽I(yè)在生產(chǎn)和管理、運(yùn)營和銷售作出調(diào)整和優(yōu)化決策的有效手段,其意義在于能夠?yàn)槠髽I(yè)帶來更多的經(jīng)濟(jì)價(jià)值以及提高企業(yè)競爭力。在大型網(wǎng)站中存在著大量的網(wǎng)頁,同時(shí)網(wǎng)頁中存在著大量復(fù)雜的數(shù)據(jù),因此獲取這些數(shù)據(jù)并且存儲下來是數(shù)據(jù)挖掘的關(guān)鍵。本文利用大數(shù)據(jù)環(huán)境下的分布式爬蟲框架Scrapy-Redis對二手汽車網(wǎng)站的數(shù)據(jù)進(jìn)行爬取,將數(shù)據(jù)存儲到廣泛應(yīng)用的分布式系統(tǒng)Hadoop的小型集群中,然后對數(shù)據(jù)進(jìn)行特定預(yù)處理操作并對數(shù)據(jù)進(jìn)行分析,最后采用K-Means+RBF神經(jīng)網(wǎng)絡(luò)對用戶關(guān)注程度進(jìn)行預(yù)測。車輛的關(guān)注程度,可以反映車輛在當(dāng)前二手汽車市場中的受歡迎或關(guān)注的程度,企業(yè)可以根據(jù)車輛的關(guān)注程度,進(jìn)行線上網(wǎng)站運(yùn)營做優(yōu)化策略調(diào)整,提高網(wǎng)站的受歡迎性。為了更有效的、直觀地進(jìn)行車輛關(guān)注程...
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:

圖2-1Scrapy單爬取框架工作流程圖
圖2-1Scrapy單爬取框架工作流程圖Fig2-1SingleScrapyFrameworkDiagram2.3.1Scrapy-Redis分布式網(wǎng)頁爬蟲框架Redis(RemoteDictionaryServer)是一套開源的鍵值對[key-value....

圖2-2Scrapy-Redis集群原理圖
圖2-2Scrapy-Redis集群原理圖Fig2-2Scrapy-RedisClustersDiagrampy-Redis的優(yōu)點(diǎn):由于Redis的容錯(cuò)機(jī)制和內(nèi)存-硬盤固化機(jī)制,Master會讓Slave將這些上,即使當(dāng)單個(gè)Slave掉線或者拋錨時(shí)與....

圖2-3Scrapy-Redis分布式爬取框架工作原理圖
圖2-3Scrapy-Redis分布式爬取框架工作原理圖Fig2-3Scrapy-RedisFrameworkWorkingDiagrampy-Redis分布式爬取框架工作原理圖如圖2-3所示。Redis數(shù)據(jù)庫中包含所有的網(wǎng)頁地址,這些網(wǎng)頁地址就是一系列由....

圖2-4網(wǎng)頁部分內(nèi)容Fig2-4PartialWebContent
動態(tài)服務(wù)器頁面ASP.Net(ActiveServerPage)開發(fā)的網(wǎng)頁格式“.asp”以及支持動態(tài)頁的Java服務(wù)器頁面本JSP(JavaServerPages)的“.jsp”等后綴。盡管不同類型網(wǎng)具有不同的后綴名,但是這些網(wǎng)頁都是以HTML規(guī)范進(jìn)行編寫,....
本文編號:
4019543
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/4019543.html