基于網(wǎng)絡(luò)爬蟲的北京市房價研究
發(fā)布時間:2020-12-21 11:01
隨著信息革命的到來,互聯(lián)網(wǎng)的蓬勃發(fā)展,生活方式的改變,網(wǎng)絡(luò)成為了我們?nèi)粘I畹谋匦杵。面對大量的網(wǎng)絡(luò)資源,學(xué)會合理地使用搜索引擎則可以給我們帶來很多方便。在搜索引擎中,我們利用一些關(guān)鍵字進行搜索,它就會返回給我們大量的跟這個關(guān)鍵字相關(guān)的信息,在這個過程中,不得不提的就是爬蟲技術(shù)了。搜索引擎就是充分地運用了爬蟲技術(shù)才得以從海量的信息網(wǎng)絡(luò)中抓取到與之關(guān)聯(lián)的信息,并快速地響應(yīng)給我們。但是隨著數(shù)據(jù)時代的到來,網(wǎng)絡(luò)信息浩如煙海,隨著技術(shù)的更迭,反爬蟲也越來越得到重視與加強,從中提取出我們需要的信息也變得越來越困難了。另外,房價現(xiàn)在是我們生活中最熱門的詞匯之一,它與我們每一個人都息息相關(guān)。因此,房價的數(shù)據(jù)也是很值得做一番研究的,將計算機網(wǎng)絡(luò)爬蟲技術(shù)運用到房價中,則正是本文研究的內(nèi)容之一。首先,我們需要一些房價的數(shù)據(jù)。在此之前,我們需要確定房價數(shù)據(jù)的來源,即目標(biāo)網(wǎng)站。對比分析了幾個著名的房產(chǎn)信息網(wǎng)站,最后確定了以“安居客”為爬取對象。然后,就是如何抓取房價數(shù)據(jù)了,這方面的工作可以通過計算機爬蟲技術(shù)來完成。針對爬蟲本身,本文中我運用了一款新型的網(wǎng)絡(luò)爬蟲框架,名叫elastic-spider,這是一款基...
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
通用爬蟲框架流程
6圖2-2 網(wǎng)絡(luò)爬蟲工作流程圖Figure 2-2 Work flow chart of web crawler然后下載器開始下載網(wǎng)頁內(nèi)容。對于已下載的網(wǎng)頁內(nèi)容,會有兩種方式來處理它:1)將其存儲到事先已設(shè)定好的頁面庫中,等待后續(xù)被索引處理;2)給此頁面打標(biāo)記,表示該網(wǎng)頁已被爬取過了,并將此頁面放到已抓取 URL 的隊列中。另外,已被下載的網(wǎng)頁還需要被進一步解析,主要目的是從中提取出其他 URL,并將這些URL 與已抓取 URL 隊列進行比對,如果已抓取的 URL 隊列中不包含該 URL
圖 2-3 二叉樹Figure 2-3 Binary tree假如把每個二叉樹中的節(jié)點比作一個網(wǎng)頁,把整個二叉樹比作網(wǎng)絡(luò)資源,的關(guān)系用線段聯(lián)系起來。那么采用深度優(yōu)先搜索算法進行網(wǎng)絡(luò)爬蟲的話,的順序為:A-B-C-D-E-F-G-H-I-J-K-L,這樣就可以保證把所有頁面都檢索到2 廣度優(yōu)先搜索算法廣度優(yōu)先搜索算法也可以借助二叉樹這種數(shù)據(jù)結(jié)構(gòu)來理解,但是區(qū)別于深索算法,它不是以分支作為搜索的單位,它是以層級作為搜索的單位,從點開始遍歷下層節(jié)點,直到下層節(jié)點不存在為止。針對上圖 2-3 的二叉樹采用廣度優(yōu)先搜索算法搜索整個網(wǎng)絡(luò)資源的話,那么搜索順序則如-D-I-C-E-H-J-L-F-K 。2.3 幾種常用的網(wǎng)絡(luò)爬蟲框架1 Nutch 爬蟲框架Nutch 是一款可以支持分布式爬取的爬蟲框架,是 Apache 的項目之一,存
【參考文獻】:
期刊論文
[1]基于語義的文檔特征提取研究方法[J]. 姜芳,李國和,岳翔. 計算機科學(xué). 2016(02)
[2]一種基于本體語義的災(zāi)害主題爬蟲策略[J]. 馬雷雷,李宏偉,連世偉,梁汝鵬,陳虎. 計算機工程. 2016(11)
[3]基于TF-IDF改進算法的聚焦主題網(wǎng)絡(luò)爬蟲[J]. 王景中,邱銅相. 計算機應(yīng)用. 2015(10)
[4]基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測[J]. 董倩,孫娜娜,李偉. 統(tǒng)計研究. 2014(10)
[5]基于均值密度中心估計的k-means聚類文本挖掘方法[J]. 符保龍,張愛科. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版). 2014(01)
[6]基于遺傳算法的主題爬蟲[J]. 張海亮,袁道華. 計算機技術(shù)與發(fā)展. 2012(08)
[7]北京商品房房價影響因素的實證分析[J]. 崔承穎. 生產(chǎn)力研究. 2011(09)
[8]基于K-均值聚類算法的醫(yī)藥制造業(yè)競爭力評價實證研究[J]. 陳紅川,劉斌. 科技管理研究. 2011(16)
[9]Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J]. 詹恒飛,楊岳湘,方宏. 計算機科學(xué)與探索. 2011(01)
[10]基于K-均值聚類的卷煙市場研究[J]. 霍葉青,何躍. 中國商貿(mào). 2010(04)
博士論文
[1]基于特征分析和數(shù)據(jù)降維的復(fù)雜數(shù)據(jù)預(yù)測與分類方法研究[D]. 邵臻.合肥工業(yè)大學(xué) 2015
碩士論文
[1]基于訓(xùn)練集聚類的KNN算法及其應(yīng)用研究[D]. 郇益斌.山東科技大學(xué) 2017
[2]基于Scrapy的分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計與實現(xiàn)[D]. 馬聯(lián)帥.西安電子科技大學(xué) 2015
[3]基于隨機森林理論的北京市二手房估價模型研究[D]. 陳奕佳.北京交通大學(xué) 2015
[4]基于虛擬機的Hadoop分布式聚類挖掘方法研究與應(yīng)用[D]. 尚丹丹.哈爾濱理工大學(xué) 2015
[5]主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)的研究與應(yīng)用[D]. 陳千.北京理工大學(xué) 2015
[6]網(wǎng)絡(luò)搜索數(shù)據(jù)與消費者信心指數(shù)的相關(guān)性研究[D]. 樊國虎.吉林大學(xué) 2014
[7]基于ACO-LS-SVM的房地產(chǎn)價格評估研究[D]. 于秀雪.大連理工大學(xué) 2013
[8]基于Nutch的分布式搜索引擎的研究與優(yōu)化[D]. 萬文宏.武漢理工大學(xué) 2013
[9]基于隨機森林模型的二手房價格評估研究[D]. 楊沐晞.中南大學(xué) 2012
[10]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲技術(shù)[D]. 鄭博文.哈爾濱工業(yè)大學(xué) 2011
本文編號:2929717
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
通用爬蟲框架流程
6圖2-2 網(wǎng)絡(luò)爬蟲工作流程圖Figure 2-2 Work flow chart of web crawler然后下載器開始下載網(wǎng)頁內(nèi)容。對于已下載的網(wǎng)頁內(nèi)容,會有兩種方式來處理它:1)將其存儲到事先已設(shè)定好的頁面庫中,等待后續(xù)被索引處理;2)給此頁面打標(biāo)記,表示該網(wǎng)頁已被爬取過了,并將此頁面放到已抓取 URL 的隊列中。另外,已被下載的網(wǎng)頁還需要被進一步解析,主要目的是從中提取出其他 URL,并將這些URL 與已抓取 URL 隊列進行比對,如果已抓取的 URL 隊列中不包含該 URL
圖 2-3 二叉樹Figure 2-3 Binary tree假如把每個二叉樹中的節(jié)點比作一個網(wǎng)頁,把整個二叉樹比作網(wǎng)絡(luò)資源,的關(guān)系用線段聯(lián)系起來。那么采用深度優(yōu)先搜索算法進行網(wǎng)絡(luò)爬蟲的話,的順序為:A-B-C-D-E-F-G-H-I-J-K-L,這樣就可以保證把所有頁面都檢索到2 廣度優(yōu)先搜索算法廣度優(yōu)先搜索算法也可以借助二叉樹這種數(shù)據(jù)結(jié)構(gòu)來理解,但是區(qū)別于深索算法,它不是以分支作為搜索的單位,它是以層級作為搜索的單位,從點開始遍歷下層節(jié)點,直到下層節(jié)點不存在為止。針對上圖 2-3 的二叉樹采用廣度優(yōu)先搜索算法搜索整個網(wǎng)絡(luò)資源的話,那么搜索順序則如-D-I-C-E-H-J-L-F-K 。2.3 幾種常用的網(wǎng)絡(luò)爬蟲框架1 Nutch 爬蟲框架Nutch 是一款可以支持分布式爬取的爬蟲框架,是 Apache 的項目之一,存
【參考文獻】:
期刊論文
[1]基于語義的文檔特征提取研究方法[J]. 姜芳,李國和,岳翔. 計算機科學(xué). 2016(02)
[2]一種基于本體語義的災(zāi)害主題爬蟲策略[J]. 馬雷雷,李宏偉,連世偉,梁汝鵬,陳虎. 計算機工程. 2016(11)
[3]基于TF-IDF改進算法的聚焦主題網(wǎng)絡(luò)爬蟲[J]. 王景中,邱銅相. 計算機應(yīng)用. 2015(10)
[4]基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測[J]. 董倩,孫娜娜,李偉. 統(tǒng)計研究. 2014(10)
[5]基于均值密度中心估計的k-means聚類文本挖掘方法[J]. 符保龍,張愛科. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版). 2014(01)
[6]基于遺傳算法的主題爬蟲[J]. 張海亮,袁道華. 計算機技術(shù)與發(fā)展. 2012(08)
[7]北京商品房房價影響因素的實證分析[J]. 崔承穎. 生產(chǎn)力研究. 2011(09)
[8]基于K-均值聚類算法的醫(yī)藥制造業(yè)競爭力評價實證研究[J]. 陳紅川,劉斌. 科技管理研究. 2011(16)
[9]Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J]. 詹恒飛,楊岳湘,方宏. 計算機科學(xué)與探索. 2011(01)
[10]基于K-均值聚類的卷煙市場研究[J]. 霍葉青,何躍. 中國商貿(mào). 2010(04)
博士論文
[1]基于特征分析和數(shù)據(jù)降維的復(fù)雜數(shù)據(jù)預(yù)測與分類方法研究[D]. 邵臻.合肥工業(yè)大學(xué) 2015
碩士論文
[1]基于訓(xùn)練集聚類的KNN算法及其應(yīng)用研究[D]. 郇益斌.山東科技大學(xué) 2017
[2]基于Scrapy的分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計與實現(xiàn)[D]. 馬聯(lián)帥.西安電子科技大學(xué) 2015
[3]基于隨機森林理論的北京市二手房估價模型研究[D]. 陳奕佳.北京交通大學(xué) 2015
[4]基于虛擬機的Hadoop分布式聚類挖掘方法研究與應(yīng)用[D]. 尚丹丹.哈爾濱理工大學(xué) 2015
[5]主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)的研究與應(yīng)用[D]. 陳千.北京理工大學(xué) 2015
[6]網(wǎng)絡(luò)搜索數(shù)據(jù)與消費者信心指數(shù)的相關(guān)性研究[D]. 樊國虎.吉林大學(xué) 2014
[7]基于ACO-LS-SVM的房地產(chǎn)價格評估研究[D]. 于秀雪.大連理工大學(xué) 2013
[8]基于Nutch的分布式搜索引擎的研究與優(yōu)化[D]. 萬文宏.武漢理工大學(xué) 2013
[9]基于隨機森林模型的二手房價格評估研究[D]. 楊沐晞.中南大學(xué) 2012
[10]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲技術(shù)[D]. 鄭博文.哈爾濱工業(yè)大學(xué) 2011
本文編號:2929717
本文鏈接:http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/2929717.html
最近更新
教材專著