基于Scrapy的番茄病蟲害數(shù)據(jù)收集
發(fā)布時(shí)間:2021-04-05 23:30
在番茄病蟲害防治中常常出現(xiàn)因資料分散而導(dǎo)致的信息獲取不全或是利用效率低等問題,為此提出利用計(jì)算機(jī)技術(shù)設(shè)計(jì)一套針對(duì)開放網(wǎng)絡(luò)上的多方數(shù)據(jù)進(jìn)行收集與整理的方法。該方法基于Scrapy框架依次確定爬取對(duì)象、設(shè)計(jì)爬取流程、分析原始網(wǎng)頁、存儲(chǔ)相關(guān)數(shù)據(jù),最后依托Django框架搭建可視化界面用于前端與后臺(tái)的數(shù)據(jù)交互。由此實(shí)現(xiàn)了對(duì)各類數(shù)據(jù)的有效收集和按規(guī)則的結(jié)構(gòu)化存儲(chǔ),為在番茄病蟲害領(lǐng)域搭建系統(tǒng)、專業(yè)的知識(shí)庫提供數(shù)據(jù)依據(jù)。
【文章來源】:電腦知識(shí)與技術(shù). 2019,15(03)
【文章頁數(shù)】:3 頁
【部分圖文】:
詞條源代碼3數(shù)據(jù)存儲(chǔ)斷櫻左儲(chǔ)縣熔扮棍可s仆的前一先驟銑怪合書舌的扮棍成
百度為輔,整合番茄病蟲害名稱,再進(jìn)行后續(xù)爬取。2.2 設(shè)計(jì)爬取流程根據(jù)確定的番茄病蟲害名稱,從多方數(shù)據(jù)源中爬取所需數(shù)據(jù),以在互動(dòng)百科為例,設(shè)計(jì)數(shù)據(jù)爬取流程,如圖2。圖2 scrapy框架爬取數(shù)據(jù)流程系統(tǒng)先根據(jù)番茄病蟲害名稱對(duì)互動(dòng)百科詞條的初始 URL進(jìn)行解析,響應(yīng)內(nèi)容包括URL 和數(shù)據(jù)。URL 解析時(shí),相關(guān)模塊會(huì)基于定義的 HTML 規(guī)則將該頁面中所包含的其他詞條 URL保存至詞條 URL 庫中[4]。系統(tǒng)不斷地對(duì)詞條 URL 庫中的 URL進(jìn)行解析,并將獲取到的數(shù)據(jù)內(nèi)容存儲(chǔ)在csv文件中。2.3 網(wǎng)頁對(duì)象分析導(dǎo)入數(shù)據(jù)庫。4 數(shù)據(jù)應(yīng)用通過上述一系列步驟,我們將分散在互聯(lián)網(wǎng)各處的有關(guān)番茄病蟲害的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了梳理整合,通過Scrapy技術(shù)將其以結(jié)構(gòu)化的形式存儲(chǔ)于數(shù)據(jù)庫中。然而對(duì)于目標(biāo)人群,例如農(nóng)技人員、普通種植戶等,依舊無法直接對(duì)數(shù)據(jù)進(jìn)行查看甚至利用。因此,本文利用Django網(wǎng)頁框架為用戶搭建了番茄病蟲害搜索界面,從而方便目標(biāo)人群使用及幫助完善。Django 框架是基于Python語言編寫的一個(gè)開源免費(fèi)的Web應(yīng)用框架[7]。在用戶輸入界面中提供了兩種查詢方式,包括按病蟲害名稱查詢和按發(fā)病部位查詢,在單擊查詢后即可獲取相應(yīng)的搜索結(jié)果。4.1 按名稱搜索圖 4 以番茄褐色根腐病為例展示了按病蟲害名稱的搜索結(jié)果。利用用戶輸入的名稱關(guān)鍵字,在數(shù)據(jù)庫中進(jìn)行關(guān)鍵字匹配,返回存儲(chǔ)在數(shù)據(jù)庫中相對(duì)應(yīng)的結(jié)果,結(jié)果包含名稱、發(fā)病部
百度為輔,整合番茄病蟲害名稱,再進(jìn)行后續(xù)爬取。2.2 設(shè)計(jì)爬取流程根據(jù)確定的番茄病蟲害名稱,從多方數(shù)據(jù)源中爬取所需數(shù)據(jù),以在互動(dòng)百科為例,設(shè)計(jì)數(shù)據(jù)爬取流程,如圖2。圖2 scrapy框架爬取數(shù)據(jù)流程系統(tǒng)先根據(jù)番茄病蟲害名稱對(duì)互動(dòng)百科詞條的初始 URL進(jìn)行解析,響應(yīng)內(nèi)容包括URL 和數(shù)據(jù)。URL 解析時(shí),相關(guān)模塊會(huì)基于定義的 HTML 規(guī)則將該頁面中所包含的其他詞條 URL保存至詞條 URL 庫中[4]。系統(tǒng)不斷地對(duì)詞條 URL 庫中的 URL進(jìn)行解析,并將獲取到的數(shù)據(jù)內(nèi)容存儲(chǔ)在csv文件中。2.3 網(wǎng)頁對(duì)象分析導(dǎo)入數(shù)據(jù)庫。4 數(shù)據(jù)應(yīng)用通過上述一系列步驟,我們將分散在互聯(lián)網(wǎng)各處的有關(guān)番茄病蟲害的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了梳理整合,通過Scrapy技術(shù)將其以結(jié)構(gòu)化的形式存儲(chǔ)于數(shù)據(jù)庫中。然而對(duì)于目標(biāo)人群,例如農(nóng)技人員、普通種植戶等,依舊無法直接對(duì)數(shù)據(jù)進(jìn)行查看甚至利用。因此,本文利用Django網(wǎng)頁框架為用戶搭建了番茄病蟲害搜索界面,從而方便目標(biāo)人群使用及幫助完善。Django 框架是基于Python語言編寫的一個(gè)開源免費(fèi)的Web應(yīng)用框架[7]。在用戶輸入界面中提供了兩種查詢方式,包括按病蟲害名稱查詢和按發(fā)病部位查詢,在單擊查詢后即可獲取相應(yīng)的搜索結(jié)果。4.1 按名稱搜索圖 4 以番茄褐色根腐病為例展示了按病蟲害名稱的搜索結(jié)果。利用用戶輸入的名稱關(guān)鍵字,在數(shù)據(jù)庫中進(jìn)行關(guān)鍵字匹配,返回存儲(chǔ)在數(shù)據(jù)庫中相對(duì)應(yīng)的結(jié)果,結(jié)果包含名稱、發(fā)病部
【參考文獻(xiàn)】:
期刊論文
[1]基于Scrapy技術(shù)的數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊君,陳春玲,余瀚. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(10)
[2]基于Scrapy的農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)爬取[J]. 李喬宇,尚明華,王富軍,劉淑云. 山東農(nóng)業(yè)科學(xué). 2018(01)
[3]基于Neo4j圖數(shù)據(jù)庫的課程體系知識(shí)圖譜系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 肖慶都,屈亮亮,侯霞. 電腦知識(shí)與技術(shù). 2017(36)
[4]江蘇無錫市設(shè)施番茄病蟲害發(fā)生特點(diǎn)與綠色防控策略[J]. 吳軍,倪萌,夏倩,張曉峰. 中國(guó)園藝文摘. 2017(10)
[5]基于Scrapy框架的電商數(shù)據(jù)分析平臺(tái)[J]. 孫小越,王超. 電腦知識(shí)與技術(shù). 2017(28)
[6]自動(dòng)化構(gòu)建的中文知識(shí)圖譜系統(tǒng)[J]. 鄂世嘉,林培裕,向陽. 計(jì)算機(jī)應(yīng)用. 2016(04)
碩士論文
[1]基于Scrapy框架的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D]. 安子建.吉林大學(xué) 2017
本文編號(hào):3120305
【文章來源】:電腦知識(shí)與技術(shù). 2019,15(03)
【文章頁數(shù)】:3 頁
【部分圖文】:
詞條源代碼3數(shù)據(jù)存儲(chǔ)斷櫻左儲(chǔ)縣熔扮棍可s仆的前一先驟銑怪合書舌的扮棍成
百度為輔,整合番茄病蟲害名稱,再進(jìn)行后續(xù)爬取。2.2 設(shè)計(jì)爬取流程根據(jù)確定的番茄病蟲害名稱,從多方數(shù)據(jù)源中爬取所需數(shù)據(jù),以在互動(dòng)百科為例,設(shè)計(jì)數(shù)據(jù)爬取流程,如圖2。圖2 scrapy框架爬取數(shù)據(jù)流程系統(tǒng)先根據(jù)番茄病蟲害名稱對(duì)互動(dòng)百科詞條的初始 URL進(jìn)行解析,響應(yīng)內(nèi)容包括URL 和數(shù)據(jù)。URL 解析時(shí),相關(guān)模塊會(huì)基于定義的 HTML 規(guī)則將該頁面中所包含的其他詞條 URL保存至詞條 URL 庫中[4]。系統(tǒng)不斷地對(duì)詞條 URL 庫中的 URL進(jìn)行解析,并將獲取到的數(shù)據(jù)內(nèi)容存儲(chǔ)在csv文件中。2.3 網(wǎng)頁對(duì)象分析導(dǎo)入數(shù)據(jù)庫。4 數(shù)據(jù)應(yīng)用通過上述一系列步驟,我們將分散在互聯(lián)網(wǎng)各處的有關(guān)番茄病蟲害的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了梳理整合,通過Scrapy技術(shù)將其以結(jié)構(gòu)化的形式存儲(chǔ)于數(shù)據(jù)庫中。然而對(duì)于目標(biāo)人群,例如農(nóng)技人員、普通種植戶等,依舊無法直接對(duì)數(shù)據(jù)進(jìn)行查看甚至利用。因此,本文利用Django網(wǎng)頁框架為用戶搭建了番茄病蟲害搜索界面,從而方便目標(biāo)人群使用及幫助完善。Django 框架是基于Python語言編寫的一個(gè)開源免費(fèi)的Web應(yīng)用框架[7]。在用戶輸入界面中提供了兩種查詢方式,包括按病蟲害名稱查詢和按發(fā)病部位查詢,在單擊查詢后即可獲取相應(yīng)的搜索結(jié)果。4.1 按名稱搜索圖 4 以番茄褐色根腐病為例展示了按病蟲害名稱的搜索結(jié)果。利用用戶輸入的名稱關(guān)鍵字,在數(shù)據(jù)庫中進(jìn)行關(guān)鍵字匹配,返回存儲(chǔ)在數(shù)據(jù)庫中相對(duì)應(yīng)的結(jié)果,結(jié)果包含名稱、發(fā)病部
百度為輔,整合番茄病蟲害名稱,再進(jìn)行后續(xù)爬取。2.2 設(shè)計(jì)爬取流程根據(jù)確定的番茄病蟲害名稱,從多方數(shù)據(jù)源中爬取所需數(shù)據(jù),以在互動(dòng)百科為例,設(shè)計(jì)數(shù)據(jù)爬取流程,如圖2。圖2 scrapy框架爬取數(shù)據(jù)流程系統(tǒng)先根據(jù)番茄病蟲害名稱對(duì)互動(dòng)百科詞條的初始 URL進(jìn)行解析,響應(yīng)內(nèi)容包括URL 和數(shù)據(jù)。URL 解析時(shí),相關(guān)模塊會(huì)基于定義的 HTML 規(guī)則將該頁面中所包含的其他詞條 URL保存至詞條 URL 庫中[4]。系統(tǒng)不斷地對(duì)詞條 URL 庫中的 URL進(jìn)行解析,并將獲取到的數(shù)據(jù)內(nèi)容存儲(chǔ)在csv文件中。2.3 網(wǎng)頁對(duì)象分析導(dǎo)入數(shù)據(jù)庫。4 數(shù)據(jù)應(yīng)用通過上述一系列步驟,我們將分散在互聯(lián)網(wǎng)各處的有關(guān)番茄病蟲害的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了梳理整合,通過Scrapy技術(shù)將其以結(jié)構(gòu)化的形式存儲(chǔ)于數(shù)據(jù)庫中。然而對(duì)于目標(biāo)人群,例如農(nóng)技人員、普通種植戶等,依舊無法直接對(duì)數(shù)據(jù)進(jìn)行查看甚至利用。因此,本文利用Django網(wǎng)頁框架為用戶搭建了番茄病蟲害搜索界面,從而方便目標(biāo)人群使用及幫助完善。Django 框架是基于Python語言編寫的一個(gè)開源免費(fèi)的Web應(yīng)用框架[7]。在用戶輸入界面中提供了兩種查詢方式,包括按病蟲害名稱查詢和按發(fā)病部位查詢,在單擊查詢后即可獲取相應(yīng)的搜索結(jié)果。4.1 按名稱搜索圖 4 以番茄褐色根腐病為例展示了按病蟲害名稱的搜索結(jié)果。利用用戶輸入的名稱關(guān)鍵字,在數(shù)據(jù)庫中進(jìn)行關(guān)鍵字匹配,返回存儲(chǔ)在數(shù)據(jù)庫中相對(duì)應(yīng)的結(jié)果,結(jié)果包含名稱、發(fā)病部
【參考文獻(xiàn)】:
期刊論文
[1]基于Scrapy技術(shù)的數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊君,陳春玲,余瀚. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(10)
[2]基于Scrapy的農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)爬取[J]. 李喬宇,尚明華,王富軍,劉淑云. 山東農(nóng)業(yè)科學(xué). 2018(01)
[3]基于Neo4j圖數(shù)據(jù)庫的課程體系知識(shí)圖譜系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 肖慶都,屈亮亮,侯霞. 電腦知識(shí)與技術(shù). 2017(36)
[4]江蘇無錫市設(shè)施番茄病蟲害發(fā)生特點(diǎn)與綠色防控策略[J]. 吳軍,倪萌,夏倩,張曉峰. 中國(guó)園藝文摘. 2017(10)
[5]基于Scrapy框架的電商數(shù)據(jù)分析平臺(tái)[J]. 孫小越,王超. 電腦知識(shí)與技術(shù). 2017(28)
[6]自動(dòng)化構(gòu)建的中文知識(shí)圖譜系統(tǒng)[J]. 鄂世嘉,林培裕,向陽. 計(jì)算機(jī)應(yīng)用. 2016(04)
碩士論文
[1]基于Scrapy框架的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D]. 安子建.吉林大學(xué) 2017
本文編號(hào):3120305
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3120305.html
最近更新
教材專著