基于Selenium的數(shù)據(jù)自動(dòng)抓取軟件設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-08-27 01:50
數(shù)據(jù)自動(dòng)抓取是指通過應(yīng)用程序?qū)崿F(xiàn)整個(gè)數(shù)據(jù)采集流程的自動(dòng)執(zhí)行,達(dá)到批量的從網(wǎng)頁中獲取目標(biāo)數(shù)據(jù)的目的。隨著大數(shù)據(jù)技術(shù)在企業(yè)的生產(chǎn)經(jīng)營中廣泛應(yīng)用,數(shù)據(jù)采集技術(shù)也更加被重視。目前最常用的數(shù)據(jù)抓取技術(shù)是網(wǎng)絡(luò)爬蟲。雖然這種技術(shù)功能強(qiáng)大,采集效率高,但是程序編寫復(fù)雜,并且所有抓取到的網(wǎng)頁都需要被系統(tǒng)存儲(chǔ),消耗資源,只適合有編程基礎(chǔ)的人群,應(yīng)用范圍受到限制。為了提供更加易于掌握的數(shù)據(jù)抓取技術(shù),彌補(bǔ)爬蟲技術(shù)的不足,給更多的企業(yè)或個(gè)人提供更高效,便捷的數(shù)據(jù)批量抓取服務(wù),本文決定設(shè)計(jì)并實(shí)現(xiàn)一款基于Selenium的數(shù)據(jù)自動(dòng)抓取軟件。通過為網(wǎng)頁元素生成多種類型的XPath路徑表達(dá)式,并總結(jié)出一套XPath路徑表達(dá)式的評(píng)價(jià)標(biāo)準(zhǔn),實(shí)現(xiàn)對網(wǎng)頁元素定位方法的優(yōu)化,幫助軟件準(zhǔn)確定位到用戶指定的目標(biāo)數(shù)據(jù),然后使用軟件自定義的腳本語言把用戶的數(shù)據(jù)采集流程以腳本文件的形式保存下來,通過執(zhí)行腳本文件完成數(shù)據(jù)的批量采集。最后進(jìn)行軟件測等試相關(guān)工作,測試結(jié)果表明本軟件達(dá)到了預(yù)期目標(biāo)。我們希望用戶能夠利用本文所開發(fā)的軟件完成任務(wù)繁重且單調(diào)的批量數(shù)據(jù)采集工作,既提高工作效率,又能節(jié)約寶貴的時(shí)間和精力。
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 同類軟件研究
1.3 本文工作
1.4 章節(jié)安排
2 需求分析可行性分析與總體設(shè)計(jì)
2.1 需求分析
2.1.1 功能需求
2.1.2 性能需求
2.2 可行性分析
2.2.1 技術(shù)可行性
2.2.2 法律可行性
2.3 總體設(shè)計(jì)與功能模塊劃分
2.3.1 瀏覽器插件模塊
2.3.2 腳本引擎模塊
2.3.3 用戶界面模塊
3 關(guān)鍵問題研究與解決方案介紹
3.1 基于多屬性的XPath表達(dá)式優(yōu)化
3.1.1 XPath表達(dá)式的工作原理
3.1.2 XPath表達(dá)式的格式擴(kuò)展
3.1.3 XPath表達(dá)式評(píng)分規(guī)則
3.1.4 XPath表達(dá)式的評(píng)分函數(shù)
3.2 標(biāo)記網(wǎng)頁中的循環(huán)元素
3.2.1 循環(huán)元素定義
3.2.2 循環(huán)元素的識(shí)別和標(biāo)記
3.3 自定義腳本語言
3.3.1 自定義鏈?zhǔn)秸Z法
3.3.2 棧式對象管理
3.4 基于Chrome插件實(shí)現(xiàn)用戶操作的程序化表示
3.4.1 篩選網(wǎng)頁操作關(guān)鍵信息
3.4.2 獲取和處理用戶操作
4 詳細(xì)設(shè)計(jì)
4.1 GUI用戶界面模塊
4.1.1 瀏覽器的嵌入與優(yōu)化
4.1.2 腳本代碼同步展示
4.1.3 腳本文件編輯
4.1.4 腳本文件運(yùn)行
4.1.5 任務(wù)管理
4.2 瀏覽器插件
4.2.1 數(shù)據(jù)采集流程設(shè)置
4.3 引擎模塊
4.3.1 生成腳本代碼
4.3.2 執(zhí)行腳本代碼
5 軟件測試
5.1 測試環(huán)境
5.2 功能測試
5.2.1 測試流程
5.2.2 數(shù)據(jù)采集任務(wù)錄制測試
5.2.3 腳本編輯測試
5.2.4 Debug模式測試
5.2.5 任務(wù)管理測
5.3 軟件的不足之處與改進(jìn)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3365405
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 同類軟件研究
1.3 本文工作
1.4 章節(jié)安排
2 需求分析可行性分析與總體設(shè)計(jì)
2.1 需求分析
2.1.1 功能需求
2.1.2 性能需求
2.2 可行性分析
2.2.1 技術(shù)可行性
2.2.2 法律可行性
2.3 總體設(shè)計(jì)與功能模塊劃分
2.3.1 瀏覽器插件模塊
2.3.2 腳本引擎模塊
2.3.3 用戶界面模塊
3 關(guān)鍵問題研究與解決方案介紹
3.1 基于多屬性的XPath表達(dá)式優(yōu)化
3.1.1 XPath表達(dá)式的工作原理
3.1.2 XPath表達(dá)式的格式擴(kuò)展
3.1.3 XPath表達(dá)式評(píng)分規(guī)則
3.1.4 XPath表達(dá)式的評(píng)分函數(shù)
3.2 標(biāo)記網(wǎng)頁中的循環(huán)元素
3.2.1 循環(huán)元素定義
3.2.2 循環(huán)元素的識(shí)別和標(biāo)記
3.3 自定義腳本語言
3.3.1 自定義鏈?zhǔn)秸Z法
3.3.2 棧式對象管理
3.4 基于Chrome插件實(shí)現(xiàn)用戶操作的程序化表示
3.4.1 篩選網(wǎng)頁操作關(guān)鍵信息
3.4.2 獲取和處理用戶操作
4 詳細(xì)設(shè)計(jì)
4.1 GUI用戶界面模塊
4.1.1 瀏覽器的嵌入與優(yōu)化
4.1.2 腳本代碼同步展示
4.1.3 腳本文件編輯
4.1.4 腳本文件運(yùn)行
4.1.5 任務(wù)管理
4.2 瀏覽器插件
4.2.1 數(shù)據(jù)采集流程設(shè)置
4.3 引擎模塊
4.3.1 生成腳本代碼
4.3.2 執(zhí)行腳本代碼
5 軟件測試
5.1 測試環(huán)境
5.2 功能測試
5.2.1 測試流程
5.2.2 數(shù)據(jù)采集任務(wù)錄制測試
5.2.3 腳本編輯測試
5.2.4 Debug模式測試
5.2.5 任務(wù)管理測
5.3 軟件的不足之處與改進(jìn)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3365405
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3365405.html
最近更新
教材專著