天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Selenium的數(shù)據(jù)自動(dòng)抓取軟件設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-08-27 01:50
  數(shù)據(jù)自動(dòng)抓取是指通過應(yīng)用程序?qū)崿F(xiàn)整個(gè)數(shù)據(jù)采集流程的自動(dòng)執(zhí)行,達(dá)到批量的從網(wǎng)頁中獲取目標(biāo)數(shù)據(jù)的目的。隨著大數(shù)據(jù)技術(shù)在企業(yè)的生產(chǎn)經(jīng)營中廣泛應(yīng)用,數(shù)據(jù)采集技術(shù)也更加被重視。目前最常用的數(shù)據(jù)抓取技術(shù)是網(wǎng)絡(luò)爬蟲。雖然這種技術(shù)功能強(qiáng)大,采集效率高,但是程序編寫復(fù)雜,并且所有抓取到的網(wǎng)頁都需要被系統(tǒng)存儲(chǔ),消耗資源,只適合有編程基礎(chǔ)的人群,應(yīng)用范圍受到限制。為了提供更加易于掌握的數(shù)據(jù)抓取技術(shù),彌補(bǔ)爬蟲技術(shù)的不足,給更多的企業(yè)或個(gè)人提供更高效,便捷的數(shù)據(jù)批量抓取服務(wù),本文決定設(shè)計(jì)并實(shí)現(xiàn)一款基于Selenium的數(shù)據(jù)自動(dòng)抓取軟件。通過為網(wǎng)頁元素生成多種類型的XPath路徑表達(dá)式,并總結(jié)出一套XPath路徑表達(dá)式的評(píng)價(jià)標(biāo)準(zhǔn),實(shí)現(xiàn)對網(wǎng)頁元素定位方法的優(yōu)化,幫助軟件準(zhǔn)確定位到用戶指定的目標(biāo)數(shù)據(jù),然后使用軟件自定義的腳本語言把用戶的數(shù)據(jù)采集流程以腳本文件的形式保存下來,通過執(zhí)行腳本文件完成數(shù)據(jù)的批量采集。最后進(jìn)行軟件測等試相關(guān)工作,測試結(jié)果表明本軟件達(dá)到了預(yù)期目標(biāo)。我們希望用戶能夠利用本文所開發(fā)的軟件完成任務(wù)繁重且單調(diào)的批量數(shù)據(jù)采集工作,既提高工作效率,又能節(jié)約寶貴的時(shí)間和精力。 

【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:67 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景與意義
    1.2 同類軟件研究
    1.3 本文工作
    1.4 章節(jié)安排
2 需求分析可行性分析與總體設(shè)計(jì)
    2.1 需求分析
        2.1.1 功能需求
        2.1.2 性能需求
    2.2 可行性分析
        2.2.1 技術(shù)可行性
        2.2.2 法律可行性
    2.3 總體設(shè)計(jì)與功能模塊劃分
        2.3.1 瀏覽器插件模塊
        2.3.2 腳本引擎模塊
        2.3.3 用戶界面模塊
3 關(guān)鍵問題研究與解決方案介紹
    3.1 基于多屬性的XPath表達(dá)式優(yōu)化
        3.1.1 XPath表達(dá)式的工作原理
        3.1.2 XPath表達(dá)式的格式擴(kuò)展
        3.1.3 XPath表達(dá)式評(píng)分規(guī)則
        3.1.4 XPath表達(dá)式的評(píng)分函數(shù)
    3.2 標(biāo)記網(wǎng)頁中的循環(huán)元素
        3.2.1 循環(huán)元素定義
        3.2.2 循環(huán)元素的識(shí)別和標(biāo)記
    3.3 自定義腳本語言
        3.3.1 自定義鏈?zhǔn)秸Z法
        3.3.2 棧式對象管理
    3.4 基于Chrome插件實(shí)現(xiàn)用戶操作的程序化表示
        3.4.1 篩選網(wǎng)頁操作關(guān)鍵信息
        3.4.2 獲取和處理用戶操作
4 詳細(xì)設(shè)計(jì)
    4.1 GUI用戶界面模塊
        4.1.1 瀏覽器的嵌入與優(yōu)化
        4.1.2 腳本代碼同步展示
        4.1.3 腳本文件編輯
        4.1.4 腳本文件運(yùn)行
        4.1.5 任務(wù)管理
    4.2 瀏覽器插件
        4.2.1 數(shù)據(jù)采集流程設(shè)置
    4.3 引擎模塊
        4.3.1 生成腳本代碼
        4.3.2 執(zhí)行腳本代碼
5 軟件測試
    5.1 測試環(huán)境
    5.2 功能測試
        5.2.1 測試流程
        5.2.2 數(shù)據(jù)采集任務(wù)錄制測試
        5.2.3 腳本編輯測試
        5.2.4 Debug模式測試
        5.2.5 任務(wù)管理測
    5.3 軟件的不足之處與改進(jìn)
結(jié)論
參考文獻(xiàn)
致謝



本文編號(hào):3365405

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3365405.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9159f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
国产高清视频一区不卡| 99久久国产精品免费| 麻豆果冻传媒一二三区| 亚洲精品中文字幕在线视频| 一区二区日本一区二区欧美| 色婷婷视频国产一区视频| 熟女少妇久久一区二区三区| 国产一区二区三区四区中文| 免费观看在线午夜视频| 麻豆国产精品一区二区三区| 国产精品香蕉一级免费| 麻豆最新出品国产精品| 日韩在线视频精品视频| 色狠狠一区二区三区香蕉蜜桃| 国产成人精品99在线观看| 欧美整片精品日韩综合| 久久碰国产一区二区三区| 精品欧美一区二区三久久| 欧美日韩国产精品黄片| 国产永久免费高清在线精品| 欧美激情一区=区三区| 我想看亚洲一级黄色录像| 十八禁日本一区二区三区| 老司机精品线观看86| 国产毛片对白精品看片| 福利视频一区二区三区| 国产又色又爽又黄又大| 国产性色精品福利在线观看| 精品一区二区三区免费看| 在线观看免费无遮挡大尺度视频| 久久国产亚洲精品成人| 神马午夜福利免费视频| 邻居人妻人公侵犯人妻视频| 久久精品亚洲精品国产欧美| 肥白女人日韩中文视频| 亚洲视频一区二区久久久| 五月天婷亚洲天婷综合网| 日韩特级黄片免费观看| 精品一区二区三区人妻视频| 久草视频在线视频在线观看| 国产日韩熟女中文字幕|