天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

輕量級(jí)分布式虛假信息爬蟲的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2023-03-05 20:56
  信息是每個(gè)社會(huì)人的自動(dòng)需求,在社會(huì)中生存發(fā)展的人,只有通過(guò)獲取信息才能夠消除的不確定性。近年來(lái),隨著智能手機(jī)與智能設(shè)備的普及,人們能夠更加簡(jiǎn)單快速的從互聯(lián)網(wǎng)上獲取信息,隨之而來(lái)的問(wèn)題是:人們獲取信息總量在不斷增加,但是有部分人并不能有效將信息群中的糟粕信息過(guò)濾掉。而在這些垃圾信息中,虛假信息與謠言信息首當(dāng)其沖。謠言傳播后的影響非常嚴(yán)重,其將導(dǎo)致社會(huì)公眾倫理迷茫,激化社會(huì)公眾的非理智情緒,使事件發(fā)展被人為的向惡化方向推進(jìn)。因此,需要將虛假信息,謠言從大量的信息群中過(guò)濾分離開(kāi)。虛假信息過(guò)濾系統(tǒng)則可以很好的解決這個(gè)問(wèn)題。本系統(tǒng)實(shí)現(xiàn)的功能是對(duì)相關(guān)網(wǎng)絡(luò)文本的爬取及其中虛假信息的過(guò)濾。系統(tǒng)原則上使用深度優(yōu)先策略來(lái)對(duì)文本進(jìn)行爬取,通過(guò)相關(guān)url爬取算法的優(yōu)化以及系統(tǒng)的優(yōu)化,從而增強(qiáng)爬取的效率。系統(tǒng)通過(guò)融入分布式集群設(shè)計(jì),實(shí)現(xiàn)了針對(duì)本系統(tǒng)設(shè)計(jì)的分布式功能與特性,使其可以脫離對(duì)其他分布式框架的依賴,從而使本系統(tǒng)相對(duì)與一般分布式爬蟲而言使用方式耦合度更低,從而實(shí)現(xiàn)了輕量級(jí)的效果。系統(tǒng)通過(guò)使用SpringBoot框架來(lái)進(jìn)行主要開(kāi)發(fā),并且進(jìn)行服務(wù)的注冊(cè)及發(fā)現(xiàn)操作,負(fù)載均衡配置,以及保障微服務(wù)的安全性。通過(guò)調(diào)用...

【文章頁(yè)數(shù)】:76 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 系統(tǒng)開(kāi)發(fā)背景及意義
        1.1.1 系統(tǒng)開(kāi)發(fā)背景
        1.1.2 系統(tǒng)開(kāi)發(fā)意義
    1.2 國(guó)內(nèi)外相關(guān)工作
    1.3 研究目標(biāo)及內(nèi)容
    1.4 本文主要工作及組織結(jié)構(gòu)
第2章 相關(guān)工作綜述
    2.1 虛假信息與謠言檢測(cè)綜述
    2.2 網(wǎng)絡(luò)爬蟲技術(shù)
    2.3 決策樹(shù)算法
    2.4 文本預(yù)處理
        2.4.1 中文分詞技術(shù)
        2.4.2 無(wú)效文本過(guò)濾
    2.5 Spring-Cloud框架及相關(guān)技術(shù)
        2.5.1 SpringCloud框架
        2.5.2 Eureka服務(wù)發(fā)現(xiàn)框架
        2.5.3 Hystrix 熔斷機(jī)制
    2.6 本章小結(jié)
第3章 系統(tǒng)總體設(shè)計(jì)
    3.1 系統(tǒng)功能需求分析
        3.1.1 系統(tǒng)總體功能需求
        3.1.2 待檢測(cè)文本獲取模塊需求分析
        3.1.3 文本數(shù)據(jù)檢索需求分析
        3.1.4 文本虛假性分析模塊
        3.1.5 系統(tǒng)界面交互功能需求
    3.2 系統(tǒng)非功能性需求分析
    3.3 系統(tǒng)總體設(shè)計(jì)
        3.3.1 系統(tǒng)總體功能結(jié)構(gòu)設(shè)計(jì)
        3.3.2 系統(tǒng)總體流程設(shè)計(jì)
    3.4 系統(tǒng)模塊詳細(xì)設(shè)計(jì)
        3.4.1 網(wǎng)絡(luò)爬蟲模塊詳細(xì)設(shè)計(jì)
        3.4.2 分類檢索模塊詳細(xì)設(shè)計(jì)
        3.4.3 虛假信息分析與判斷模塊詳細(xì)設(shè)計(jì)
    3.5 數(shù)據(jù)存儲(chǔ)設(shè)計(jì)
    3.6 本章小結(jié)
第4章 系統(tǒng)關(guān)鍵技術(shù)
    4.1 網(wǎng)絡(luò)爬蟲技術(shù)優(yōu)化
        4.1.1 爬取效率的提升
        4.1.2 URL去重
    4.2 虛假信息的分析與判斷
        4.2.1 特征值選取
        4.2.2 決策樹(shù)模型的建立
    4.3 輕量級(jí)分布式架構(gòu)的實(shí)現(xiàn)
        4.3.1 輕量級(jí)分布式框架的設(shè)計(jì)
        4.3.2 分布式爬蟲系統(tǒng)的運(yùn)行機(jī)制
    4.4 本章小結(jié)
第5章 系統(tǒng)實(shí)現(xiàn)與測(cè)試
    5.1 測(cè)試準(zhǔn)備
    5.2 測(cè)試結(jié)果與分析
        5.2.1 登錄功能實(shí)現(xiàn)與測(cè)試
        5.2.2 用戶管理實(shí)現(xiàn)與測(cè)試
        5.2.3 系統(tǒng)管理實(shí)現(xiàn)與測(cè)試
        5.2.4 文本爬取實(shí)現(xiàn)與測(cè)試
        5.2.5 文本瀏覽實(shí)現(xiàn)與測(cè)試
        5.2.6 文本分析模塊實(shí)現(xiàn)與測(cè)試
        5.2.7 文本分析判斷功能實(shí)現(xiàn)與測(cè)試
    5.3 系統(tǒng)性能測(cè)試
    5.4 本章小結(jié)
第6章 總結(jié)與展望
    6.1 論文總結(jié)
    6.2 論文展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文及參加科研情況



本文編號(hào):3756900

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3756900.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a55a4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com