基于網(wǎng)絡(luò)爬蟲互聯(lián)網(wǎng)涉稅信息采集系統(tǒng)設(shè)計與實現(xiàn)
發(fā)布時間:2021-07-10 16:35
隨著社會信息化的快速發(fā)展,稅收數(shù)據(jù)已經(jīng)逐步形成大集中,納稅人圖像、音視頻等行為數(shù)據(jù)的采集,已經(jīng)逐步向外部門、第三方數(shù)據(jù)延伸。稅務(wù)行業(yè)“大數(shù)據(jù)”的時代已經(jīng)來臨,數(shù)據(jù)從原來應(yīng)用系統(tǒng)產(chǎn)生的一種附屬物,變成了有價值的資產(chǎn)。大數(shù)據(jù)時代,誰能掌握好數(shù)據(jù)、誰能利用好數(shù)據(jù),誰就能提高洞察力、占領(lǐng)制高點。面對日益增長的海量數(shù)據(jù)資產(chǎn),制定統(tǒng)一的數(shù)據(jù)管理戰(zhàn)略和數(shù)據(jù)管理體系,理清數(shù)據(jù)管理思路,明確數(shù)據(jù)管理職責(zé),拓展數(shù)據(jù)應(yīng)用范圍,提升數(shù)據(jù)應(yīng)用質(zhì)量,確保數(shù)據(jù)資產(chǎn)得到系統(tǒng)、高效、安全的管理,更好地服務(wù)領(lǐng)導(dǎo)決策、服務(wù)納稅人辦稅、服務(wù)基層稅收征管、服務(wù)經(jīng)濟(jì)社會發(fā)展,已經(jīng)成為稅務(wù)部門迫切需要面對并加以研究的重要課題。為了有效應(yīng)對上述變革,稅務(wù)部門迫切需要加強統(tǒng)籌協(xié)調(diào),通過建設(shè)全局型的稅務(wù)大數(shù)據(jù)應(yīng)用管理平臺,全面規(guī)范涉稅數(shù)據(jù)管理,真正把稅務(wù)部門海量數(shù)據(jù)的“金山銀庫”潛能挖掘出來、效益發(fā)揮出來。而互聯(lián)網(wǎng)作為一個很有價值的信息來源,它提供了多種類型和形式的信息,但在海量的數(shù)據(jù)信息中,如何抓取涉及到稅務(wù)相關(guān)的信息是一個難題。當(dāng)然,可以手動收集這些與稅收相關(guān)的數(shù)據(jù),并且可以根據(jù)預(yù)定格式對從因特網(wǎng)收集的各種信息進(jìn)行分類和轉(zhuǎn)換。在互聯(lián)...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)爬蟲工作流程圖
所以這類爬蟲通常采用并行工作方式 雖然通用網(wǎng)絡(luò)爬,但它適用于為搜索引擎搜索廣泛的主題,有較強的應(yīng)用價值[13]最常用的爬行策略主要有深度優(yōu)先策略和廣度優(yōu)先策略這兩種,種策略的工作原理做說明 深度優(yōu)先策略[14]:此方法基于深度從低到高的順序,從起始頁開一級網(wǎng)頁鏈接,直到處理該分支上的鏈接為止 在完成爬行分支之到最后一個鏈接節(jié)點,以便進(jìn)一步搜索其他鏈接 當(dāng)遍歷所有鏈接結(jié)束 這種策略更適合垂直搜索或站內(nèi)搜索,但在抓取內(nèi)容更深的巨大的資源浪費 廣度優(yōu)先策略[15]:此策略根據(jù) Web 內(nèi)容目錄內(nèi)容的深度抓取頁面錄中的頁面首先被抓取 當(dāng)同一級別的頁面爬行完成時,爬蟲深入爬行 這種策略可以有效地控制頁面的爬行深度和避免爬行時遇到問題 便于實現(xiàn),并且不需要存儲大量中間節(jié)點 缺點是需要較長到更深的目錄頁 用爬蟲架構(gòu)如圖 2-2
第二章 相關(guān)理論及技術(shù)主題網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲[12] [16](Topical Crawler),根據(jù)它的工作特性,有些學(xué)網(wǎng)絡(luò)爬蟲(Focused Crawler),它只選擇與原先設(shè)定好的和主題行,無關(guān)的則忽略掉 與一般的網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只選面進(jìn)行爬行,這樣提高了爬行的效率,也節(jié)省了資源 因此更們在某些信息領(lǐng)域的需求 首先要做的是評估 Web 的內(nèi)容和鏈重要性對它們進(jìn)行排列 相對于其它的傳統(tǒng)爬蟲,主題爬蟲多價內(nèi)容和鏈接這兩個模塊 通過頁面解析后,爬蟲可以把沒有去 當(dāng)然,針對主題相關(guān),評估模塊進(jìn)行了鏈接排序,并且去鏈接 但是,這個還是遠(yuǎn)遠(yuǎn)不夠的,所以有必要在進(jìn)入在數(shù)據(jù)入所提取的頁面是和主題相關(guān)的,還必須通過評價模塊對已經(jīng)抓進(jìn)一步的分析 主題爬蟲通常有四種評價策略:基于鏈接分析基于語境圖 基于增強學(xué)習(xí),圖 2-3 是主題網(wǎng)絡(luò)爬蟲的架構(gòu)圖
【參考文獻(xiàn)】:
期刊論文
[1]一種基于端到端的HTTP業(yè)務(wù)關(guān)聯(lián)方法[J]. 葉青,張守懿,鄭進(jìn)一,李路艷. 信息通信. 2018(07)
[2]A Survey about Algorithms Utilized by Focused Web Crawler[J]. Yong-Bin Yu,Shi-Lei Huang,Nyima Tashi,Huan Zhang,Fei Lei,Lin-Yang Wu. Journal of Electronic Science and Technology. 2018(02)
[3]網(wǎng)絡(luò)爬蟲技術(shù)原理[J]. Kevin. 計算機與網(wǎng)絡(luò). 2018(10)
[4]大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)爬蟲設(shè)計[J]. 郭麗蓉. 山西電子技術(shù). 2018(02)
[5]基于語義相似聚合的主題爬蟲算法研究[J]. 吳林,王永濱. 中國傳媒大學(xué)學(xué)報(自然科學(xué)版). 2018(01)
[6]基于Na?ve Bayes和TF-IDF的真假新聞分類[J]. 蔡揚,付小斌. 電腦知識與技術(shù). 2018(04)
[7]基于網(wǎng)絡(luò)爬蟲的新浪微博數(shù)據(jù)獲取方式研究[J]. 呂鵬輝. 電腦知識與技術(shù). 2017(33)
[8]基于網(wǎng)絡(luò)爬蟲的水利信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[J]. 巫義銳,黃多輝,周逸徉. 水利信息化. 2017(04)
[9]基于網(wǎng)絡(luò)爬蟲和文本挖掘的實體關(guān)系研究與實現(xiàn)[J]. 謝文彬. 現(xiàn)代計算機(專業(yè)版). 2016(13)
[10]幾種開源網(wǎng)絡(luò)爬蟲功能比較[J]. 郭小丹. 黑龍江科技信息. 2015(25)
碩士論文
[1]面向主題的多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 蔡光波.西北民族大學(xué) 2017
[2]基于網(wǎng)絡(luò)爬蟲的在線教育平臺設(shè)計與實現(xiàn)[D]. 房瑾堂.北京交通大學(xué) 2016
[3]面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D]. 于懷寶.北京交通大學(xué) 2015
[4]主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)的研究與應(yīng)用[D]. 陳千.北京理工大學(xué) 2015
[5]云南省地稅局稅收數(shù)據(jù)比對分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 劉少君.廈門大學(xué) 2013
[6]主題微博爬蟲的設(shè)計與實現(xiàn)[D]. 王艷閣.中原工學(xué)院 2013
[7]校園BBS可定制爬蟲的設(shè)計與實現(xiàn)[D]. 袁捷.華中科技大學(xué) 2013
[8]房地產(chǎn)交易信息搜索和匹配技術(shù)的研究與實現(xiàn)[D]. 李五一.杭州電子科技大學(xué) 2013
[9]面向微博的網(wǎng)絡(luò)爬蟲研究與實現(xiàn)[D]. 劉晶晶.復(fù)旦大學(xué) 2012
[10]Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D]. 張媚.暨南大學(xué) 2011
本文編號:3276280
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)爬蟲工作流程圖
所以這類爬蟲通常采用并行工作方式 雖然通用網(wǎng)絡(luò)爬,但它適用于為搜索引擎搜索廣泛的主題,有較強的應(yīng)用價值[13]最常用的爬行策略主要有深度優(yōu)先策略和廣度優(yōu)先策略這兩種,種策略的工作原理做說明 深度優(yōu)先策略[14]:此方法基于深度從低到高的順序,從起始頁開一級網(wǎng)頁鏈接,直到處理該分支上的鏈接為止 在完成爬行分支之到最后一個鏈接節(jié)點,以便進(jìn)一步搜索其他鏈接 當(dāng)遍歷所有鏈接結(jié)束 這種策略更適合垂直搜索或站內(nèi)搜索,但在抓取內(nèi)容更深的巨大的資源浪費 廣度優(yōu)先策略[15]:此策略根據(jù) Web 內(nèi)容目錄內(nèi)容的深度抓取頁面錄中的頁面首先被抓取 當(dāng)同一級別的頁面爬行完成時,爬蟲深入爬行 這種策略可以有效地控制頁面的爬行深度和避免爬行時遇到問題 便于實現(xiàn),并且不需要存儲大量中間節(jié)點 缺點是需要較長到更深的目錄頁 用爬蟲架構(gòu)如圖 2-2
第二章 相關(guān)理論及技術(shù)主題網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲[12] [16](Topical Crawler),根據(jù)它的工作特性,有些學(xué)網(wǎng)絡(luò)爬蟲(Focused Crawler),它只選擇與原先設(shè)定好的和主題行,無關(guān)的則忽略掉 與一般的網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只選面進(jìn)行爬行,這樣提高了爬行的效率,也節(jié)省了資源 因此更們在某些信息領(lǐng)域的需求 首先要做的是評估 Web 的內(nèi)容和鏈重要性對它們進(jìn)行排列 相對于其它的傳統(tǒng)爬蟲,主題爬蟲多價內(nèi)容和鏈接這兩個模塊 通過頁面解析后,爬蟲可以把沒有去 當(dāng)然,針對主題相關(guān),評估模塊進(jìn)行了鏈接排序,并且去鏈接 但是,這個還是遠(yuǎn)遠(yuǎn)不夠的,所以有必要在進(jìn)入在數(shù)據(jù)入所提取的頁面是和主題相關(guān)的,還必須通過評價模塊對已經(jīng)抓進(jìn)一步的分析 主題爬蟲通常有四種評價策略:基于鏈接分析基于語境圖 基于增強學(xué)習(xí),圖 2-3 是主題網(wǎng)絡(luò)爬蟲的架構(gòu)圖
【參考文獻(xiàn)】:
期刊論文
[1]一種基于端到端的HTTP業(yè)務(wù)關(guān)聯(lián)方法[J]. 葉青,張守懿,鄭進(jìn)一,李路艷. 信息通信. 2018(07)
[2]A Survey about Algorithms Utilized by Focused Web Crawler[J]. Yong-Bin Yu,Shi-Lei Huang,Nyima Tashi,Huan Zhang,Fei Lei,Lin-Yang Wu. Journal of Electronic Science and Technology. 2018(02)
[3]網(wǎng)絡(luò)爬蟲技術(shù)原理[J]. Kevin. 計算機與網(wǎng)絡(luò). 2018(10)
[4]大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)爬蟲設(shè)計[J]. 郭麗蓉. 山西電子技術(shù). 2018(02)
[5]基于語義相似聚合的主題爬蟲算法研究[J]. 吳林,王永濱. 中國傳媒大學(xué)學(xué)報(自然科學(xué)版). 2018(01)
[6]基于Na?ve Bayes和TF-IDF的真假新聞分類[J]. 蔡揚,付小斌. 電腦知識與技術(shù). 2018(04)
[7]基于網(wǎng)絡(luò)爬蟲的新浪微博數(shù)據(jù)獲取方式研究[J]. 呂鵬輝. 電腦知識與技術(shù). 2017(33)
[8]基于網(wǎng)絡(luò)爬蟲的水利信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[J]. 巫義銳,黃多輝,周逸徉. 水利信息化. 2017(04)
[9]基于網(wǎng)絡(luò)爬蟲和文本挖掘的實體關(guān)系研究與實現(xiàn)[J]. 謝文彬. 現(xiàn)代計算機(專業(yè)版). 2016(13)
[10]幾種開源網(wǎng)絡(luò)爬蟲功能比較[J]. 郭小丹. 黑龍江科技信息. 2015(25)
碩士論文
[1]面向主題的多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 蔡光波.西北民族大學(xué) 2017
[2]基于網(wǎng)絡(luò)爬蟲的在線教育平臺設(shè)計與實現(xiàn)[D]. 房瑾堂.北京交通大學(xué) 2016
[3]面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D]. 于懷寶.北京交通大學(xué) 2015
[4]主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)的研究與應(yīng)用[D]. 陳千.北京理工大學(xué) 2015
[5]云南省地稅局稅收數(shù)據(jù)比對分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 劉少君.廈門大學(xué) 2013
[6]主題微博爬蟲的設(shè)計與實現(xiàn)[D]. 王艷閣.中原工學(xué)院 2013
[7]校園BBS可定制爬蟲的設(shè)計與實現(xiàn)[D]. 袁捷.華中科技大學(xué) 2013
[8]房地產(chǎn)交易信息搜索和匹配技術(shù)的研究與實現(xiàn)[D]. 李五一.杭州電子科技大學(xué) 2013
[9]面向微博的網(wǎng)絡(luò)爬蟲研究與實現(xiàn)[D]. 劉晶晶.復(fù)旦大學(xué) 2012
[10]Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D]. 張媚.暨南大學(xué) 2011
本文編號:3276280
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3276280.html
最近更新
教材專著