基于網(wǎng)絡(luò)爬蟲與短文本相似度的網(wǎng)售化妝品監(jiān)管系統(tǒng)的研究與設(shè)計(jì)
發(fā)布時(shí)間:2020-10-13 22:48
在經(jīng)濟(jì)快速發(fā)展,人民生活水平穩(wěn)步提升的新時(shí)代,網(wǎng)購已經(jīng)成為當(dāng)下最為流行的購物方式;瘖y品作為日常生活用品,其需求量日益提升。然而,關(guān)于網(wǎng)購出現(xiàn)假冒偽劣的化妝品事件不斷爆出,并引起廣泛關(guān)注。因此,完善網(wǎng)售化妝品的監(jiān)管顯得尤為重要。為強(qiáng)化企業(yè)自律誠信意識,方便監(jiān)管部門對網(wǎng)售化妝品進(jìn)行監(jiān)管,本文研究設(shè)計(jì)了一套網(wǎng)售化妝品監(jiān)管系統(tǒng)。首先,論文從研究背景及其意義出發(fā),分析了當(dāng)前化妝品監(jiān)管系統(tǒng)的優(yōu)缺點(diǎn)以及相關(guān)技術(shù)的國內(nèi)外研究現(xiàn)狀,從而確定論文所要研究的內(nèi)容及其研究方法。然后具體介紹了相關(guān)技術(shù),在分析天貓網(wǎng)頁URL的基礎(chǔ)上,結(jié)合Bloom Filter的特點(diǎn),對網(wǎng)絡(luò)爬蟲中的鏈接過濾模塊進(jìn)行改進(jìn),減少了因Bloom Filter存在誤判率而帶來的誤差,使其在URL去重環(huán)節(jié)更適合于本系統(tǒng)。接著,論文在結(jié)合系統(tǒng)實(shí)際需求的基礎(chǔ)上,對其進(jìn)行需求分析以及系統(tǒng)設(shè)計(jì)。通過對用戶權(quán)限及業(yè)務(wù)流程的分析,明確系統(tǒng)所需功能,利用UML建模工具進(jìn)行建模,畫出相關(guān)用例圖;以上述需求為基礎(chǔ),確定系統(tǒng)構(gòu)架,完成功能模塊的詳細(xì)設(shè)計(jì)及各模塊數(shù)據(jù)庫的設(shè)計(jì)。最后,使用Visual Studio 2012、SQL Server 2008 R2開發(fā)工具、C#開發(fā)語言,結(jié)合IIS、.NET Framework等技術(shù)對網(wǎng)售化妝品監(jiān)管系統(tǒng)進(jìn)行編碼實(shí)現(xiàn)以及網(wǎng)站部署。目前該系統(tǒng)功能已完成,基本已達(dá)到預(yù)期效果,信息采集、比對及編碼方案切實(shí)可行。
【學(xué)位單位】:南昌航空大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP311.52
【部分圖文】:
7圖 2-1 通用網(wǎng)絡(luò)爬蟲工作流程(1)在互聯(lián)網(wǎng)中選取一部分網(wǎng)頁,以其鏈接地址作為種子 URL。(2)將種子 URL 放入待抓取 URL 隊(duì)列中,爬蟲從隊(duì)列中依次讀取。(3)讀取的 URL 經(jīng)過 DNS 進(jìn)行解析后轉(zhuǎn)換為網(wǎng)站服務(wù)器對應(yīng)的 IP 地址然后通過網(wǎng)頁下載器等工具對網(wǎng)頁進(jìn)行下載。(4)將已下載的 URL 放入已抓取 URL 隊(duì)列中,同時(shí)從中抽取出新的 U放入待抓取 URL 隊(duì)列。(5)對未進(jìn)行抓取的 URL 繼續(xù)進(jìn)行循環(huán)抓取,直至待抓取 URL 隊(duì)列為或滿足設(shè)定條件。
圖 2-2 通用網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)圖通用網(wǎng)絡(luò)爬蟲主要包括以下模塊:(1)鏈接隊(duì)列模塊:該模塊采用隊(duì)列的結(jié)構(gòu)來管理和保存相關(guān)鏈接。該模塊為頁面獲取模塊提供鏈接。(2)頁面獲取模塊:通過網(wǎng)頁下載器等工具下載鏈接隊(duì)列模塊提供的鏈接相對應(yīng)的網(wǎng)頁;該模塊的性能很大程度上影響著整個(gè)爬蟲系統(tǒng)的工作性能,因此多線程、異步以及超時(shí)處理的設(shè)置較為關(guān)鍵。(3)頁面分析模塊:該模塊在分析獲取的網(wǎng)頁信息的基礎(chǔ)上,提取網(wǎng)頁中存在的鏈接以及部分網(wǎng)頁內(nèi)容,并保存相對應(yīng)的網(wǎng)頁。(4)鏈接過濾模塊:該模塊對頁面分析模塊中提取出來的鏈接進(jìn)行過濾,過濾掉已下載過的鏈接。將過濾后的鏈接提供給鏈接隊(duì)列模塊,以充實(shí)該模塊中的鏈接。本章重點(diǎn)是在鏈接過濾模塊中,通過分析鏈接間的關(guān)系來進(jìn)行鏈接過濾。2.1.2 通用網(wǎng)絡(luò)爬蟲的爬行策略
昌航空大學(xué)碩士學(xué)位論文 第二章 網(wǎng)絡(luò)爬蟲設(shè)計(jì)廣度優(yōu)先搜索策略:廣度優(yōu)先搜索策略是一種自頂向底的循環(huán)搜索機(jī)制,對一級頁面中的鏈接進(jìn)行遍歷,再循環(huán)選擇其中一個(gè)鏈接,對其下一級頁面鏈接進(jìn)行遍歷,直至最后一級頁面。如圖 2-3 所示,采用廣度優(yōu)先搜索策略 URL 抓取時(shí),抓取順序?yàn)?A、B、C、D、E、F、G、H。該策略的優(yōu)點(diǎn)是,極大程度的避免由于頁面之間的交叉引用而帶來的無限循環(huán)的情況。但其缺:由于需要耗費(fèi)大量,寬度優(yōu)先搜索策略不太適用于要遍歷特定站點(diǎn)和 HTM件深層嵌套的情況。
【相似文獻(xiàn)】
本文編號:2839799
【學(xué)位單位】:南昌航空大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP311.52
【部分圖文】:
7圖 2-1 通用網(wǎng)絡(luò)爬蟲工作流程(1)在互聯(lián)網(wǎng)中選取一部分網(wǎng)頁,以其鏈接地址作為種子 URL。(2)將種子 URL 放入待抓取 URL 隊(duì)列中,爬蟲從隊(duì)列中依次讀取。(3)讀取的 URL 經(jīng)過 DNS 進(jìn)行解析后轉(zhuǎn)換為網(wǎng)站服務(wù)器對應(yīng)的 IP 地址然后通過網(wǎng)頁下載器等工具對網(wǎng)頁進(jìn)行下載。(4)將已下載的 URL 放入已抓取 URL 隊(duì)列中,同時(shí)從中抽取出新的 U放入待抓取 URL 隊(duì)列。(5)對未進(jìn)行抓取的 URL 繼續(xù)進(jìn)行循環(huán)抓取,直至待抓取 URL 隊(duì)列為或滿足設(shè)定條件。
圖 2-2 通用網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)圖通用網(wǎng)絡(luò)爬蟲主要包括以下模塊:(1)鏈接隊(duì)列模塊:該模塊采用隊(duì)列的結(jié)構(gòu)來管理和保存相關(guān)鏈接。該模塊為頁面獲取模塊提供鏈接。(2)頁面獲取模塊:通過網(wǎng)頁下載器等工具下載鏈接隊(duì)列模塊提供的鏈接相對應(yīng)的網(wǎng)頁;該模塊的性能很大程度上影響著整個(gè)爬蟲系統(tǒng)的工作性能,因此多線程、異步以及超時(shí)處理的設(shè)置較為關(guān)鍵。(3)頁面分析模塊:該模塊在分析獲取的網(wǎng)頁信息的基礎(chǔ)上,提取網(wǎng)頁中存在的鏈接以及部分網(wǎng)頁內(nèi)容,并保存相對應(yīng)的網(wǎng)頁。(4)鏈接過濾模塊:該模塊對頁面分析模塊中提取出來的鏈接進(jìn)行過濾,過濾掉已下載過的鏈接。將過濾后的鏈接提供給鏈接隊(duì)列模塊,以充實(shí)該模塊中的鏈接。本章重點(diǎn)是在鏈接過濾模塊中,通過分析鏈接間的關(guān)系來進(jìn)行鏈接過濾。2.1.2 通用網(wǎng)絡(luò)爬蟲的爬行策略
昌航空大學(xué)碩士學(xué)位論文 第二章 網(wǎng)絡(luò)爬蟲設(shè)計(jì)廣度優(yōu)先搜索策略:廣度優(yōu)先搜索策略是一種自頂向底的循環(huán)搜索機(jī)制,對一級頁面中的鏈接進(jìn)行遍歷,再循環(huán)選擇其中一個(gè)鏈接,對其下一級頁面鏈接進(jìn)行遍歷,直至最后一級頁面。如圖 2-3 所示,采用廣度優(yōu)先搜索策略 URL 抓取時(shí),抓取順序?yàn)?A、B、C、D、E、F、G、H。該策略的優(yōu)點(diǎn)是,極大程度的避免由于頁面之間的交叉引用而帶來的無限循環(huán)的情況。但其缺:由于需要耗費(fèi)大量,寬度優(yōu)先搜索策略不太適用于要遍歷特定站點(diǎn)和 HTM件深層嵌套的情況。
【相似文獻(xiàn)】
相關(guān)期刊論文 前7條
1 張靜;江西省市各化妝品衛(wèi)生狀況與對策[J];學(xué)會;1999年11期
2 方玄昌;;化妝品:危害來自何處[J];中國新聞周刊;2006年37期
3 ;質(zhì)檢總局公布染發(fā)劑修飾類化妝品抽查結(jié)果[J];產(chǎn)品安全與召回;2012年03期
4 紀(jì)連生;;化妝品:美容還是毀容[J];記者觀察(下半月);2008年01期
5 ;化妝品衛(wèi)生標(biāo)準(zhǔn)“十一五”規(guī)劃[J];信息化縱橫;2008年08期
6 梁娜;美容院化妝品暴利揭秘[J];出版參考;2003年29期
7 王曉明 ,雷芳;別把您的臉當(dāng)成試驗(yàn)田[J];科學(xué)與文化;2005年08期
本文編號:2839799
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2839799.html
最近更新
教材專著