分布式信息抽取系統(tǒng)在物流領域中的應用
發(fā)布時間:2020-08-04 05:29
【摘要】:隨著國內物流行業(yè)的蓬勃發(fā)展,在線物流平臺的營運方式成為主流,每天都會有海量的貨運信息和承運信息發(fā)布到各個承運平臺上,而對互聯(lián)網上的數(shù)據(jù)進行抓取和分析,也成為比較常見的商業(yè)行為。在實習企業(yè)惠龍易通的集配平臺內,利用人工構建包裝器的方式對物流站點進行數(shù)據(jù)抓取,但由于手工構建包裝器繁瑣且難以維護,因此,在現(xiàn)有系統(tǒng)的基礎上,降低人工投入、提高包裝器構建的自動化程度是課題研究的主要問題。論文針對企業(yè)現(xiàn)有系統(tǒng)的缺點和問題,通過對爬蟲技術、WEB信息抽取技術以及分布式技術的研究,結合物流承運平臺頁面結構復雜、重復的特點,設計并實現(xiàn)了一個包裝器規(guī)則自動化構建、根據(jù)規(guī)則自動采集數(shù)據(jù),對采集的數(shù)據(jù)去重、存儲的分布式信息抽取系統(tǒng),并在采集的數(shù)據(jù)的基礎上搭建了一個基于近義詞語義轉換的檢索服務。論文的主要工作如下:(1)物流信息抽取規(guī)則的自動化構建:針對物流平臺頁面列表多且結構復雜的特點,對“標簽路徑”算法進行了改進,通過優(yōu)化“標簽路徑比”的計算方式,提高正文節(jié)點和噪音節(jié)點的區(qū)分度,從而提高了標簽提取的準確度;針對物流術語表達不規(guī)范的問題,將TD-IDF算法提取的特征值轉化為國家頒布的物流標準術語,減少特征值歧義,從而提高VSM算法對頁面主題相似度計算的準確度;針對標簽路徑無法直接提取頁面數(shù)據(jù)的問題,將CSS選擇器和正文列表的標簽路徑進行結合,設計并使用“標簽路徑類選擇器”的方式生成了抽取規(guī)則,使標簽路徑可以準確地表示每一個元素。(2)分布式物流信息抽取系統(tǒng)設計:搭建了基于Scrapy-redis的分布式爬蟲系統(tǒng)。應用抽取規(guī)則對某一個站點進行抓取時,為了使爬蟲停留在當前站點內進行爬行,對框架內“爬行策略”組件進行了重寫,設計“異源過濾”的策略過濾異源URL地址;為了減少“待爬取隊列”管理對內存的開銷,利用“布隆過濾器”對待爬URL隊列進行過濾;為了降低細微表述差異對去重的影響,使用局部敏感哈希算法“SimHash”對物流信息進行去重,并將該算法的特征值提取過程和TD-IDF算法進行合并,并增加語義特征。通過對相關模塊的重構,提高了原爬蟲框架的工作效率。(3)分布式抽取系統(tǒng)的實現(xiàn)及性能測試:使用Python對包裝器生成和爬蟲系統(tǒng)進行開發(fā),使用Node.js開發(fā)可視化網站界面。對中國物通網進行實際爬取分析,并對抓取過程在分布式環(huán)境及單機環(huán)境中進行測試比較。測試結果表明,優(yōu)化后分布式系統(tǒng)整體運行效率比之前提高了11%;修改后的待爬隊列去重誤判率僅有0.047%。整個系統(tǒng)的運行效率可以達到預期目標和效果。最后根據(jù)測試結果,對系統(tǒng)中存在的不足提出了下一步的優(yōu)化方向。
【學位授予單位】:江蘇大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1
【圖文】:
圖 2.1 SimHash 原理圖算法大致流程如圖 2.1 所示,圖中的 feature 指的是 Doc 中的分詞結果分詞特征值看做一個 feature,weight 代表相應特征值的權重;hash 是指,用來計算 feature 的哈希值,add 是指合并所有特征值的加權特征值;維計算得到各文檔二進制的海明距離。具體來說,SimHash 算法分成五個步驟,分別是分詞、哈希計算、加權降維,算法過程大致如下:(1)將 Doc 進行分詞,取出其中 n 個特征值并計算其權重,形成(特權重 W)對;(2)計算特征值的 hash 值形成(哈希值 H,權重 W)對,如圖 2.1 所的是 6 位哈希值;(3)將(哈希值 H,權重 W)對進行縱向累加合并,哈希值中 1 位計計-W,如關鍵詞 A:(100110,5)=> A’(5,-5,-5,5,5,-5);關鍵詞
減少人工構建抽取規(guī)則的成本。本章實現(xiàn)的自動化信息抽取規(guī)則的主要工作流程如圖3.1 所示。圖 3.1 自動化生成抽取模塊工作流程首先手工錄入需要提取的網站網址,爬蟲模塊會將頁面內容下載下來,將頁面信息預處理并解析出 DOM 樹,利用標簽路徑算法提取出頁面正文部分,再通過 VSM 算法對頁面主題相似度進行計算,最后將頁面正文部分標簽路徑進行清洗獲得“標簽路徑類選擇器”集合,生成抽取規(guī)則。應用生成的抽取規(guī)則進行信息抽取,最后將數(shù)據(jù)轉化成結構化的數(shù)據(jù)并持久化。在整個系統(tǒng)中,物流信息抽取模型的整體結構圖如圖 3.2 所示。圖 3.2 信息抽取模型整體結構圖14
圖 3.1 自動化生成抽取模塊工作流程首先手工錄入需要提取的網站網址,爬蟲模塊會將頁面內容下載下來,將頁信息預處理并解析出 DOM 樹,利用標簽路徑算法提取出頁面正文部分,再通 VSM 算法對頁面主題相似度進行計算,最后將頁面正文部分標簽路徑進行清獲得“標簽路徑類選擇器”集合,生成抽取規(guī)則。應用生成的抽取規(guī)則進行信抽取,最后將數(shù)據(jù)轉化成結構化的數(shù)據(jù)并持久化。在整個系統(tǒng)中,物流信息抽取模型的整體結構圖如圖 3.2 所示。
【學位授予單位】:江蘇大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1
【圖文】:
圖 2.1 SimHash 原理圖算法大致流程如圖 2.1 所示,圖中的 feature 指的是 Doc 中的分詞結果分詞特征值看做一個 feature,weight 代表相應特征值的權重;hash 是指,用來計算 feature 的哈希值,add 是指合并所有特征值的加權特征值;維計算得到各文檔二進制的海明距離。具體來說,SimHash 算法分成五個步驟,分別是分詞、哈希計算、加權降維,算法過程大致如下:(1)將 Doc 進行分詞,取出其中 n 個特征值并計算其權重,形成(特權重 W)對;(2)計算特征值的 hash 值形成(哈希值 H,權重 W)對,如圖 2.1 所的是 6 位哈希值;(3)將(哈希值 H,權重 W)對進行縱向累加合并,哈希值中 1 位計計-W,如關鍵詞 A:(100110,5)=> A’(5,-5,-5,5,5,-5);關鍵詞
減少人工構建抽取規(guī)則的成本。本章實現(xiàn)的自動化信息抽取規(guī)則的主要工作流程如圖3.1 所示。圖 3.1 自動化生成抽取模塊工作流程首先手工錄入需要提取的網站網址,爬蟲模塊會將頁面內容下載下來,將頁面信息預處理并解析出 DOM 樹,利用標簽路徑算法提取出頁面正文部分,再通過 VSM 算法對頁面主題相似度進行計算,最后將頁面正文部分標簽路徑進行清洗獲得“標簽路徑類選擇器”集合,生成抽取規(guī)則。應用生成的抽取規(guī)則進行信息抽取,最后將數(shù)據(jù)轉化成結構化的數(shù)據(jù)并持久化。在整個系統(tǒng)中,物流信息抽取模型的整體結構圖如圖 3.2 所示。圖 3.2 信息抽取模型整體結構圖14
圖 3.1 自動化生成抽取模塊工作流程首先手工錄入需要提取的網站網址,爬蟲模塊會將頁面內容下載下來,將頁信息預處理并解析出 DOM 樹,利用標簽路徑算法提取出頁面正文部分,再通 VSM 算法對頁面主題相似度進行計算,最后將頁面正文部分標簽路徑進行清獲得“標簽路徑類選擇器”集合,生成抽取規(guī)則。應用生成的抽取規(guī)則進行信抽取,最后將數(shù)據(jù)轉化成結構化的數(shù)據(jù)并持久化。在整個系統(tǒng)中,物流信息抽取模型的整體結構圖如圖 3.2 所示。
【參考文獻】
相關期刊論文 前6條
1 郭喜躍;何婷婷;;信息抽取研究綜述[J];計算機科學;2015年02期
2 李貴;陳成;李征宇;韓子揚;孫平;孫煥良;;基于標簽路徑的Web結構化數(shù)據(jù)自動抽取[J];計算機科學;2013年S1期
3 黃承慧;印鑒;侯f ;;一種結合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機學報;2011年05期
4 祝偉華;盧熠;劉斌斌;;基于HMM的Web信息抽取算法的研究與應用[J];計算機科學;2010年02期
5 趙欣欣;索紅光;劉玉樹;;基于標記窗的網頁正文信息提取方法[J];計算機應用研究;2007年03期
6 周順先;林亞平;王雷;;Web信息抽取中基于頁面特性的包裝器平衡算法[J];計算機工程與應用;2006年36期
相關博士學位論文 前1條
1 施生生;精確Web信息抽取關鍵技術與系統(tǒng)研究[D];南京大學;2017年
相關碩士學位論文 前10條
1 方超;基于物流數(shù)據(jù)的個性化推薦系統(tǒng)的研究與實現(xiàn)[D];南京郵電大學;2017年
2 安子建;基于Scrapy框架的網絡爬蟲實現(xiàn)與數(shù)據(jù)抓取分析[D];吉林大學;2017年
3 李超;基于深度學習的短文本分類及信息抽取研究[D];鄭州大學;2017年
4 李q
本文編號:2780113
本文鏈接:http://sikaile.net/guanlilunwen/wuliuguanlilunwen/2780113.html
最近更新
教材專著