基于知識(shí)圖譜的電商信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-01-25 20:14
互聯(lián)網(wǎng)經(jīng)過(guò)幾十年的發(fā)展已經(jīng)產(chǎn)生了大量的信息,利用這些信息將會(huì)產(chǎn)生巨大的經(jīng)濟(jì)效益。網(wǎng)頁(yè)作為這些信息的載體在互聯(lián)網(wǎng)中多以半結(jié)構(gòu)化的形式存在。以互聯(lián)網(wǎng)中的網(wǎng)頁(yè)作為數(shù)據(jù)源抽取信息的WEB信息抽取技術(shù)伴隨著互聯(lián)網(wǎng)的發(fā)展而不斷發(fā)展。電子商務(wù)作為互聯(lián)網(wǎng)眾多的應(yīng)用模式之一,為人們的生產(chǎn)和生活帶來(lái)方便的同時(shí)也產(chǎn)生了大量的商品信息。將電子商務(wù)網(wǎng)站中的商品信息進(jìn)行抽取對(duì)商品推薦,市場(chǎng)分析等諸多領(lǐng)域擁有重要的價(jià)值。商品搜索結(jié)果頁(yè)和商品信息詳情頁(yè)是電商網(wǎng)站展示商品信息的兩類重要網(wǎng)頁(yè)。這兩類網(wǎng)頁(yè)中因電商平臺(tái)和商戶的廣告、推薦帶來(lái)的搜索結(jié)果頁(yè)噪聲和詳情頁(yè)噪聲導(dǎo)致現(xiàn)有的WEB信息抽取方法抽取準(zhǔn)確率較低。同時(shí),這兩類網(wǎng)頁(yè)在同一電商網(wǎng)站和不同電商網(wǎng)站有相似的頁(yè)面設(shè)計(jì),但擁有不同的頁(yè)面結(jié)構(gòu)導(dǎo)致現(xiàn)有抽取方法失效。針對(duì)上述問(wèn)題,本文利用現(xiàn)有知識(shí)圖譜中豐富的概念和實(shí)例信息,提出了一種基于知識(shí)圖譜的電商信息抽取方法。該方法由知識(shí)圖譜預(yù)處理和頁(yè)面分析抽取共兩部分構(gòu)成,主要研究?jī)?nèi)容包括以下四點(diǎn):(1)在抽取方法的知識(shí)圖譜預(yù)處理部分中,提出了一種知識(shí)圖譜預(yù)處理算法,通過(guò)計(jì)算指定領(lǐng)域中屬性在該領(lǐng)域的領(lǐng)域值為頁(yè)面降噪提供特征信息。(2)在抽...
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.3 研究目標(biāo)及內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論及技術(shù)
2.1 WEB信息抽取技術(shù)介紹
2.1.1 基于包裝器歸納的WEB信息抽取技術(shù)
2.1.2 基于頁(yè)面模板的WEB信息抽取技術(shù)
2.1.3 基于本體的WEB信息抽取技術(shù)
2.1.4 基于視覺(jué)信息的WEB信息抽取技術(shù)
2.2 知識(shí)圖譜相關(guān)知識(shí)介紹
2.2.1 知識(shí)圖譜概念介紹
2.2.2 中文百科知識(shí)圖譜zhishi.me介紹
2.3 相關(guān)開(kāi)源工具及框架介紹
2.3.1 Selenium介紹
2.3.2 ElasticSearch介紹
2.3.3 Spring框架介紹
2.4 本章小結(jié)
第三章 系統(tǒng)需求分析
3.1 系統(tǒng)需求范圍界定
3.1.1 待抽取電商頁(yè)面中的噪聲
3.1.2 待抽取電商網(wǎng)頁(yè)中的頁(yè)面結(jié)構(gòu)
3.2 系統(tǒng)功能需求分析
3.3 系統(tǒng)非功能需求分析
3.4 本章小結(jié)
第四章 基于知識(shí)圖譜的電商信息抽取方法
4.1 方法概述
4.2 知識(shí)圖譜預(yù)處理算法
4.3 商品搜索結(jié)果頁(yè)抽取算法
4.3.1 頁(yè)面分塊
4.3.2 頁(yè)面特征提取
4.3.3 頁(yè)面降噪
4.3.4 頁(yè)面抽取
4.4 商品信息詳情頁(yè)抽取算法
4.4.1 頁(yè)面分塊
4.4.2 頁(yè)面特征提取
4.4.3 頁(yè)面降噪
4.4.4 頁(yè)面抽取
4.5 實(shí)驗(yàn)與結(jié)果分析
4.5.1 實(shí)驗(yàn)數(shù)據(jù)
4.5.2 實(shí)驗(yàn)方法
4.5.3 實(shí)驗(yàn)結(jié)果
4.6 本章小結(jié)
第五章 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)與測(cè)試
5.1 系統(tǒng)概要設(shè)計(jì)
5.1.1 系統(tǒng)整體架構(gòu)設(shè)計(jì)
5.1.2 任務(wù)管理模塊概要設(shè)計(jì)
5.1.3 知識(shí)圖譜服務(wù)模塊概要設(shè)計(jì)
5.1.4 頁(yè)面分析與抽取模塊概要設(shè)計(jì)
5.2 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.2.1 任務(wù)管理模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.2.2 知識(shí)圖譜服務(wù)模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.2.3 頁(yè)面分析與抽取模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.3 系統(tǒng)測(cè)試
5.3.1 系統(tǒng)測(cè)試環(huán)境
5.3.2 任務(wù)創(chuàng)建功能測(cè)試
5.3.3 任務(wù)查詢功能測(cè)試
5.3.4 任務(wù)執(zhí)行功能測(cè)試
5.3.5 任務(wù)抽取結(jié)果查看功能測(cè)試
5.3.6 任務(wù)重置功能測(cè)試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3885482
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.3 研究目標(biāo)及內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論及技術(shù)
2.1 WEB信息抽取技術(shù)介紹
2.1.1 基于包裝器歸納的WEB信息抽取技術(shù)
2.1.2 基于頁(yè)面模板的WEB信息抽取技術(shù)
2.1.3 基于本體的WEB信息抽取技術(shù)
2.1.4 基于視覺(jué)信息的WEB信息抽取技術(shù)
2.2 知識(shí)圖譜相關(guān)知識(shí)介紹
2.2.1 知識(shí)圖譜概念介紹
2.2.2 中文百科知識(shí)圖譜zhishi.me介紹
2.3 相關(guān)開(kāi)源工具及框架介紹
2.3.1 Selenium介紹
2.3.2 ElasticSearch介紹
2.3.3 Spring框架介紹
2.4 本章小結(jié)
第三章 系統(tǒng)需求分析
3.1 系統(tǒng)需求范圍界定
3.1.1 待抽取電商頁(yè)面中的噪聲
3.1.2 待抽取電商網(wǎng)頁(yè)中的頁(yè)面結(jié)構(gòu)
3.2 系統(tǒng)功能需求分析
3.3 系統(tǒng)非功能需求分析
3.4 本章小結(jié)
第四章 基于知識(shí)圖譜的電商信息抽取方法
4.1 方法概述
4.2 知識(shí)圖譜預(yù)處理算法
4.3 商品搜索結(jié)果頁(yè)抽取算法
4.3.1 頁(yè)面分塊
4.3.2 頁(yè)面特征提取
4.3.3 頁(yè)面降噪
4.3.4 頁(yè)面抽取
4.4 商品信息詳情頁(yè)抽取算法
4.4.1 頁(yè)面分塊
4.4.2 頁(yè)面特征提取
4.4.3 頁(yè)面降噪
4.4.4 頁(yè)面抽取
4.5 實(shí)驗(yàn)與結(jié)果分析
4.5.1 實(shí)驗(yàn)數(shù)據(jù)
4.5.2 實(shí)驗(yàn)方法
4.5.3 實(shí)驗(yàn)結(jié)果
4.6 本章小結(jié)
第五章 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)與測(cè)試
5.1 系統(tǒng)概要設(shè)計(jì)
5.1.1 系統(tǒng)整體架構(gòu)設(shè)計(jì)
5.1.2 任務(wù)管理模塊概要設(shè)計(jì)
5.1.3 知識(shí)圖譜服務(wù)模塊概要設(shè)計(jì)
5.1.4 頁(yè)面分析與抽取模塊概要設(shè)計(jì)
5.2 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.2.1 任務(wù)管理模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.2.2 知識(shí)圖譜服務(wù)模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.2.3 頁(yè)面分析與抽取模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
5.3 系統(tǒng)測(cè)試
5.3.1 系統(tǒng)測(cè)試環(huán)境
5.3.2 任務(wù)創(chuàng)建功能測(cè)試
5.3.3 任務(wù)查詢功能測(cè)試
5.3.4 任務(wù)執(zhí)行功能測(cè)試
5.3.5 任務(wù)抽取結(jié)果查看功能測(cè)試
5.3.6 任務(wù)重置功能測(cè)試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3885482
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3885482.html
最近更新
教材專著