基于知識圖譜的電商信息抽取系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2024-01-25 20:14
互聯(lián)網(wǎng)經(jīng)過幾十年的發(fā)展已經(jīng)產(chǎn)生了大量的信息,利用這些信息將會產(chǎn)生巨大的經(jīng)濟效益。網(wǎng)頁作為這些信息的載體在互聯(lián)網(wǎng)中多以半結(jié)構(gòu)化的形式存在。以互聯(lián)網(wǎng)中的網(wǎng)頁作為數(shù)據(jù)源抽取信息的WEB信息抽取技術(shù)伴隨著互聯(lián)網(wǎng)的發(fā)展而不斷發(fā)展。電子商務(wù)作為互聯(lián)網(wǎng)眾多的應(yīng)用模式之一,為人們的生產(chǎn)和生活帶來方便的同時也產(chǎn)生了大量的商品信息。將電子商務(wù)網(wǎng)站中的商品信息進行抽取對商品推薦,市場分析等諸多領(lǐng)域擁有重要的價值。商品搜索結(jié)果頁和商品信息詳情頁是電商網(wǎng)站展示商品信息的兩類重要網(wǎng)頁。這兩類網(wǎng)頁中因電商平臺和商戶的廣告、推薦帶來的搜索結(jié)果頁噪聲和詳情頁噪聲導(dǎo)致現(xiàn)有的WEB信息抽取方法抽取準確率較低。同時,這兩類網(wǎng)頁在同一電商網(wǎng)站和不同電商網(wǎng)站有相似的頁面設(shè)計,但擁有不同的頁面結(jié)構(gòu)導(dǎo)致現(xiàn)有抽取方法失效。針對上述問題,本文利用現(xiàn)有知識圖譜中豐富的概念和實例信息,提出了一種基于知識圖譜的電商信息抽取方法。該方法由知識圖譜預(yù)處理和頁面分析抽取共兩部分構(gòu)成,主要研究內(nèi)容包括以下四點:(1)在抽取方法的知識圖譜預(yù)處理部分中,提出了一種知識圖譜預(yù)處理算法,通過計算指定領(lǐng)域中屬性在該領(lǐng)域的領(lǐng)域值為頁面降噪提供特征信息。(2)在抽...
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究目標(biāo)及內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論及技術(shù)
2.1 WEB信息抽取技術(shù)介紹
2.1.1 基于包裝器歸納的WEB信息抽取技術(shù)
2.1.2 基于頁面模板的WEB信息抽取技術(shù)
2.1.3 基于本體的WEB信息抽取技術(shù)
2.1.4 基于視覺信息的WEB信息抽取技術(shù)
2.2 知識圖譜相關(guān)知識介紹
2.2.1 知識圖譜概念介紹
2.2.2 中文百科知識圖譜zhishi.me介紹
2.3 相關(guān)開源工具及框架介紹
2.3.1 Selenium介紹
2.3.2 ElasticSearch介紹
2.3.3 Spring框架介紹
2.4 本章小結(jié)
第三章 系統(tǒng)需求分析
3.1 系統(tǒng)需求范圍界定
3.1.1 待抽取電商頁面中的噪聲
3.1.2 待抽取電商網(wǎng)頁中的頁面結(jié)構(gòu)
3.2 系統(tǒng)功能需求分析
3.3 系統(tǒng)非功能需求分析
3.4 本章小結(jié)
第四章 基于知識圖譜的電商信息抽取方法
4.1 方法概述
4.2 知識圖譜預(yù)處理算法
4.3 商品搜索結(jié)果頁抽取算法
4.3.1 頁面分塊
4.3.2 頁面特征提取
4.3.3 頁面降噪
4.3.4 頁面抽取
4.4 商品信息詳情頁抽取算法
4.4.1 頁面分塊
4.4.2 頁面特征提取
4.4.3 頁面降噪
4.4.4 頁面抽取
4.5 實驗與結(jié)果分析
4.5.1 實驗數(shù)據(jù)
4.5.2 實驗方法
4.5.3 實驗結(jié)果
4.6 本章小結(jié)
第五章 系統(tǒng)設(shè)計實現(xiàn)與測試
5.1 系統(tǒng)概要設(shè)計
5.1.1 系統(tǒng)整體架構(gòu)設(shè)計
5.1.2 任務(wù)管理模塊概要設(shè)計
5.1.3 知識圖譜服務(wù)模塊概要設(shè)計
5.1.4 頁面分析與抽取模塊概要設(shè)計
5.2 系統(tǒng)詳細設(shè)計與實現(xiàn)
5.2.1 任務(wù)管理模塊詳細設(shè)計與實現(xiàn)
5.2.2 知識圖譜服務(wù)模塊詳細設(shè)計與實現(xiàn)
5.2.3 頁面分析與抽取模塊詳細設(shè)計與實現(xiàn)
5.3 系統(tǒng)測試
5.3.1 系統(tǒng)測試環(huán)境
5.3.2 任務(wù)創(chuàng)建功能測試
5.3.3 任務(wù)查詢功能測試
5.3.4 任務(wù)執(zhí)行功能測試
5.3.5 任務(wù)抽取結(jié)果查看功能測試
5.3.6 任務(wù)重置功能測試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
本文編號:3885482
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究目標(biāo)及內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論及技術(shù)
2.1 WEB信息抽取技術(shù)介紹
2.1.1 基于包裝器歸納的WEB信息抽取技術(shù)
2.1.2 基于頁面模板的WEB信息抽取技術(shù)
2.1.3 基于本體的WEB信息抽取技術(shù)
2.1.4 基于視覺信息的WEB信息抽取技術(shù)
2.2 知識圖譜相關(guān)知識介紹
2.2.1 知識圖譜概念介紹
2.2.2 中文百科知識圖譜zhishi.me介紹
2.3 相關(guān)開源工具及框架介紹
2.3.1 Selenium介紹
2.3.2 ElasticSearch介紹
2.3.3 Spring框架介紹
2.4 本章小結(jié)
第三章 系統(tǒng)需求分析
3.1 系統(tǒng)需求范圍界定
3.1.1 待抽取電商頁面中的噪聲
3.1.2 待抽取電商網(wǎng)頁中的頁面結(jié)構(gòu)
3.2 系統(tǒng)功能需求分析
3.3 系統(tǒng)非功能需求分析
3.4 本章小結(jié)
第四章 基于知識圖譜的電商信息抽取方法
4.1 方法概述
4.2 知識圖譜預(yù)處理算法
4.3 商品搜索結(jié)果頁抽取算法
4.3.1 頁面分塊
4.3.2 頁面特征提取
4.3.3 頁面降噪
4.3.4 頁面抽取
4.4 商品信息詳情頁抽取算法
4.4.1 頁面分塊
4.4.2 頁面特征提取
4.4.3 頁面降噪
4.4.4 頁面抽取
4.5 實驗與結(jié)果分析
4.5.1 實驗數(shù)據(jù)
4.5.2 實驗方法
4.5.3 實驗結(jié)果
4.6 本章小結(jié)
第五章 系統(tǒng)設(shè)計實現(xiàn)與測試
5.1 系統(tǒng)概要設(shè)計
5.1.1 系統(tǒng)整體架構(gòu)設(shè)計
5.1.2 任務(wù)管理模塊概要設(shè)計
5.1.3 知識圖譜服務(wù)模塊概要設(shè)計
5.1.4 頁面分析與抽取模塊概要設(shè)計
5.2 系統(tǒng)詳細設(shè)計與實現(xiàn)
5.2.1 任務(wù)管理模塊詳細設(shè)計與實現(xiàn)
5.2.2 知識圖譜服務(wù)模塊詳細設(shè)計與實現(xiàn)
5.2.3 頁面分析與抽取模塊詳細設(shè)計與實現(xiàn)
5.3 系統(tǒng)測試
5.3.1 系統(tǒng)測試環(huán)境
5.3.2 任務(wù)創(chuàng)建功能測試
5.3.3 任務(wù)查詢功能測試
5.3.4 任務(wù)執(zhí)行功能測試
5.3.5 任務(wù)抽取結(jié)果查看功能測試
5.3.6 任務(wù)重置功能測試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
本文編號:3885482
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3885482.html
最近更新
教材專著