基于網(wǎng)頁列表的商品信息自動提取關(guān)鍵技術(shù)研究
發(fā)布時間:2023-04-28 18:04
電子商務的普及使得利用電子商務進行購物的用戶飛速增長,但隨著網(wǎng)絡上的商品信息越來越多,如何快速有效地從海量的商品信息中選擇出用戶需要的商品成為用戶關(guān)心的重要問題,F(xiàn)有的互聯(lián)網(wǎng)上商品信息大都是半結(jié)構(gòu)化的數(shù)據(jù),同時不同的網(wǎng)站數(shù)據(jù)的網(wǎng)站結(jié)構(gòu)和提供給用戶的檢索接口都不一樣,因而無法直接給用戶提供的統(tǒng)一的查詢接口,用戶在不同網(wǎng)站檢索相關(guān)的信息需要調(diào)用不同的網(wǎng)站的檢索接口。為了能高速的檢索出需要的信息,需要給用戶提供一個統(tǒng)一的檢索接口。為了以統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)提供給用戶,需要將網(wǎng)絡上的半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一結(jié)構(gòu)的結(jié)構(gòu)化數(shù)據(jù),然后將結(jié)構(gòu)化的數(shù)據(jù)進行索引,提供統(tǒng)一的檢索接口給用戶。 由于網(wǎng)頁中商品信息大多是以列表的形式展示出來,列表信息所在的區(qū)域就商品信息所在的區(qū)域,列表作為信息載體具有結(jié)構(gòu)一致性的特點,論文針對列表結(jié)構(gòu)一致性提出了一個基于網(wǎng)頁列表結(jié)構(gòu)的全自動信息提取算法和基于機器學習的文本自動歸類算。在信息抽取算法中,首先利用網(wǎng)站的同構(gòu)性去除網(wǎng)頁中與商品信息無關(guān)的部分,無關(guān)信息去除主要是通過將網(wǎng)頁轉(zhuǎn)化為標簽樹的結(jié)構(gòu),通過樹比較算法,找出不同網(wǎng)頁中相同的信息,剪去無關(guān)的信息;然后提出一種頻繁序列挖掘算...
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 引言
1.2 選題背景與意義
1.3 論文工作
1.4 本章小結(jié)
第2章 網(wǎng)頁信息抽取技術(shù)綜述
2.1 國內(nèi)外研究現(xiàn)狀
2.1.1 人工信息抽取系統(tǒng)研究現(xiàn)狀
2.1.2 半自動化信息抽取系統(tǒng)
2.1.3 自動化信息抽取系統(tǒng)
2.2 本章小結(jié)
第3章 系統(tǒng)體系結(jié)構(gòu)
3.1 系統(tǒng)總體架構(gòu)
3.2 相關(guān)技術(shù)介紹
3.3 本章小結(jié)
第4章 基于網(wǎng)頁列表的商品信息抽取算法
4.1 網(wǎng)頁無關(guān)信息清理算法
4.2 DOM樹轉(zhuǎn)化為PAT樹算法
4.3 重復序列提取算法
4.4 實驗結(jié)果
4.5 本章小結(jié)
第5章 基于決策樹的文本信息分類算法
5.1 信息過濾
5.2 信息分類
5.2.1 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
5.2.2 決策樹構(gòu)造
5.2.3 實驗數(shù)據(jù)
5.3 本章小結(jié)
第6章 系統(tǒng)實現(xiàn)
6.1 抽取功能模塊實現(xiàn)
6.1.1 信息提取和處理
6.1.2 老年人商品信息檢索頁面
6.1.3 老年人服務平臺終端
6.2 本章小結(jié)
第7章 總結(jié)和展望
7.1 總結(jié)
7.2 展望
7.2.1 改進部分
7.2.2 增加部分
參考文獻
攻讀碩士學位期間的主要研究成果
致謝
本文編號:3804201
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 引言
1.2 選題背景與意義
1.3 論文工作
1.4 本章小結(jié)
第2章 網(wǎng)頁信息抽取技術(shù)綜述
2.1 國內(nèi)外研究現(xiàn)狀
2.1.1 人工信息抽取系統(tǒng)研究現(xiàn)狀
2.1.2 半自動化信息抽取系統(tǒng)
2.1.3 自動化信息抽取系統(tǒng)
2.2 本章小結(jié)
第3章 系統(tǒng)體系結(jié)構(gòu)
3.1 系統(tǒng)總體架構(gòu)
3.2 相關(guān)技術(shù)介紹
3.3 本章小結(jié)
第4章 基于網(wǎng)頁列表的商品信息抽取算法
4.1 網(wǎng)頁無關(guān)信息清理算法
4.2 DOM樹轉(zhuǎn)化為PAT樹算法
4.3 重復序列提取算法
4.4 實驗結(jié)果
4.5 本章小結(jié)
第5章 基于決策樹的文本信息分類算法
5.1 信息過濾
5.2 信息分類
5.2.1 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
5.2.2 決策樹構(gòu)造
5.2.3 實驗數(shù)據(jù)
5.3 本章小結(jié)
第6章 系統(tǒng)實現(xiàn)
6.1 抽取功能模塊實現(xiàn)
6.1.1 信息提取和處理
6.1.2 老年人商品信息檢索頁面
6.1.3 老年人服務平臺終端
6.2 本章小結(jié)
第7章 總結(jié)和展望
7.1 總結(jié)
7.2 展望
7.2.1 改進部分
7.2.2 增加部分
參考文獻
攻讀碩士學位期間的主要研究成果
致謝
本文編號:3804201
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3804201.html
最近更新
教材專著