天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網(wǎng)頁(yè)列表的商品信息自動(dòng)提取關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2023-04-28 18:04
  電子商務(wù)的普及使得利用電子商務(wù)進(jìn)行購(gòu)物的用戶飛速增長(zhǎng),但隨著網(wǎng)絡(luò)上的商品信息越來(lái)越多,如何快速有效地從海量的商品信息中選擇出用戶需要的商品成為用戶關(guān)心的重要問(wèn)題,F(xiàn)有的互聯(lián)網(wǎng)上商品信息大都是半結(jié)構(gòu)化的數(shù)據(jù),同時(shí)不同的網(wǎng)站數(shù)據(jù)的網(wǎng)站結(jié)構(gòu)和提供給用戶的檢索接口都不一樣,因而無(wú)法直接給用戶提供的統(tǒng)一的查詢接口,用戶在不同網(wǎng)站檢索相關(guān)的信息需要調(diào)用不同的網(wǎng)站的檢索接口。為了能高速的檢索出需要的信息,需要給用戶提供一個(gè)統(tǒng)一的檢索接口。為了以統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)提供給用戶,需要將網(wǎng)絡(luò)上的半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一結(jié)構(gòu)的結(jié)構(gòu)化數(shù)據(jù),然后將結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行索引,提供統(tǒng)一的檢索接口給用戶。 由于網(wǎng)頁(yè)中商品信息大多是以列表的形式展示出來(lái),列表信息所在的區(qū)域就商品信息所在的區(qū)域,列表作為信息載體具有結(jié)構(gòu)一致性的特點(diǎn),論文針對(duì)列表結(jié)構(gòu)一致性提出了一個(gè)基于網(wǎng)頁(yè)列表結(jié)構(gòu)的全自動(dòng)信息提取算法和基于機(jī)器學(xué)習(xí)的文本自動(dòng)歸類算。在信息抽取算法中,首先利用網(wǎng)站的同構(gòu)性去除網(wǎng)頁(yè)中與商品信息無(wú)關(guān)的部分,無(wú)關(guān)信息去除主要是通過(guò)將網(wǎng)頁(yè)轉(zhuǎn)化為標(biāo)簽樹(shù)的結(jié)構(gòu),通過(guò)樹(shù)比較算法,找出不同網(wǎng)頁(yè)中相同的信息,剪去無(wú)關(guān)的信息;然后提出一種頻繁序列挖掘算...

【文章頁(yè)數(shù)】:71 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 引言
    1.2 選題背景與意義
    1.3 論文工作
    1.4 本章小結(jié)
第2章 網(wǎng)頁(yè)信息抽取技術(shù)綜述
    2.1 國(guó)內(nèi)外研究現(xiàn)狀
        2.1.1 人工信息抽取系統(tǒng)研究現(xiàn)狀
        2.1.2 半自動(dòng)化信息抽取系統(tǒng)
        2.1.3 自動(dòng)化信息抽取系統(tǒng)
    2.2 本章小結(jié)
第3章 系統(tǒng)體系結(jié)構(gòu)
    3.1 系統(tǒng)總體架構(gòu)
    3.2 相關(guān)技術(shù)介紹
    3.3 本章小結(jié)
第4章 基于網(wǎng)頁(yè)列表的商品信息抽取算法
    4.1 網(wǎng)頁(yè)無(wú)關(guān)信息清理算法
    4.2 DOM樹(shù)轉(zhuǎn)化為PAT樹(shù)算法
    4.3 重復(fù)序列提取算法
    4.4 實(shí)驗(yàn)結(jié)果
    4.5 本章小結(jié)
第5章 基于決策樹(shù)的文本信息分類算法
    5.1 信息過(guò)濾
    5.2 信息分類
        5.2.1 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
        5.2.2 決策樹(shù)構(gòu)造
        5.2.3 實(shí)驗(yàn)數(shù)據(jù)
    5.3 本章小結(jié)
第6章 系統(tǒng)實(shí)現(xiàn)
    6.1 抽取功能模塊實(shí)現(xiàn)
        6.1.1 信息提取和處理
        6.1.2 老年人商品信息檢索頁(yè)面
        6.1.3 老年人服務(wù)平臺(tái)終端
    6.2 本章小結(jié)
第7章 總結(jié)和展望
    7.1 總結(jié)
    7.2 展望
        7.2.1 改進(jìn)部分
        7.2.2 增加部分
參考文獻(xiàn)
攻讀碩士學(xué)位期間的主要研究成果
致謝



本文編號(hào):3804201

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3804201.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b35a2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com