當(dāng)前位置：主頁 > 經(jīng)濟論文 > 電子商務(wù)論文 >

基于DOM樹的電子商務(wù)網(wǎng)站信息抽取技術(shù)研究

發(fā)布時間：2017-09-20 07:36

本文關(guān)鍵詞：基于DOM樹的電子商務(wù)網(wǎng)站信息抽取技術(shù)研究

【摘要】：隨著互聯(lián)網(wǎng)的日漸普及與發(fā)展，網(wǎng)絡(luò)信息日益增多，大量無關(guān)信息存儲在網(wǎng)絡(luò)大環(huán)境中，完全依靠人去查找有價值的信息已經(jīng)不太現(xiàn)實。然而現(xiàn)代社會人們對于有效信息的需求量不斷增加，怎樣從繁多的信息中找到對自己有價值的信息，滿足自身的信息需求，逐漸成為當(dāng)前研究的熱門課題。信息抽取正是解決當(dāng)前問題的一種有效方法，目前，一些抽取工具已經(jīng)在日常生活當(dāng)中得到了實際應(yīng)用，信息抽取技術(shù)也在發(fā)現(xiàn)問題解決問題的過程中不斷優(yōu)化完善�，F(xiàn)在信息量的爆炸式增長主要是因為互聯(lián)網(wǎng)的不斷發(fā)展與成熟，由于網(wǎng)上信息資源的差異性和組織分散性，使得大量的查閱和提取互聯(lián)網(wǎng)上的信息受到一定程度的限制，web信息抽取技術(shù)的理想效果是能夠自動地將網(wǎng)頁包含的信息轉(zhuǎn)化為具有一定語義的結(jié)構(gòu)化數(shù)據(jù)。本文采用web信息抽取技術(shù)來對用戶感興趣的信息項進行提取，構(gòu)建信息抽取模型，設(shè)計信息抽取系統(tǒng)完成對網(wǎng)頁信息的抽取。本文的抽取信息源來自電子商務(wù)網(wǎng)頁，以某類商品作為數(shù)據(jù)源，來設(shè)計本文的Web信息抽取系統(tǒng)。首先說明本課題的當(dāng)前研究現(xiàn)狀，從現(xiàn)狀分析研究的不足之處，從而引出本課題的研究意義之所在。同時對電子商務(wù)網(wǎng)站、DOM、信息抽取的知識進行了簡單概述；然后根據(jù)電子商務(wù)網(wǎng)站的結(jié)構(gòu)特征，將DOM引入到Web信息抽取技術(shù)中，使得本文抽取算法的實現(xiàn)成為可能。論文研究重點是設(shè)計適用于抽取電子商務(wù)網(wǎng)站某類產(chǎn)品信息的抽取模塊。首先對于一定量的同類商品網(wǎng)頁通過聚類方法找到關(guān)鍵詞組（我們要抽取的商品信息項），然后結(jié)合DOM樹的可操作性，通過Web信息抽取算法實現(xiàn)對商品網(wǎng)頁信息的抽取。其次，對提取關(guān)鍵詞組和信息抽取模塊的設(shè)計進行了重點的研究。最后，實現(xiàn)了界面簡單且容易上手，用戶體驗效果較佳的信息抽取系統(tǒng)，對電子商務(wù)站點進行信息抽取，，從中可以清楚的看到商品信息項的結(jié)構(gòu)化數(shù)據(jù)。將基于DOM樹的信息抽取方法與其他方法相比，理論上精確商品關(guān)鍵詞組可以提高信息抽取查準(zhǔn)率，論文的研究有助于信息抽取的可適應(yīng)性以及查準(zhǔn)查全率的提高，具有一定的實際意義。
【關(guān)鍵詞】：電子商務(wù)網(wǎng)站 DOM樹 關(guān)鍵詞組 信息抽取 可適應(yīng)性
【學(xué)位授予單位】：山東師范大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2013
【分類號】：TP391.1
【目錄】：

摘要7-8
ABSTRACT8-10
第一章緒論10-13
1.1 課題研究的背景與意義10
1.2 國內(nèi)外的研究現(xiàn)狀與發(fā)展趨勢10-11
1.3 論文組織結(jié)構(gòu)11-13
第二章相關(guān)理論與技術(shù)13-29
2.1 HTML13-14
2.2 XML14-15
2.3 DOM介紹15-21
2.3.1 DOM概述15
2.3.2 DOM的內(nèi)部邏輯結(jié)構(gòu)15-16
2.3.3 DOM的基本接口16-18
2.3.4 H T ML 、 X ML 文檔解析成 DOM樹18
2.3.5 DOM文檔的遍歷18-20
2.3.6 文檔對象模型中文本節(jié)點的處理20
2.3.7 DOM文檔節(jié)點屬性的處理20
2.3.8 節(jié)點的處理20-21
2.3.9 文檔對象的序列化21
2.4 電子商務(wù)網(wǎng)站的概述21-23
2.4.1 電子商務(wù)網(wǎng)站的概念21
2.4.2 電子商務(wù)網(wǎng)站建立的作用21-22
2.4.3 電子商務(wù)網(wǎng)站的分類22-23
2.5 信息抽取23-27
2.5.1 信息抽取的概述23
2.5.2 信息抽取的關(guān)鍵技術(shù)23-24
2.5.3 Web 信息抽取的概念24-25
2.5.4 Web 信息抽取方法分析25-26
2.5.5 目前的 We b 信息抽取存在的問題26-27
2.6 網(wǎng)頁抓取工具27
2.7 本章小結(jié)27-29
第三章電子商務(wù)網(wǎng)站商品關(guān)鍵詞組的構(gòu)建29-35
3.1 關(guān)鍵詞聚類29
3.2 確定商品的關(guān)鍵詞組29-31
3.2.1 確定商品關(guān)鍵詞組的步驟29-30
3.2.2 確定商品關(guān)鍵詞組的算法30-31
3.3 利用關(guān)鍵詞聚類方法獲得商品關(guān)鍵詞組實例分析31-32
3.4 商品關(guān)鍵詞組的后期維護32-34
3.5 本章小結(jié)34-35
第四章基于 DOM 樹的電子商務(wù)網(wǎng)站信息抽取算法35-40
4.1 基于 DOM 樹的信息抽取方法35-36
4.2 基于 DOM 樹的多信息塊信息抽取算法36-38
4.3 基于 DOM 樹的多信息塊信息抽取算法分析38
4.3.1 算法復(fù)雜度38
4.3.2 可適應(yīng)性38
4.4 本章小結(jié)38-40
第五章基于 D O M 樹的電子商務(wù)網(wǎng)站信息抽取系統(tǒng)40-52
5.1 信息抽取系統(tǒng)整體流程圖40-41
5.2 信息抽取系統(tǒng)設(shè)計41-42
5.2.1 系統(tǒng)模塊開發(fā)工具41-42
5.2.2 系統(tǒng)開發(fā)技術(shù)42
5.3 系統(tǒng)模塊實現(xiàn)42-48
5.3.1 網(wǎng)頁數(shù)據(jù)源的獲取42-44
5.3.2 信息抽取模塊44-47
5.3.3 抽取結(jié)果的存儲47-48
5.4 系統(tǒng)設(shè)計48-49
5.4.1 設(shè)計原則48
5.4.2 系統(tǒng)界面48-49
5.5 信息抽取系統(tǒng)性能評價49-51
5.5.1 信息抽取系統(tǒng)評價標(biāo)準(zhǔn)49-50
5.5.2 試驗結(jié)果分析50-51
5.6 本章小結(jié)51-52
第六章總結(jié)與展望52-54
參考文獻54-57
攻讀碩士學(xué)位期間發(fā)表的論文和參與的項目57-58
致謝58

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 李衛(wèi)東;;基于DOM的半結(jié)構(gòu)化網(wǎng)頁信息抽取算法[J];河北省科學(xué)院學(xué)報;2009年01期

2 胡東東,孟小峰;一種基于樹結(jié)構(gòu)的Web數(shù)據(jù)自動抽取方法[J];計算機研究與發(fā)展;2004年10期

3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期

4 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應(yīng)用;2003年10期

5 鄧健爽;鄭啟倫;彭宏;林旭東;;基于關(guān)鍵詞聚類和節(jié)點距離的網(wǎng)頁信息抽取[J];計算機科學(xué);2007年04期

6 李朝;彭宏;葉蘇南;張歡;楊親遙;;基于DOM樹的可適應(yīng)性Web信息抽取[J];計算機科學(xué);2009年07期

7 顧韻華;田偉;;基于DOM模型擴展的Web信息提取[J];計算機科學(xué);2009年11期

8 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機應(yīng)用研究;2010年12期

9 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期

10 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報;2004年05期

中國博士學(xué)位論文全文數(shù)據(jù)庫前1條

1 周順先;文本信息抽取模型及算法研究[D];湖南大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前2條

1 賴春波;Web信息自動抽取技術(shù)研究[D];浙江大學(xué);2008年

2 段明秀;層次聚類算法的研究及應(yīng)用[D];中南大學(xué);2009年

本文編號：886749

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/jingjilunwen/dianzishangwulunwen/886749.html

上一篇：電子商務(wù)信用中介承擔(dān)的經(jīng)濟性作用
下一篇：淺析移動網(wǎng)絡(luò)支付的安全通信協(xié)議

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于DOM樹的電子商務(wù)網(wǎng)站信息抽取技術(shù)研究