基于DOM樹的電子商務(wù)網(wǎng)站信息抽取技術(shù)研究
本文關(guān)鍵詞:基于DOM樹的電子商務(wù)網(wǎng)站信息抽取技術(shù)研究
更多相關(guān)文章: 電子商務(wù)網(wǎng)站 DOM樹 關(guān)鍵詞組 信息抽取 可適應(yīng)性
【摘要】:隨著互聯(lián)網(wǎng)的日漸普及與發(fā)展,網(wǎng)絡(luò)信息日益增多,大量無關(guān)信息存儲在網(wǎng)絡(luò)大環(huán)境中,完全依靠人去查找有價值的信息已經(jīng)不太現(xiàn)實。然而現(xiàn)代社會人們對于有效信息的需求量不斷增加,怎樣從繁多的信息中找到對自己有價值的信息,滿足自身的信息需求,逐漸成為當(dāng)前研究的熱門課題。信息抽取正是解決當(dāng)前問題的一種有效方法,目前,一些抽取工具已經(jīng)在日常生活當(dāng)中得到了實際應(yīng)用,信息抽取技術(shù)也在發(fā)現(xiàn)問題解決問題的過程中不斷優(yōu)化完善,F(xiàn)在信息量的爆炸式增長主要是因為互聯(lián)網(wǎng)的不斷發(fā)展與成熟,由于網(wǎng)上信息資源的差異性和組織分散性,使得大量的查閱和提取互聯(lián)網(wǎng)上的信息受到一定程度的限制,web信息抽取技術(shù)的理想效果是能夠自動地將網(wǎng)頁包含的信息轉(zhuǎn)化為具有一定語義的結(jié)構(gòu)化數(shù)據(jù)。本文采用web信息抽取技術(shù)來對用戶感興趣的信息項進行提取,構(gòu)建信息抽取模型,設(shè)計信息抽取系統(tǒng)完成對網(wǎng)頁信息的抽取。 本文的抽取信息源來自電子商務(wù)網(wǎng)頁,以某類商品作為數(shù)據(jù)源,來設(shè)計本文的Web信息抽取系統(tǒng)。首先說明本課題的當(dāng)前研究現(xiàn)狀,從現(xiàn)狀分析研究的不足之處,從而引出本課題的研究意義之所在。同時對電子商務(wù)網(wǎng)站、DOM、信息抽取的知識進行了簡單概述;然后根據(jù)電子商務(wù)網(wǎng)站的結(jié)構(gòu)特征,將DOM引入到Web信息抽取技術(shù)中,使得本文抽取算法的實現(xiàn)成為可能。論文研究重點是設(shè)計適用于抽取電子商務(wù)網(wǎng)站某類產(chǎn)品信息的抽取模塊。首先對于一定量的同類商品網(wǎng)頁通過聚類方法找到關(guān)鍵詞組(我們要抽取的商品信息項),然后結(jié)合DOM樹的可操作性,通過Web信息抽取算法實現(xiàn)對商品網(wǎng)頁信息的抽取。其次,對提取關(guān)鍵詞組和信息抽取模塊的設(shè)計進行了重點的研究。最后,實現(xiàn)了界面簡單且容易上手,用戶體驗效果較佳的信息抽取系統(tǒng),對電子商務(wù)站點進行信息抽取,,從中可以清楚的看到商品信息項的結(jié)構(gòu)化數(shù)據(jù)。 將基于DOM樹的信息抽取方法與其他方法相比,理論上精確商品關(guān)鍵詞組可以提高信息抽取查準(zhǔn)率,論文的研究有助于信息抽取的可適應(yīng)性以及查準(zhǔn)查全率的提高,具有一定的實際意義。
【關(guān)鍵詞】:電子商務(wù)網(wǎng)站 DOM樹 關(guān)鍵詞組 信息抽取 可適應(yīng)性
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【目錄】:
- 摘要7-8
- ABSTRACT8-10
- 第一章 緒論10-13
- 1.1 課題研究的背景與意義10
- 1.2 國內(nèi)外的研究現(xiàn)狀與發(fā)展趨勢10-11
- 1.3 論文組織結(jié)構(gòu)11-13
- 第二章 相關(guān)理論與技術(shù)13-29
- 2.1 HTML13-14
- 2.2 XML14-15
- 2.3 DOM介紹15-21
- 2.3.1 DOM概述15
- 2.3.2 DOM的內(nèi)部邏輯結(jié)構(gòu)15-16
- 2.3.3 DOM的基本接口16-18
- 2.3.4 H T ML 、 X ML 文檔解析成 DOM樹18
- 2.3.5 DOM文檔的遍歷18-20
- 2.3.6 文檔對象模型中文本節(jié)點的處理20
- 2.3.7 DOM文檔節(jié)點屬性的處理20
- 2.3.8 節(jié)點的處理20-21
- 2.3.9 文檔對象的序列化21
- 2.4 電子商務(wù)網(wǎng)站的概述21-23
- 2.4.1 電子商務(wù)網(wǎng)站的概念21
- 2.4.2 電子商務(wù)網(wǎng)站建立的作用21-22
- 2.4.3 電子商務(wù)網(wǎng)站的分類22-23
- 2.5 信息抽取23-27
- 2.5.1 信息抽取的概述23
- 2.5.2 信息抽取的關(guān)鍵技術(shù)23-24
- 2.5.3 Web 信息抽取的概念24-25
- 2.5.4 Web 信息抽取方法分析25-26
- 2.5.5 目前的 We b 信息抽取存在的問題26-27
- 2.6 網(wǎng)頁抓取工具27
- 2.7 本章小結(jié)27-29
- 第三章 電子商務(wù)網(wǎng)站商品關(guān)鍵詞組的構(gòu)建29-35
- 3.1 關(guān)鍵詞聚類29
- 3.2 確定商品的關(guān)鍵詞組29-31
- 3.2.1 確定商品關(guān)鍵詞組的步驟29-30
- 3.2.2 確定商品關(guān)鍵詞組的算法30-31
- 3.3 利用關(guān)鍵詞聚類方法獲得商品關(guān)鍵詞組實例分析31-32
- 3.4 商品關(guān)鍵詞組的后期維護32-34
- 3.5 本章小結(jié)34-35
- 第四章 基于 DOM 樹的電子商務(wù)網(wǎng)站信息抽取算法35-40
- 4.1 基于 DOM 樹的信息抽取方法35-36
- 4.2 基于 DOM 樹的多信息塊信息抽取算法36-38
- 4.3 基于 DOM 樹的多信息塊信息抽取算法分析38
- 4.3.1 算法復(fù)雜度38
- 4.3.2 可適應(yīng)性38
- 4.4 本章小結(jié)38-40
- 第五章 基于 D O M 樹的電子商務(wù)網(wǎng)站信息抽取系統(tǒng)40-52
- 5.1 信息抽取系統(tǒng)整體流程圖40-41
- 5.2 信息抽取系統(tǒng)設(shè)計41-42
- 5.2.1 系統(tǒng)模塊開發(fā)工具41-42
- 5.2.2 系統(tǒng)開發(fā)技術(shù)42
- 5.3 系統(tǒng)模塊實現(xiàn)42-48
- 5.3.1 網(wǎng)頁數(shù)據(jù)源的獲取42-44
- 5.3.2 信息抽取模塊44-47
- 5.3.3 抽取結(jié)果的存儲47-48
- 5.4 系統(tǒng)設(shè)計48-49
- 5.4.1 設(shè)計原則48
- 5.4.2 系統(tǒng)界面48-49
- 5.5 信息抽取系統(tǒng)性能評價49-51
- 5.5.1 信息抽取系統(tǒng)評價標(biāo)準(zhǔn)49-50
- 5.5.2 試驗結(jié)果分析50-51
- 5.6 本章小結(jié)51-52
- 第六章 總結(jié)與展望52-54
- 參考文獻54-57
- 攻讀碩士學(xué)位期間發(fā)表的論文和參與的項目57-58
- 致謝58
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李衛(wèi)東;;基于DOM的半結(jié)構(gòu)化網(wǎng)頁信息抽取算法[J];河北省科學(xué)院學(xué)報;2009年01期
2 胡東東,孟小峰;一種基于樹結(jié)構(gòu)的Web數(shù)據(jù)自動抽取方法[J];計算機研究與發(fā)展;2004年10期
3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
4 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應(yīng)用;2003年10期
5 鄧健爽;鄭啟倫;彭宏;林旭東;;基于關(guān)鍵詞聚類和節(jié)點距離的網(wǎng)頁信息抽取[J];計算機科學(xué);2007年04期
6 李朝;彭宏;葉蘇南;張歡;楊親遙;;基于DOM樹的可適應(yīng)性Web信息抽取[J];計算機科學(xué);2009年07期
7 顧韻華;田偉;;基于DOM模型擴展的Web信息提取[J];計算機科學(xué);2009年11期
8 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機應(yīng)用研究;2010年12期
9 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期
10 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報;2004年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 周順先;文本信息抽取模型及算法研究[D];湖南大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 賴春波;Web信息自動抽取技術(shù)研究[D];浙江大學(xué);2008年
2 段明秀;層次聚類算法的研究及應(yīng)用[D];中南大學(xué);2009年
本文編號:886749
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/886749.html