天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于DOM樹的電子商務(wù)網(wǎng)站信息抽取技術(shù)研究

發(fā)布時間:2017-09-20 07:36

  本文關(guān)鍵詞:基于DOM樹的電子商務(wù)網(wǎng)站信息抽取技術(shù)研究


  更多相關(guān)文章: 電子商務(wù)網(wǎng)站 DOM樹 關(guān)鍵詞組 信息抽取 可適應(yīng)性


【摘要】:隨著互聯(lián)網(wǎng)的日漸普及與發(fā)展,網(wǎng)絡(luò)信息日益增多,大量無關(guān)信息存儲在網(wǎng)絡(luò)大環(huán)境中,完全依靠人去查找有價值的信息已經(jīng)不太現(xiàn)實。然而現(xiàn)代社會人們對于有效信息的需求量不斷增加,怎樣從繁多的信息中找到對自己有價值的信息,滿足自身的信息需求,逐漸成為當(dāng)前研究的熱門課題。信息抽取正是解決當(dāng)前問題的一種有效方法,目前,一些抽取工具已經(jīng)在日常生活當(dāng)中得到了實際應(yīng)用,信息抽取技術(shù)也在發(fā)現(xiàn)問題解決問題的過程中不斷優(yōu)化完善,F(xiàn)在信息量的爆炸式增長主要是因為互聯(lián)網(wǎng)的不斷發(fā)展與成熟,由于網(wǎng)上信息資源的差異性和組織分散性,使得大量的查閱和提取互聯(lián)網(wǎng)上的信息受到一定程度的限制,web信息抽取技術(shù)的理想效果是能夠自動地將網(wǎng)頁包含的信息轉(zhuǎn)化為具有一定語義的結(jié)構(gòu)化數(shù)據(jù)。本文采用web信息抽取技術(shù)來對用戶感興趣的信息項進行提取,構(gòu)建信息抽取模型,設(shè)計信息抽取系統(tǒng)完成對網(wǎng)頁信息的抽取。 本文的抽取信息源來自電子商務(wù)網(wǎng)頁,以某類商品作為數(shù)據(jù)源,來設(shè)計本文的Web信息抽取系統(tǒng)。首先說明本課題的當(dāng)前研究現(xiàn)狀,從現(xiàn)狀分析研究的不足之處,從而引出本課題的研究意義之所在。同時對電子商務(wù)網(wǎng)站、DOM、信息抽取的知識進行了簡單概述;然后根據(jù)電子商務(wù)網(wǎng)站的結(jié)構(gòu)特征,將DOM引入到Web信息抽取技術(shù)中,使得本文抽取算法的實現(xiàn)成為可能。論文研究重點是設(shè)計適用于抽取電子商務(wù)網(wǎng)站某類產(chǎn)品信息的抽取模塊。首先對于一定量的同類商品網(wǎng)頁通過聚類方法找到關(guān)鍵詞組(我們要抽取的商品信息項),然后結(jié)合DOM樹的可操作性,通過Web信息抽取算法實現(xiàn)對商品網(wǎng)頁信息的抽取。其次,對提取關(guān)鍵詞組和信息抽取模塊的設(shè)計進行了重點的研究。最后,實現(xiàn)了界面簡單且容易上手,用戶體驗效果較佳的信息抽取系統(tǒng),對電子商務(wù)站點進行信息抽取,,從中可以清楚的看到商品信息項的結(jié)構(gòu)化數(shù)據(jù)。 將基于DOM樹的信息抽取方法與其他方法相比,理論上精確商品關(guān)鍵詞組可以提高信息抽取查準(zhǔn)率,論文的研究有助于信息抽取的可適應(yīng)性以及查準(zhǔn)查全率的提高,具有一定的實際意義。
【關(guān)鍵詞】:電子商務(wù)網(wǎng)站 DOM樹 關(guān)鍵詞組 信息抽取 可適應(yīng)性
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【目錄】:
  • 摘要7-8
  • ABSTRACT8-10
  • 第一章 緒論10-13
  • 1.1 課題研究的背景與意義10
  • 1.2 國內(nèi)外的研究現(xiàn)狀與發(fā)展趨勢10-11
  • 1.3 論文組織結(jié)構(gòu)11-13
  • 第二章 相關(guān)理論與技術(shù)13-29
  • 2.1 HTML13-14
  • 2.2 XML14-15
  • 2.3 DOM介紹15-21
  • 2.3.1 DOM概述15
  • 2.3.2 DOM的內(nèi)部邏輯結(jié)構(gòu)15-16
  • 2.3.3 DOM的基本接口16-18
  • 2.3.4 H T ML 、 X ML 文檔解析成 DOM樹18
  • 2.3.5 DOM文檔的遍歷18-20
  • 2.3.6 文檔對象模型中文本節(jié)點的處理20
  • 2.3.7 DOM文檔節(jié)點屬性的處理20
  • 2.3.8 節(jié)點的處理20-21
  • 2.3.9 文檔對象的序列化21
  • 2.4 電子商務(wù)網(wǎng)站的概述21-23
  • 2.4.1 電子商務(wù)網(wǎng)站的概念21
  • 2.4.2 電子商務(wù)網(wǎng)站建立的作用21-22
  • 2.4.3 電子商務(wù)網(wǎng)站的分類22-23
  • 2.5 信息抽取23-27
  • 2.5.1 信息抽取的概述23
  • 2.5.2 信息抽取的關(guān)鍵技術(shù)23-24
  • 2.5.3 Web 信息抽取的概念24-25
  • 2.5.4 Web 信息抽取方法分析25-26
  • 2.5.5 目前的 We b 信息抽取存在的問題26-27
  • 2.6 網(wǎng)頁抓取工具27
  • 2.7 本章小結(jié)27-29
  • 第三章 電子商務(wù)網(wǎng)站商品關(guān)鍵詞組的構(gòu)建29-35
  • 3.1 關(guān)鍵詞聚類29
  • 3.2 確定商品的關(guān)鍵詞組29-31
  • 3.2.1 確定商品關(guān)鍵詞組的步驟29-30
  • 3.2.2 確定商品關(guān)鍵詞組的算法30-31
  • 3.3 利用關(guān)鍵詞聚類方法獲得商品關(guān)鍵詞組實例分析31-32
  • 3.4 商品關(guān)鍵詞組的后期維護32-34
  • 3.5 本章小結(jié)34-35
  • 第四章 基于 DOM 樹的電子商務(wù)網(wǎng)站信息抽取算法35-40
  • 4.1 基于 DOM 樹的信息抽取方法35-36
  • 4.2 基于 DOM 樹的多信息塊信息抽取算法36-38
  • 4.3 基于 DOM 樹的多信息塊信息抽取算法分析38
  • 4.3.1 算法復(fù)雜度38
  • 4.3.2 可適應(yīng)性38
  • 4.4 本章小結(jié)38-40
  • 第五章 基于 D O M 樹的電子商務(wù)網(wǎng)站信息抽取系統(tǒng)40-52
  • 5.1 信息抽取系統(tǒng)整體流程圖40-41
  • 5.2 信息抽取系統(tǒng)設(shè)計41-42
  • 5.2.1 系統(tǒng)模塊開發(fā)工具41-42
  • 5.2.2 系統(tǒng)開發(fā)技術(shù)42
  • 5.3 系統(tǒng)模塊實現(xiàn)42-48
  • 5.3.1 網(wǎng)頁數(shù)據(jù)源的獲取42-44
  • 5.3.2 信息抽取模塊44-47
  • 5.3.3 抽取結(jié)果的存儲47-48
  • 5.4 系統(tǒng)設(shè)計48-49
  • 5.4.1 設(shè)計原則48
  • 5.4.2 系統(tǒng)界面48-49
  • 5.5 信息抽取系統(tǒng)性能評價49-51
  • 5.5.1 信息抽取系統(tǒng)評價標(biāo)準(zhǔn)49-50
  • 5.5.2 試驗結(jié)果分析50-51
  • 5.6 本章小結(jié)51-52
  • 第六章 總結(jié)與展望52-54
  • 參考文獻54-57
  • 攻讀碩士學(xué)位期間發(fā)表的論文和參與的項目57-58
  • 致謝58

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李衛(wèi)東;;基于DOM的半結(jié)構(gòu)化網(wǎng)頁信息抽取算法[J];河北省科學(xué)院學(xué)報;2009年01期

2 胡東東,孟小峰;一種基于樹結(jié)構(gòu)的Web數(shù)據(jù)自動抽取方法[J];計算機研究與發(fā)展;2004年10期

3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期

4 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應(yīng)用;2003年10期

5 鄧健爽;鄭啟倫;彭宏;林旭東;;基于關(guān)鍵詞聚類和節(jié)點距離的網(wǎng)頁信息抽取[J];計算機科學(xué);2007年04期

6 李朝;彭宏;葉蘇南;張歡;楊親遙;;基于DOM樹的可適應(yīng)性Web信息抽取[J];計算機科學(xué);2009年07期

7 顧韻華;田偉;;基于DOM模型擴展的Web信息提取[J];計算機科學(xué);2009年11期

8 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機應(yīng)用研究;2010年12期

9 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期

10 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報;2004年05期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 周順先;文本信息抽取模型及算法研究[D];湖南大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 賴春波;Web信息自動抽取技術(shù)研究[D];浙江大學(xué);2008年

2 段明秀;層次聚類算法的研究及應(yīng)用[D];中南大學(xué);2009年



本文編號:886749

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/886749.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a14f3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品国产丝袜一区二区| 欧美一区日韩二区亚洲三区| 亚洲欧美一二区日韩高清在线| 日本人妻的诱惑在线观看| 偷拍美女洗澡免费视频| 国产亚洲精品久久99| 国产日韩久久精品一区| 国产成人精品国内自产拍| 久久99亚洲小姐精品综合| 午夜小视频成人免费看| 国产传媒中文字幕东京热| 亚洲精品日韩欧美精品| 国产又色又粗又黄又爽| 日本精品最新字幕视频播放| 开心五月激情综合婷婷色| 人妻少妇av中文字幕乱码高清| 午夜福利网午夜福利网| 亚洲最新av在线观看| 国产肥女老熟女激情视频一区 | 美女黄色三级深夜福利| 天堂av一区一区一区| 欧美日韩亚洲国产精品| 亚洲a码一区二区三区| 九九热在线视频精品免费| 好吊妞视频这里有精品| 日韩一级欧美一级久久| 久久偷拍视频免费观看| 国产在线日韩精品欧美| 黑丝国产精品一区二区| 美女被啪的视频在线观看| 日韩和欧美的一区二区三区 | 久久青青草原中文字幕| 欧美亚洲另类久久久精品| 日韩不卡一区二区三区色图| 中文字幕av诱惑一区二区| 国产毛片对白精品看片| 久久碰国产一区二区三区| 国产又粗又长又大高潮视频| 中文字幕精品人妻一区| 亚洲欧美日产综合在线网| 欧美日韩国产成人高潮|