面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究
發(fā)布時間:2017-03-26 14:09
本文關(guān)鍵詞:面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已成為海量信息的載體,如何從海量信息中準(zhǔn)確、快速地抽取出有價值的信息已成為人們迫切需要解決的一大難題。電子商務(wù)網(wǎng)站具有動態(tài)Web頁面、頁面結(jié)構(gòu)化程度高以及信息數(shù)量巨大且內(nèi)容豐富等特點(diǎn)。實際上,電子商務(wù)網(wǎng)站屬于Deep Web,Deep Web指的是存儲在數(shù)據(jù)庫中、不能通過靜態(tài)超鏈接訪問而需要通過動態(tài)網(wǎng)頁技術(shù)訪問的信息,用戶需要向特定的查詢接口提交查詢請求后才能訪問數(shù)據(jù)庫中的數(shù)據(jù)。深度搜索就是針對Deep Web進(jìn)行搜索。Deep Web不僅信息量大,而且具有面向某一領(lǐng)域、結(jié)構(gòu)化程度較高且可以公開訪問等特點(diǎn)。本文選擇電子商務(wù)網(wǎng)站作為深度搜索的對象,研究商品信息的抽取。電子商務(wù)網(wǎng)站的站內(nèi)搜索引擎為研究人員對網(wǎng)站進(jìn)行深度搜索提供了便利,它可以根據(jù)用戶輸入的關(guān)鍵詞,將與之相關(guān)的數(shù)據(jù)庫內(nèi)容以網(wǎng)頁的形式動態(tài)呈現(xiàn)出來。我們可以利用這類查詢接口進(jìn)行深度搜索,通過模擬關(guān)鍵詞的填充和提交,來獲取我們需要的頁面。 通過深度搜索所獲得的頁面內(nèi)含有大量商品信息,我們以此為信息源進(jìn)行信息抽取。信息抽取研究中最關(guān)鍵的技術(shù)在于如何生成抽取規(guī)則,生成的方法有很多,但從生成的手段來說可以分為兩種,一種是自動生成抽取規(guī)則,另一種是人工編寫抽取規(guī)則,兩種方法各有優(yōu)缺點(diǎn),有著各自的適用范圍。自動生成的方法有利于針對不同結(jié)構(gòu)的網(wǎng)站,但準(zhǔn)確率較低;而人工編寫的方法雖然需要人工參與,但抽取結(jié)果較為精確。本文針對電子商務(wù)網(wǎng)站進(jìn)行信息抽取,抽取商品的各種信息,主要包括商品名稱、價格、運(yùn)費(fèi)、商品相關(guān)信息等內(nèi)容。由于同一網(wǎng)站下的子頁面結(jié)構(gòu)大體相同,因此,為了獲得更為精確的抽取結(jié)果,我們采用了人工編寫抽取規(guī)則的方法。 本文的主要內(nèi)容及創(chuàng)新點(diǎn)如下: 1、設(shè)計一個關(guān)鍵詞庫接口,使得系統(tǒng)可以接受關(guān)鍵詞庫文件(文本文件,關(guān)鍵詞之間以回車符隔開),將關(guān)鍵詞庫文件內(nèi)的關(guān)鍵詞一一導(dǎo)入至系統(tǒng)中,用于表單的自動填充和提交。另外,考慮到了效率問題,讓系統(tǒng)在導(dǎo)入新關(guān)鍵詞庫文件時與舊關(guān)鍵詞庫進(jìn)行對比,判斷出新關(guān)鍵詞,最后只接受更新的那一部分關(guān)鍵詞,即達(dá)到關(guān)鍵詞增量更新的目的。 2、提取電子商務(wù)網(wǎng)站的HTML源碼,通過對HTML源碼進(jìn)行分析,提取出網(wǎng)站中包含查詢表單的那部分HTML源碼。根據(jù)這部分HTML源碼,利用WebBrowser控件方法對這些查詢表單自動模擬關(guān)鍵詞的填充和提交,用以獲得每一個關(guān)鍵詞所對應(yīng)的初始頁面。 3、選擇性的提取鏈接,只提取初始頁面中的商品信息鏈接,而不提取廣告和友情鏈接。另外,由于商品信息鏈接有多頁,因此還需要通過獲取“下一頁”鏈接來得到更多更全的商品信息鏈接。本文介紹了多種獲取“下一頁”鏈接的方法,并提出了一個通用性較好的方法。 4、通過正則表達(dá)式來定義抽取規(guī)則,根據(jù)不同的頁面結(jié)構(gòu)編寫相應(yīng)的正則表達(dá)式,從而進(jìn)行信息抽取。抽取的結(jié)果以文本文件的格式保存,便于對關(guān)鍵詞庫文件進(jìn)行更新。
【關(guān)鍵詞】:深度搜索 Deep Web Web信息抽取 URL提取 正則表達(dá)式
【學(xué)位授予單位】:江西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP393.092
【目錄】:
- 摘要3-5
- Abstract5-9
- 第1章 緒論9-12
- 1.1 課題的研究背景及意義9-10
- 1.2 本文主要內(nèi)容10-11
- 1.3 論文組織結(jié)構(gòu)11-12
- 第2章 深度搜索相關(guān)研究綜述12-19
- 2.1 搜索引擎研究綜述12-15
- 2.1.1 搜索引擎的概念12
- 2.1.2 搜索引擎的工作原理12-13
- 2.1.3 搜索引擎的分類13-15
- 2.2 深度搜索研究綜述15-18
- 2.2.1 Deep Web 概述15-16
- 2.2.2 深度搜索的方法16-17
- 2.2.3 深度搜索的工作原理17-18
- 2.3 本章小結(jié)18-19
- 第3章 Web 信息抽取研究綜述19-29
- 3.1 Web 信息抽取的概念19
- 3.2 Web 信息抽取研究發(fā)展現(xiàn)狀19-20
- 3.3 Web 信息抽取的方法20-23
- 3.3.1 Web 信息源20-21
- 3.3.2 結(jié)構(gòu)化數(shù)據(jù)提取21
- 3.3.3 半結(jié)構(gòu)化數(shù)據(jù)提取21-23
- 3.3.4 非結(jié)構(gòu)化數(shù)據(jù)提取23
- 3.4 Web 信息抽取存在的問題23-24
- 3.5 Web 信息抽取工具M(jìn)etaSeeker24-27
- 3.5.1 MetaSeeker 簡介24-25
- 3.5.2 MetaSeeker 的應(yīng)用25-26
- 3.5.3 MetaSeeker 的優(yōu)勢與局限性26-27
- 3.6 本章小結(jié)27-29
- 第4章 深度搜索與信息抽取系統(tǒng)29-53
- 4.1 設(shè)計目標(biāo)與思路29-31
- 4.1.1 系統(tǒng)的目標(biāo)29-30
- 4.1.2 設(shè)計的基本思路30-31
- 4.2 系統(tǒng)的整體框架31-33
- 4.3 關(guān)鍵詞庫接口設(shè)計33-36
- 4.3.1 關(guān)鍵詞庫接口33-34
- 4.3.2 關(guān)鍵詞庫接口的增量更新設(shè)計34-36
- 4.4 查詢表單的處理36-40
- 4.4.1 識別查詢表單36-38
- 4.4.2 表單的自動填充與提交38-40
- 4.5 URL 提取40-45
- 4.5.1 起始頁面中鏈接的提取40-42
- 4.5.2 “下一頁”鏈接的獲取策略42-44
- 4.5.3 URL 的整理44-45
- 4.6 信息抽取45-52
- 4.6.1 獲取網(wǎng)頁源碼45-46
- 4.6.2 利用正則表達(dá)式編寫抽取規(guī)則46-50
- 4.6.3 保存抽取結(jié)果50-52
- 4.7 本章小結(jié)52-53
- 第5章 深度搜索與信息抽取系統(tǒng)評測53-57
- 5.1 實驗評測標(biāo)準(zhǔn)53-54
- 5.2 實驗結(jié)果分析54-56
- 5.3 本章小結(jié)56-57
- 第6章 總結(jié)與展望57-59
- 參考文獻(xiàn)59-62
- 致謝62-63
- 在讀期間公開發(fā)表論文(著)及科研情況63
【引證文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 梅澤勇;圖書網(wǎng)站信息集成系統(tǒng)的構(gòu)建[D];鄭州大學(xué);2012年
本文關(guān)鍵詞:面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究,由筆耕文化傳播整理發(fā)布。
本文編號:268906
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/268906.html
最近更新
教材專著