當(dāng)前位置：主頁 > 經(jīng)濟(jì)論文 > 電子商務(wù)論文 >

面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究

發(fā)布時間：2017-03-26 14:09

本文關(guān)鍵詞：面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已成為海量信息的載體,如何從海量信息中準(zhǔn)確、快速地抽取出有價值的信息已成為人們迫切需要解決的一大難題。電子商務(wù)網(wǎng)站具有動態(tài)Web頁面、頁面結(jié)構(gòu)化程度高以及信息數(shù)量巨大且內(nèi)容豐富等特點。實際上,電子商務(wù)網(wǎng)站屬于Deep Web,Deep Web指的是存儲在數(shù)據(jù)庫中、不能通過靜態(tài)超鏈接訪問而需要通過動態(tài)網(wǎng)頁技術(shù)訪問的信息,用戶需要向特定的查詢接口提交查詢請求后才能訪問數(shù)據(jù)庫中的數(shù)據(jù)。深度搜索就是針對Deep Web進(jìn)行搜索。Deep Web不僅信息量大,而且具有面向某一領(lǐng)域、結(jié)構(gòu)化程度較高且可以公開訪問等特點。本文選擇電子商務(wù)網(wǎng)站作為深度搜索的對象,研究商品信息的抽取。電子商務(wù)網(wǎng)站的站內(nèi)搜索引擎為研究人員對網(wǎng)站進(jìn)行深度搜索提供了便利,它可以根據(jù)用戶輸入的關(guān)鍵詞,將與之相關(guān)的數(shù)據(jù)庫內(nèi)容以網(wǎng)頁的形式動態(tài)呈現(xiàn)出來。我們可以利用這類查詢接口進(jìn)行深度搜索,通過模擬關(guān)鍵詞的填充和提交,來獲取我們需要的頁面。通過深度搜索所獲得的頁面內(nèi)含有大量商品信息,我們以此為信息源進(jìn)行信息抽取。信息抽取研究中最關(guān)鍵的技術(shù)在于如何生成抽取規(guī)則,生成的方法有很多,但從生成的手段來說可以分為兩種,一種是自動生成抽取規(guī)則,另一種是人工編寫抽取規(guī)則,兩種方法各有優(yōu)缺點,有著各自的適用范圍。自動生成的方法有利于針對不同結(jié)構(gòu)的網(wǎng)站,但準(zhǔn)確率較低;而人工編寫的方法雖然需要人工參與,但抽取結(jié)果較為精確。本文針對電子商務(wù)網(wǎng)站進(jìn)行信息抽取,抽取商品的各種信息,主要包括商品名稱、價格、運(yùn)費、商品相關(guān)信息等內(nèi)容。由于同一網(wǎng)站下的子頁面結(jié)構(gòu)大體相同,因此,為了獲得更為精確的抽取結(jié)果,我們采用了人工編寫抽取規(guī)則的方法。本文的主要內(nèi)容及創(chuàng)新點如下: 1、設(shè)計一個關(guān)鍵詞庫接口,使得系統(tǒng)可以接受關(guān)鍵詞庫文件(文本文件,關(guān)鍵詞之間以回車符隔開),將關(guān)鍵詞庫文件內(nèi)的關(guān)鍵詞一一導(dǎo)入至系統(tǒng)中,用于表單的自動填充和提交。另外,考慮到了效率問題,讓系統(tǒng)在導(dǎo)入新關(guān)鍵詞庫文件時與舊關(guān)鍵詞庫進(jìn)行對比,判斷出新關(guān)鍵詞,最后只接受更新的那一部分關(guān)鍵詞,即達(dá)到關(guān)鍵詞增量更新的目的。 2、提取電子商務(wù)網(wǎng)站的HTML源碼,通過對HTML源碼進(jìn)行分析,提取出網(wǎng)站中包含查詢表單的那部分HTML源碼。根據(jù)這部分HTML源碼,利用WebBrowser控件方法對這些查詢表單自動模擬關(guān)鍵詞的填充和提交,用以獲得每一個關(guān)鍵詞所對應(yīng)的初始頁面。 3、選擇性的提取鏈接,只提取初始頁面中的商品信息鏈接,而不提取廣告和友情鏈接。另外,由于商品信息鏈接有多頁,因此還需要通過獲取“下一頁”鏈接來得到更多更全的商品信息鏈接。本文介紹了多種獲取“下一頁”鏈接的方法,并提出了一個通用性較好的方法。 4、通過正則表達(dá)式來定義抽取規(guī)則,根據(jù)不同的頁面結(jié)構(gòu)編寫相應(yīng)的正則表達(dá)式,從而進(jìn)行信息抽取。抽取的結(jié)果以文本文件的格式保存,便于對關(guān)鍵詞庫文件進(jìn)行更新。
【關(guān)鍵詞】：深度搜索 Deep Web Web信息抽取 URL提取 正則表達(dá)式
【學(xué)位授予單位】：江西師范大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2011
【分類號】：TP393.092
【目錄】：

摘要3-5
Abstract5-9
第1章緒論9-12
1.1 課題的研究背景及意義9-10
1.2 本文主要內(nèi)容10-11
1.3 論文組織結(jié)構(gòu)11-12
第2章深度搜索相關(guān)研究綜述12-19
2.1 搜索引擎研究綜述12-15
2.1.1 搜索引擎的概念12
2.1.2 搜索引擎的工作原理12-13
2.1.3 搜索引擎的分類13-15
2.2 深度搜索研究綜述15-18
2.2.1 Deep Web 概述15-16
2.2.2 深度搜索的方法16-17
2.2.3 深度搜索的工作原理17-18
2.3 本章小結(jié)18-19
第3章 Web 信息抽取研究綜述19-29
3.1 Web 信息抽取的概念19
3.2 Web 信息抽取研究發(fā)展現(xiàn)狀19-20
3.3 Web 信息抽取的方法20-23
3.3.1 Web 信息源20-21
3.3.2 結(jié)構(gòu)化數(shù)據(jù)提取21
3.3.3 半結(jié)構(gòu)化數(shù)據(jù)提取21-23
3.3.4 非結(jié)構(gòu)化數(shù)據(jù)提取23
3.4 Web 信息抽取存在的問題23-24
3.5 Web 信息抽取工具M(jìn)etaSeeker24-27
3.5.1 MetaSeeker 簡介24-25
3.5.2 MetaSeeker 的應(yīng)用25-26
3.5.3 MetaSeeker 的優(yōu)勢與局限性26-27
3.6 本章小結(jié)27-29
第4章深度搜索與信息抽取系統(tǒng)29-53
4.1 設(shè)計目標(biāo)與思路29-31
4.1.1 系統(tǒng)的目標(biāo)29-30
4.1.2 設(shè)計的基本思路30-31
4.2 系統(tǒng)的整體框架31-33
4.3 關(guān)鍵詞庫接口設(shè)計33-36
4.3.1 關(guān)鍵詞庫接口33-34
4.3.2 關(guān)鍵詞庫接口的增量更新設(shè)計34-36
4.4 查詢表單的處理36-40
4.4.1 識別查詢表單36-38
4.4.2 表單的自動填充與提交38-40
4.5 URL 提取40-45
4.5.1 起始頁面中鏈接的提取40-42
4.5.2 “下一頁”鏈接的獲取策略42-44
4.5.3 URL 的整理44-45
4.6 信息抽取45-52
4.6.1 獲取網(wǎng)頁源碼45-46
4.6.2 利用正則表達(dá)式編寫抽取規(guī)則46-50
4.6.3 保存抽取結(jié)果50-52
4.7 本章小結(jié)52-53
第5章深度搜索與信息抽取系統(tǒng)評測53-57
5.1 實驗評測標(biāo)準(zhǔn)53-54
5.2 實驗結(jié)果分析54-56
5.3 本章小結(jié)56-57
第6章總結(jié)與展望57-59
參考文獻(xiàn)59-62
致謝62-63
在讀期間公開發(fā)表論文（著）及科研情況63

【引證文獻(xiàn)】

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 梅澤勇;圖書網(wǎng)站信息集成系統(tǒng)的構(gòu)建[D];鄭州大學(xué);2012年

本文關(guān)鍵詞：面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究，由筆耕文化傳播整理發(fā)布。

本文編號：268906

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/jingjilunwen/dianzishangwulunwen/268906.html

上一篇：電子商務(wù)企業(yè)的品牌管理研究
下一篇：電子商務(wù)網(wǎng)站競爭力評價指標(biāo)體系研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究