面向電子商務(wù)的深層網(wǎng)入口挖掘研究
本文關(guān)鍵詞:面向電子商務(wù)的深層網(wǎng)入口挖掘研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:電子商務(wù)在近二十年的蓬勃發(fā)展取得了世人矚目的業(yè)績,并以一種前所未有的方式改變著傳統(tǒng)的商務(wù)活動的模式和格局,更深刻地影響著人們對商務(wù)的認(rèn)識和理解,改變著人們的生活和工作方式。隨著網(wǎng)絡(luò)規(guī)模在全球的迅猛發(fā)展,Internet上的Web站點(diǎn)及網(wǎng)頁數(shù)量在以爆炸性的趨勢增長同時隨著網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,越來越多的Web數(shù)據(jù)庫需要通過網(wǎng)絡(luò)查詢?nèi)肟诓拍苓M(jìn)行訪問,學(xué)術(shù)界稱其為深層網(wǎng)(Deep Web)。經(jīng)相關(guān)研究機(jī)構(gòu)和商業(yè)機(jī)構(gòu)的調(diào)查,萬維網(wǎng)中深層網(wǎng)的數(shù)據(jù)存儲數(shù)量非常巨大,其中電子商務(wù)數(shù)據(jù)占了很大的比重。這些電子商務(wù)數(shù)據(jù)具有很高的商用價值。然而由于這些電子商務(wù)網(wǎng)站網(wǎng)頁形式與內(nèi)容開發(fā)的獨(dú)立性,造成了Web數(shù)據(jù)庫,特別是查詢?nèi)肟诘漠悩?gòu)性。正因?yàn)榇嗽?自動的從電子商務(wù)網(wǎng)站中獲取有價值的信息和數(shù)據(jù)變成了一件十分具有挑戰(zhàn)性的任務(wù)。 本文針對深層網(wǎng)挖掘中目前還沒有很好解決的如何讓機(jī)器從語義上理解深層網(wǎng)中的入口信息問題,充分分析了深層網(wǎng)中電子商務(wù)入口中文本標(biāo)簽和查詢元素之間的關(guān)系以及查詢元素之間的關(guān)系。除此之外,從深層網(wǎng)入口的位置特征、布局特征和顯示特征三個方面分析了深層網(wǎng)入口的視覺特征。通過大量電子商務(wù)網(wǎng)站深層網(wǎng)入口的觀察的基礎(chǔ)上得到了一些置信度很高的啟發(fā)式規(guī)則,從而提出了基于深層網(wǎng)入口的可視化特征和本體工具WordNet分析深層網(wǎng)入口元素的語義關(guān)系來更好的挖掘出人們易于理解的深層網(wǎng)入口語義層次結(jié)構(gòu)的方法。該方法首先需要對深層網(wǎng)入口頁面數(shù)據(jù)進(jìn)行預(yù)處理。然后,利用基于可視化特征的頁面分割算法構(gòu)建可視化模塊樹并利用可視化對樹中的文本信息進(jìn)行聚類及標(biāo)簽信息的識別。最后充分利用深層網(wǎng)入口中的標(biāo)簽信息間的語義關(guān)系構(gòu)建出合理的標(biāo)簽樹并通過查詢元素與標(biāo)簽之間的視覺特征關(guān)系對標(biāo)簽樹和查詢元素進(jìn)行匹配,從而提高了挖掘語義信息的準(zhǔn)確度,進(jìn)而提高了深層網(wǎng)信息的獲取效率和覆蓋率。此外本研究利用UIUC網(wǎng)站提供的研究數(shù)據(jù)對提出的方法進(jìn)行了準(zhǔn)確度的實(shí)驗(yàn),實(shí)驗(yàn)表明,相對于以往的深層網(wǎng)入口挖掘方法,本文提出的方法在準(zhǔn)確性方面具有更好的表現(xiàn)。最后對本研究進(jìn)行了總結(jié),并提出了未來繼續(xù)研究的方向。
【關(guān)鍵詞】:深層網(wǎng) 可視化特征 Web挖掘 語義層次結(jié)構(gòu) WordNet
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第1章 緒論9-13
- 1.1 研究背景與意義9-11
- 1.2 論文所做工作和創(chuàng)新11-12
- 1.3 論文結(jié)構(gòu)框架12-13
- 第2章 相關(guān)研究綜述13-31
- 2.1 Deep Web的概念與分類13-15
- 2.2 數(shù)據(jù)挖掘理論15-20
- 2.2.1 數(shù)據(jù)挖掘的概念15
- 2.2.2 數(shù)據(jù)挖掘的系統(tǒng)結(jié)構(gòu)15-16
- 2.2.3 數(shù)據(jù)挖掘的過程16-18
- 2.2.4 數(shù)據(jù)挖掘的主要技術(shù)18-19
- 2.2.5 數(shù)據(jù)挖掘的應(yīng)用19-20
- 2.3 Web數(shù)據(jù)挖掘20-26
- 2.3.1 Web數(shù)據(jù)挖掘的概念20-22
- 2.3.2 Web數(shù)據(jù)挖掘的框架和方法22
- 2.3.3 Web數(shù)據(jù)挖掘的分類22-25
- 2.3.4 Web數(shù)據(jù)挖掘的應(yīng)用25
- 2.3.5 Web數(shù)據(jù)挖掘的不足之處25-26
- 2.4 深層網(wǎng)挖掘研究綜述26-28
- 2.5 深層網(wǎng)入口挖掘研究綜述28-31
- 第3章 深層網(wǎng)入口語義信息挖掘31-45
- 3.1 問題提出31
- 3.2 深層網(wǎng)入口分析31-34
- 3.2.1 文本標(biāo)簽與查詢元素的關(guān)系32-33
- 3.2.2 查詢元素間的關(guān)系33-34
- 3.3 深層網(wǎng)入口的語義表示34-35
- 3.4 深層網(wǎng)入口的可視化特征35
- 3.5 深層網(wǎng)入口可視化規(guī)則35-37
- 3.6 深層網(wǎng)入口語義信息挖掘算法37-45
- 3.6.1 深層網(wǎng)入口挖掘的數(shù)據(jù)預(yù)處理37
- 3.6.2 深層網(wǎng)入口挖掘算法描述37-38
- 3.6.3 可視化模塊樹獲取38-39
- 3.6.4 標(biāo)簽語義樹挖掘39-43
- 3.6.5 查詢元素與標(biāo)簽樹匹配43-45
- 第4章 實(shí)驗(yàn)與結(jié)果分析45-50
- 4.1 實(shí)驗(yàn)數(shù)據(jù)及環(huán)境45
- 4.2 實(shí)驗(yàn)評價指標(biāo)45-46
- 4.3 實(shí)驗(yàn)結(jié)果46
- 4.4 實(shí)驗(yàn)結(jié)果分析46-48
- 4.5 實(shí)驗(yàn)方法對比48-50
- 第5章 總結(jié)與展望50-51
- 致謝51-52
- 參考文獻(xiàn)52-56
- 附錄 作者在讀期間發(fā)表的學(xué)術(shù)論文及參加的科研項(xiàng)目56
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧英,李明;Web數(shù)據(jù)挖掘技術(shù)及工具研究[J];計算機(jī)工程與應(yīng)用;2001年20期
2 宋暉,張嶺,葉允明,馬范援;基于標(biāo)記樹對象抽取技術(shù)的Hidden Web獲取研究[J];計算機(jī)工程與應(yīng)用;2002年23期
3 劉遷;焦慧;賈惠波;;信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J];計算機(jī)應(yīng)用研究;2007年07期
4 孫彬;王東;李娟;;基于XQuery的Deep Web搜索系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2007年16期
5 張大吉;;面向電子商務(wù)的Deep Web數(shù)據(jù)集成研究[J];寧波大學(xué)學(xué)報(理工版);2008年02期
6 孔令波;唐世渭;楊冬青;王騰蛟;高軍;;XML數(shù)據(jù)索引技術(shù)[J];軟件學(xué)報;2005年12期
7 衛(wèi)金茂,王石,伊衛(wèi)國;基于XML的數(shù)據(jù)挖掘[J];計算機(jī)工程與設(shè)計;2003年10期
8 鄭冬冬;崔志明;;Deep Web爬蟲爬行策略研究[J];計算機(jī)工程與設(shè)計;2006年17期
9 徐遠(yuǎn)超;劉江華;劉麗珍;關(guān)永;;基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)[J];微計算機(jī)信息;2007年21期
10 曾偉輝;李淼;曾偉輝;;深層網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)系統(tǒng)應(yīng)用;2008年05期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李鳳慧;面向電子商務(wù)的Web數(shù)據(jù)挖掘的研究[D];山東科技大學(xué);2004年
2 王煜;Internet智能比較購物的研究與實(shí)現(xiàn)[D];浙江工商大學(xué);2006年
3 王賢;基于樹結(jié)構(gòu)的Deep Web數(shù)據(jù)抽取研究[D];昆明理工大學(xué);2007年
4 孫
本文編號:332041
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/332041.html