天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

Web記錄自動抽取與去重方法的研究與實現(xiàn)

發(fā)布時間:2017-12-20 22:11

  本文關(guān)鍵詞:Web記錄自動抽取與去重方法的研究與實現(xiàn) 出處:《西安電子科技大學(xué)》2014年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: Web記錄抽取 數(shù)據(jù)去重 字符串距離度量


【摘要】:隨著網(wǎng)絡(luò)普及,電子商務(wù)的迅猛發(fā)展,出現(xiàn)了很多類型的電子商務(wù)網(wǎng)站。為了給用戶提供便捷的商品導(dǎo)購比價服務(wù),讓用戶在短時間內(nèi)找到高質(zhì)量、低價格、售后完備的商品,購物導(dǎo)航網(wǎng)站的開發(fā)勢在必行。而Web網(wǎng)頁已成為購物導(dǎo)航網(wǎng)站一個豐富的數(shù)據(jù)源,因此,如何從Web中抽取出完整的商品記錄并進行合并去重已成為一個極具價值的問題。 本文通過研究已有的Web記錄抽取方法和系統(tǒng),從中選擇了使用DOM樹模型的Webharvest工具作為數(shù)據(jù)抽取工具;接著,在分析了已有數(shù)據(jù)去重方法之后,,在現(xiàn)有字符串距離度量的基礎(chǔ)上,加入了前期的數(shù)據(jù)處理階段,提出了基于距離度量的中文數(shù)據(jù)去重方法,并在實際數(shù)據(jù)中測試效果良好;最后,在數(shù)據(jù)去重方法的基礎(chǔ)上設(shè)計并實現(xiàn)了兩種將Web數(shù)據(jù)抽取和數(shù)據(jù)去重集成到一起的自動化方法,包括基于搜索引擎過濾的自動化方法和基于語義分詞標(biāo)注的自動化方法。 通過對兩種自動化方法的測試,基于搜索引擎過濾的自動化方法結(jié)果滿足設(shè)計要求,實現(xiàn)了將Web數(shù)據(jù)抽取并去重,并存入本地數(shù)據(jù)庫,為購物導(dǎo)航系統(tǒng)提供后臺數(shù)據(jù)支持。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.3

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 張小平,馬垣;KDD中的數(shù)據(jù)清理技術(shù)研究[J];鞍山科技大學(xué)學(xué)報;2003年02期

2 劉椿年,宋霞;基于Boosting的半結(jié)構(gòu)化信息抽取[J];北京工業(yè)大學(xué)學(xué)報;2005年02期

3 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2008年02期

4 陳偉,丁秋林;具有數(shù)據(jù)清理功能的交互式數(shù)據(jù)遷移及應(yīng)用[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2004年02期

5 孫鐵民;于杰;尚程;田大新;張麗華;;基于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)清洗算法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2008年06期

6 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2011年01期

7 李紹英;;基于代理技術(shù)的比較購物研究[J];當(dāng)代經(jīng)理人;2006年10期

8 孫鐵利;教巍巍;劉淑華;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期

9 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應(yīng)用;2007年06期

10 劉軍;;基于支持向量機的網(wǎng)頁主題信息提取算法[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年02期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 陳紅兵;;基于XML的電子政務(wù)信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年

2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年

3 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計算機學(xué)會2007年學(xué)術(shù)交流年會論文集[C];2007年

4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

5 陳X;李心科;;基于可擴展數(shù)據(jù)清理框架的元數(shù)據(jù)的研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年

6 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

7 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計算的信息抽取模板自動獲取方法[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年

8 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動學(xué)習(xí)方法[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

9 鐘濤;陳群秀;;基于層式有限狀態(tài)自動機的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年

2 潘鵬;Deep Web查詢中的不確定性問題研究[D];山東大學(xué);2010年

3 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年

4 黃莉;基于語義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學(xué);2011年

5 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年

6 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

7 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年

8 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年

9 張小剛;關(guān)聯(lián)規(guī)則挖掘及其在復(fù)雜工業(yè)過程控制中的應(yīng)用研究[D];湖南大學(xué);2002年

10 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學(xué);2001年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 樊敬川;Deep Web數(shù)據(jù)庫的選擇研究[D];河北大學(xué);2009年

2 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學(xué);2010年

3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年

4 侯佳奇;社保聯(lián)網(wǎng)審計中增量數(shù)據(jù)分布式處理的研究[D];哈爾濱工程大學(xué);2010年

5 王爽;GIS與空間數(shù)據(jù)挖掘技術(shù)在環(huán)境污染事故應(yīng)急處理系統(tǒng)中的應(yīng)用研究[D];中國海洋大學(xué);2010年

6 王培正;基于Deep Web的網(wǎng)絡(luò)信息抽取技術(shù)研究[D];華南理工大學(xué);2010年

7 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學(xué);2010年

8 王葛;Deep Web接口集成與數(shù)據(jù)標(biāo)注方法研究[D];長春工業(yè)大學(xué);2010年

9 黃亮;知識產(chǎn)權(quán)預(yù)警機制在服務(wù)外包平臺中的應(yīng)用研究[D];南昌大學(xué);2010年

10 賽子龍;日志分析數(shù)據(jù)同步機制在區(qū)域微軟技術(shù)中心營運平臺中的應(yīng)用研究[D];南昌大學(xué);2010年



本文編號:1313590

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1313590.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3dc07***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
空之色水之色在线播放| 日本加勒比系列在线播放| 夫妻性生活黄色录像视频| 激情视频在线视频在线视频| 中文字幕在线五月婷婷| 中文字幕熟女人妻视频| 欧美精品久久99九九| 亚洲欧洲一区二区综合精品| 邻居人妻人公侵犯人妻视频| 国产一区二区不卡在线播放| 中文字幕亚洲在线一区| 日本人妻精品有码字幕| 日本特黄特色大片免费观看| 爱在午夜降临前在线观看| 国产午夜精品在线免费看| 草草视频福利在线观看| 亚洲免费黄色高清在线观看| 亚洲精品中文字幕在线视频| 日韩精品日韩激情日韩综合| 偷拍洗澡一区二区三区| 日韩精品一区二区毛片| 夜夜躁狠狠躁日日躁视频黑人| 搡老妇女老熟女一区二区| 久久热在线视频免费观看| 好吊视频一区二区在线| 色哟哟精品一区二区三区| 欧美亚洲另类久久久精品| 日韩欧美第一页在线观看| 麻豆国产精品一区二区| 在线免费看国产精品黄片| 无套内射美女视频免费在线观看| 国产精品自拍杆香蕉视频| 日韩色婷婷综合在线观看| 欧美国产日韩在线综合| 中文字幕一二区在线观看| 少妇高潮呻吟浪语91| 亚洲一区二区三区在线中文字幕| 国产成人亚洲欧美二区综| 日本人妻精品有码字幕| 中文字幕亚洲精品人妻| 色狠狠一区二区三区香蕉蜜桃|