Web記錄自動抽取與去重方法的研究與實現(xiàn)
本文關(guān)鍵詞:Web記錄自動抽取與去重方法的研究與實現(xiàn) 出處:《西安電子科技大學(xué)》2014年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: Web記錄抽取 數(shù)據(jù)去重 字符串距離度量
【摘要】:隨著網(wǎng)絡(luò)普及,電子商務(wù)的迅猛發(fā)展,出現(xiàn)了很多類型的電子商務(wù)網(wǎng)站。為了給用戶提供便捷的商品導(dǎo)購比價服務(wù),讓用戶在短時間內(nèi)找到高質(zhì)量、低價格、售后完備的商品,購物導(dǎo)航網(wǎng)站的開發(fā)勢在必行。而Web網(wǎng)頁已成為購物導(dǎo)航網(wǎng)站一個豐富的數(shù)據(jù)源,因此,如何從Web中抽取出完整的商品記錄并進行合并去重已成為一個極具價值的問題。 本文通過研究已有的Web記錄抽取方法和系統(tǒng),從中選擇了使用DOM樹模型的Webharvest工具作為數(shù)據(jù)抽取工具;接著,在分析了已有數(shù)據(jù)去重方法之后,,在現(xiàn)有字符串距離度量的基礎(chǔ)上,加入了前期的數(shù)據(jù)處理階段,提出了基于距離度量的中文數(shù)據(jù)去重方法,并在實際數(shù)據(jù)中測試效果良好;最后,在數(shù)據(jù)去重方法的基礎(chǔ)上設(shè)計并實現(xiàn)了兩種將Web數(shù)據(jù)抽取和數(shù)據(jù)去重集成到一起的自動化方法,包括基于搜索引擎過濾的自動化方法和基于語義分詞標(biāo)注的自動化方法。 通過對兩種自動化方法的測試,基于搜索引擎過濾的自動化方法結(jié)果滿足設(shè)計要求,實現(xiàn)了將Web數(shù)據(jù)抽取并去重,并存入本地數(shù)據(jù)庫,為購物導(dǎo)航系統(tǒng)提供后臺數(shù)據(jù)支持。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.3
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張小平,馬垣;KDD中的數(shù)據(jù)清理技術(shù)研究[J];鞍山科技大學(xué)學(xué)報;2003年02期
2 劉椿年,宋霞;基于Boosting的半結(jié)構(gòu)化信息抽取[J];北京工業(yè)大學(xué)學(xué)報;2005年02期
3 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2008年02期
4 陳偉,丁秋林;具有數(shù)據(jù)清理功能的交互式數(shù)據(jù)遷移及應(yīng)用[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2004年02期
5 孫鐵民;于杰;尚程;田大新;張麗華;;基于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)清洗算法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2008年06期
6 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2011年01期
7 李紹英;;基于代理技術(shù)的比較購物研究[J];當(dāng)代經(jīng)理人;2006年10期
8 孫鐵利;教巍巍;劉淑華;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
9 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應(yīng)用;2007年06期
10 劉軍;;基于支持向量機的網(wǎng)頁主題信息提取算法[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳紅兵;;基于XML的電子政務(wù)信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年
3 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計算機學(xué)會2007年學(xué)術(shù)交流年會論文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 陳X;李心科;;基于可擴展數(shù)據(jù)清理框架的元數(shù)據(jù)的研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年
6 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
7 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計算的信息抽取模板自動獲取方法[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
8 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動學(xué)習(xí)方法[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
9 鐘濤;陳群秀;;基于層式有限狀態(tài)自動機的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年
2 潘鵬;Deep Web查詢中的不確定性問題研究[D];山東大學(xué);2010年
3 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年
4 黃莉;基于語義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學(xué);2011年
5 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年
6 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
7 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年
8 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
9 張小剛;關(guān)聯(lián)規(guī)則挖掘及其在復(fù)雜工業(yè)過程控制中的應(yīng)用研究[D];湖南大學(xué);2002年
10 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學(xué);2001年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 樊敬川;Deep Web數(shù)據(jù)庫的選擇研究[D];河北大學(xué);2009年
2 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學(xué);2010年
3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年
4 侯佳奇;社保聯(lián)網(wǎng)審計中增量數(shù)據(jù)分布式處理的研究[D];哈爾濱工程大學(xué);2010年
5 王爽;GIS與空間數(shù)據(jù)挖掘技術(shù)在環(huán)境污染事故應(yīng)急處理系統(tǒng)中的應(yīng)用研究[D];中國海洋大學(xué);2010年
6 王培正;基于Deep Web的網(wǎng)絡(luò)信息抽取技術(shù)研究[D];華南理工大學(xué);2010年
7 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學(xué);2010年
8 王葛;Deep Web接口集成與數(shù)據(jù)標(biāo)注方法研究[D];長春工業(yè)大學(xué);2010年
9 黃亮;知識產(chǎn)權(quán)預(yù)警機制在服務(wù)外包平臺中的應(yīng)用研究[D];南昌大學(xué);2010年
10 賽子龍;日志分析數(shù)據(jù)同步機制在區(qū)域微軟技術(shù)中心營運平臺中的應(yīng)用研究[D];南昌大學(xué);2010年
本文編號:1313590
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1313590.html