基于逆向匹配的電子商務網站實體模板半自動構建方法
本文關鍵詞:基于逆向匹配的電子商務網站實體模板半自動構建方法 出處:《中文信息學報》2015年02期 論文類型:期刊論文
【摘要】:Web頁面中的主題信息一般分布比較集中,可利用網頁的這一特性進行網頁主題信息的自動提取。網頁源代碼中的HTML標簽不規(guī)范,使得正向匹配難以生成嵌套結構準確的DOM樹,該文提出一種通過逆向匹配的方法,構建完整的網頁源代碼DOM樹。通過對DOM樹進行剪枝,刪除無關節(jié)點,對保留下來的信息塊的節(jié)點標簽進行人工選擇與唯一性判定,從而生成提取模板。該方法能夠實現(xiàn)對電子商務網站源網頁中的主題信息進行提取,是一種半自動、通用的方法,可用于信息檢索系統(tǒng)中的信息采集。
【作者單位】: 電子科技大學計算機科學與工程學院互聯(lián)網科學中心;
【基金】:國家自然科學基金(61103109,11105024,61003231) 中央高;究蒲袠I(yè)務費(ZYGX2011J057,ZYGX2012J071,ZYGX2012J085) 四川省科技項目(2010HH0002,2011GZ0106,20112Z0001,2012RZ0002,2012RZ0003) 高等學校博士學科點專項科研基金(20120185120017)
【分類號】:TP393.092;TP391.1
【正文快照】: 1引言隨著網絡技術和數(shù)據庫技術的飛速發(fā)展,網絡上的信息量越來越大,越來越多的人選擇從網上獲取自己需要的信息,其中也包括網上購物。電子商務網站上包含了大量信息,用戶可以通過這些網頁獲取商品的主題、參數(shù)等信息,但其中的商品網頁大多屬于深層網絡[1],不便于被傳統(tǒng)的搜索
【參考文獻】
中國期刊全文數(shù)據庫 前2條
1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
2 楊曉琴;鞠時光;曹慶皇;王秀紅;;面向Deep Web數(shù)據自動抽取的模板生成方法[J];計算機應用研究;2010年01期
【共引文獻】
中國期刊全文數(shù)據庫 前10條
1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術的研究[J];安徽大學學報(自然科學版);2010年06期
2 張惠君;李娟;;基于OPAC的館藏評價方法探究[J];圖書與情報;2010年04期
3 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應用;2010年06期
4 陳蕾蕾;張如靜;;面向Web的新聞網頁正文信息抽取策略研究[J];電腦知識與技術;2008年S2期
5 夏天;;基于擴展標記樹的網頁正文抽取[J];廣西師范大學學報(自然科學版);2011年01期
6 薛永大;;網頁分類技術研究綜述[J];電腦知識與技術;2012年25期
7 李文;鄭邦習;鄧武;;基于XML和DOM技術的Web信息抽取模型[J];大連交通大學學報;2013年03期
8 陳天;黃敏;;Web信息抽取中的數(shù)據交叉定位[J];華南理工大學學報(自然科學版);2008年05期
9 彭濤;孟宇;左萬利;王英;胡亮;;主題爬行中的隧道穿越技術[J];計算機研究與發(fā)展;2010年04期
10 邱江濤;唐常杰;李川;朱軍;;基于塊分布的新聞網頁內容提取[J];吉林大學學報(工學版);2009年05期
中國重要會議論文全文數(shù)據庫 前3條
1 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網頁信息提取方法[A];全國網絡與信息安全技術研討會論文集(上冊)[C];2007年
2 馮少卿;都云程;施水才;;基于模板的網頁主題信息抽取[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
3 彭鑫;秦秋莉;;基于相關度分析的主題聚焦爬蟲研究[A];第六屆ABB杯全國自動化系統(tǒng)工程師論文大賽論文集[C];2013年
中國博士學位論文全文數(shù)據庫 前9條
1 張友華;面向智能服務的Web內容計算研究與應用[D];中國科學技術大學;2006年
2 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關鍵技術研究[D];中南大學;2007年
3 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學;2007年
4 車海燕;面向中文自然語言Web文檔的自動知識抽取和知識融合[D];吉林大學;2008年
5 孟憲軍;互聯(lián)網文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年
6 王欣;WEB應用系統(tǒng)安全檢測關鍵技術研究[D];北京郵電大學;2011年
7 趙旭劍;中文新聞話題動態(tài)演化及其關鍵技術研究[D];中國科學技術大學;2012年
8 孫妮;B2C購物網站商品評價的效應研究[D];對外經濟貿易大學;2014年
9 劉洋;基于信息場的信息影響力評估方法及在引文分析中的應用[D];上海大學;2014年
中國碩士學位論文全文數(shù)據庫 前10條
1 雷斌;基于Java技術的智能化搜索引擎的研究與設計[D];哈爾濱工程大學;2010年
2 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年
3 楊芹;基于最大熵模型的中文網頁分類器設計和實現(xiàn)[D];蘇州大學;2010年
4 范春曉;基于XML的Web信息抽取技術研究[D];沈陽理工大學;2010年
5 付濤;藏文網頁除噪技術研究[D];西北民族大學;2010年
6 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學;2009年
7 徐艷艷;本體技術在協(xié)同學習交互信息處理中的應用研究[D];山東師范大學;2011年
8 李雷;基于Nutch的農業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學;2011年
9 杜佳倫;面向用戶體驗需求的垂直搜索引擎的研究[D];吉林大學;2011年
10 王偉;基于網絡信息的熱點事件發(fā)現(xiàn)與分析研究[D];華東師范大學;2011年
【相似文獻】
中國期刊全文數(shù)據庫 前10條
1 松濤;“吸”盡網絡中有用的網頁信息[J];電腦知識與技術;2004年13期
2 朱精南,趙明生;網頁版面信息分析[J];計算機工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于語義Web的網頁推薦模型[J];清華大學學報(自然科學版);2004年09期
4 王海燕;張正凱;任建浩;;從審美角度淺談網頁藝術設計[J];中國電化教育;2004年09期
5 賈海龍,任玉珍;網頁藝術設計[J];新鄉(xiāng)師范高等專科學校學報;2005年05期
6 劉肖冰;淺談網頁藝術設計[J];安陽師范學院學報;2005年05期
7 孫迎春;;網頁設計研究[J];南平師專學報;2005年03期
8 文濤;網頁的視覺傳達設計與分析[J];沈陽教育學院學報;2005年01期
9 宋春暉;網頁設計中的美學應用分析[J];海南師范學院學報(自然科學版);2005年01期
10 張秀虎;;淺談網頁的訪問權限[J];教育信息化;2005年17期
中國重要會議論文全文數(shù)據庫 前10條
1 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網頁篩選系統(tǒng)[A];第十九屆全國數(shù)據庫學術會議論文集(技術報告篇)[C];2002年
2 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網頁相關度研究[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
3 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網頁信息的一種網頁結構劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年
4 曹淮;晁丁丁;;3D元素在網頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
5 吳建軍;;談網頁設計的藝術性表現(xiàn)[A];經天緯地——全國測繪科技信息網中南分網第十九次學術交流會優(yōu)秀論文選編[C];2005年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網頁信息結構的網頁體裁聚類分析[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
8 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內容的Web查詢[A];第十七屆全國數(shù)據庫學術會議論文集(技術報告篇)[C];2000年
9 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
10 于滿泉;譚松波;許洪波;;網頁內部結構挖掘技術研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
中國重要報紙全文數(shù)據庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網頁工程開辟為農服務新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術的探討[N];中國冶金報;2011年
4 錢鵬;網盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網絡監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網絡應用 天龍八“步” 申請上網賬號[N];電腦報;2002年
中國博士學位論文全文數(shù)據庫 前10條
1 陳潔;基于概念融合的網頁篩選技術研究[D];北京郵電大學;2013年
2 龔昌盛;基于語義標注的網頁廣告加載模型研究[D];武漢大學;2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
4 黃華軍;網頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
5 徐晴陽;基于關系子群發(fā)現(xiàn)算法的聚焦爬行技術[D];吉林大學;2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
8 羅娜;基于本體的主題爬行技術研究[D];吉林大學;2009年
9 張勇實;基于鏈接相似性分析的WEB結構挖掘方法研究[D];哈爾濱工程大學;2012年
10 宗校軍;中文網頁定題采集及分類研究[D];華中科技大學;2006年
中國碩士學位論文全文數(shù)據庫 前10條
1 高文梁;改進的基于歷史信息分析的網頁排序算法[D];大連理工大學;2009年
2 劉輝;網頁信息過濾系統(tǒng)的研究與設計[D];蘇州大學;2009年
3 趙胤;海量網頁搜集系統(tǒng)的設計[D];東北大學 ;2009年
4 羅永蓮;突發(fā)事件語料噪聲排除與網頁去重方法研究[D];山西大學;2005年
5 黃永光;基于網頁挖掘的搜索引擎若干技術的研究[D];哈爾濱工業(yè)大學;2006年
6 張超群;基于網頁分塊技術的主題爬行[D];吉林大學;2007年
7 張雅潔;網頁視覺基礎設計與應用研究[D];東北師范大學;2007年
8 黃文蓓;基于網頁分割和摘要的小屏幕設備網頁自適應技術研究與實現(xiàn)[D];華東師范大學;2008年
9 劉華暉;需求概念圖導引下的網頁檢索結果分析[D];上海交通大學;2011年
10 程歡;網頁中動態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學;2011年
,本文編號:1308923
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1308923.html