天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于逆向匹配的電子商務(wù)網(wǎng)站實(shí)體模板半自動(dòng)構(gòu)建方法

發(fā)布時(shí)間:2017-12-19 18:12

  本文關(guān)鍵詞:基于逆向匹配的電子商務(wù)網(wǎng)站實(shí)體模板半自動(dòng)構(gòu)建方法 出處:《中文信息學(xué)報(bào)》2015年02期  論文類(lèi)型:期刊論文


  更多相關(guān)文章: 逆向匹配 DOM樹(shù) 模板構(gòu)建 信息提取


【摘要】:Web頁(yè)面中的主題信息一般分布比較集中,可利用網(wǎng)頁(yè)的這一特性進(jìn)行網(wǎng)頁(yè)主題信息的自動(dòng)提取。網(wǎng)頁(yè)源代碼中的HTML標(biāo)簽不規(guī)范,使得正向匹配難以生成嵌套結(jié)構(gòu)準(zhǔn)確的DOM樹(shù),該文提出一種通過(guò)逆向匹配的方法,構(gòu)建完整的網(wǎng)頁(yè)源代碼DOM樹(shù)。通過(guò)對(duì)DOM樹(shù)進(jìn)行剪枝,刪除無(wú)關(guān)節(jié)點(diǎn),對(duì)保留下來(lái)的信息塊的節(jié)點(diǎn)標(biāo)簽進(jìn)行人工選擇與唯一性判定,從而生成提取模板。該方法能夠?qū)崿F(xiàn)對(duì)電子商務(wù)網(wǎng)站源網(wǎng)頁(yè)中的主題信息進(jìn)行提取,是一種半自動(dòng)、通用的方法,可用于信息檢索系統(tǒng)中的信息采集。
【作者單位】: 電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院互聯(lián)網(wǎng)科學(xué)中心;
【基金】:國(guó)家自然科學(xué)基金(61103109,11105024,61003231) 中央高校基本科研業(yè)務(wù)費(fèi)(ZYGX2011J057,ZYGX2012J071,ZYGX2012J085) 四川省科技項(xiàng)目(2010HH0002,2011GZ0106,20112Z0001,2012RZ0002,2012RZ0003) 高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)科研基金(20120185120017)
【分類(lèi)號(hào)】:TP393.092;TP391.1
【正文快照】: 1引言隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息量越來(lái)越大,越來(lái)越多的人選擇從網(wǎng)上獲取自己需要的信息,其中也包括網(wǎng)上購(gòu)物。電子商務(wù)網(wǎng)站上包含了大量信息,用戶可以通過(guò)這些網(wǎng)頁(yè)獲取商品的主題、參數(shù)等信息,但其中的商品網(wǎng)頁(yè)大多屬于深層網(wǎng)絡(luò)[1],不便于被傳統(tǒng)的搜索

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期

2 楊曉琴;鞠時(shí)光;曹慶皇;王秀紅;;面向Deep Web數(shù)據(jù)自動(dòng)抽取的模板生成方法[J];計(jì)算機(jī)應(yīng)用研究;2010年01期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類(lèi)技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

2 張惠君;李娟;;基于OPAC的館藏評(píng)價(jià)方法探究[J];圖書(shū)與情報(bào);2010年04期

3 王立建;尹四清;;基于Web頁(yè)面有效信息抽取的分類(lèi)方法[J];電腦開(kāi)發(fā)與應(yīng)用;2010年06期

4 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁(yè)正文信息抽取策略研究[J];電腦知識(shí)與技術(shù);2008年S2期

5 夏天;;基于擴(kuò)展標(biāo)記樹(shù)的網(wǎng)頁(yè)正文抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期

6 薛永大;;網(wǎng)頁(yè)分類(lèi)技術(shù)研究綜述[J];電腦知識(shí)與技術(shù);2012年25期

7 李文;鄭邦習(xí);鄧武;;基于XML和DOM技術(shù)的Web信息抽取模型[J];大連交通大學(xué)學(xué)報(bào);2013年03期

8 陳天;黃敏;;Web信息抽取中的數(shù)據(jù)交叉定位[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年05期

9 彭濤;孟宇;左萬(wàn)利;王英;胡亮;;主題爬行中的隧道穿越技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2010年04期

10 邱江濤;唐常杰;李川;朱軍;;基于塊分布的新聞網(wǎng)頁(yè)內(nèi)容提取[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2009年05期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條

1 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁(yè)信息提取方法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

2 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 彭鑫;秦秋莉;;基于相關(guān)度分析的主題聚焦爬蟲(chóng)研究[A];第六屆ABB杯全國(guó)自動(dòng)化系統(tǒng)工程師論文大賽論文集[C];2013年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條

1 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

2 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年

3 胡燕;基于Web信息抽取的專(zhuān)業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年

4 車(chē)海燕;面向中文自然語(yǔ)言Web文檔的自動(dòng)知識(shí)抽取和知識(shí)融合[D];吉林大學(xué);2008年

5 孟憲軍;互聯(lián)網(wǎng)文本聚類(lèi)與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

6 王欣;WEB應(yīng)用系統(tǒng)安全檢測(cè)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年

7 趙旭劍;中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

8 孫妮;B2C購(gòu)物網(wǎng)站商品評(píng)價(jià)的效應(yīng)研究[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2014年

9 劉洋;基于信息場(chǎng)的信息影響力評(píng)估方法及在引文分析中的應(yīng)用[D];上海大學(xué);2014年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年

2 王樂(lè)超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年

3 楊芹;基于最大熵模型的中文網(wǎng)頁(yè)分類(lèi)器設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2010年

4 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽(yáng)理工大學(xué);2010年

5 付濤;藏文網(wǎng)頁(yè)除噪技術(shù)研究[D];西北民族大學(xué);2010年

6 陳可欽;基于垂直搜索引擎的主題爬蟲(chóng)算法的研究[D];中南林業(yè)科技大學(xué);2009年

7 徐艷艷;本體技術(shù)在協(xié)同學(xué)習(xí)交互信息處理中的應(yīng)用研究[D];山東師范大學(xué);2011年

8 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

9 杜佳倫;面向用戶體驗(yàn)需求的垂直搜索引擎的研究[D];吉林大學(xué);2011年

10 王偉;基于網(wǎng)絡(luò)信息的熱點(diǎn)事件發(fā)現(xiàn)與分析研究[D];華東師范大學(xué);2011年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 松濤;“吸”盡網(wǎng)絡(luò)中有用的網(wǎng)頁(yè)信息[J];電腦知識(shí)與技術(shù);2004年13期

2 朱精南,趙明生;網(wǎng)頁(yè)版面信息分析[J];計(jì)算機(jī)工程;2004年12期

3 梁邦勇,李涓子,王克宏;基于語(yǔ)義Web的網(wǎng)頁(yè)推薦模型[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年09期

4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];中國(guó)電化教育;2004年09期

5 賈海龍,任玉珍;網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];新鄉(xiāng)師范高等專(zhuān)科學(xué)校學(xué)報(bào);2005年05期

6 劉肖冰;淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2005年05期

7 孫迎春;;網(wǎng)頁(yè)設(shè)計(jì)研究[J];南平師專(zhuān)學(xué)報(bào);2005年03期

8 文濤;網(wǎng)頁(yè)的視覺(jué)傳達(dá)設(shè)計(jì)與分析[J];沈陽(yáng)教育學(xué)院學(xué)報(bào);2005年01期

9 宋春暉;網(wǎng)頁(yè)設(shè)計(jì)中的美學(xué)應(yīng)用分析[J];海南師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年01期

10 張秀虎;;淺談網(wǎng)頁(yè)的訪問(wèn)權(quán)限[J];教育信息化;2005年17期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

2 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

3 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁(yè)信息的一種網(wǎng)頁(yè)結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年

4 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年

5 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類(lèi)網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁(yè)信息結(jié)構(gòu)的網(wǎng)頁(yè)體裁聚類(lèi)分析[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

8 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

9 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

10 于滿泉;譚松波;許洪波;;網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程開(kāi)辟為農(nóng)服務(wù)新渠道[N];中國(guó)氣象報(bào);2012年

2 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年

3 羅震宇 嚴(yán)小斌;一種新型WEB開(kāi)發(fā)技術(shù)的探討[N];中國(guó)冶金報(bào);2011年

4 錢(qián)鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年

5 星之海洋;邁出網(wǎng)頁(yè)制作的第一步[N];電腦報(bào);2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國(guó)證券報(bào);2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國(guó)電腦教育報(bào);2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 龔昌盛;基于語(yǔ)義標(biāo)注的網(wǎng)頁(yè)廣告加載模型研究[D];武漢大學(xué);2010年

3 孫建濤;Web挖掘中的降維和分類(lèi)方法研究[D];清華大學(xué);2005年

4 黃華軍;網(wǎng)頁(yè)信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年

5 徐晴陽(yáng);基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

6 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

10 宗校軍;中文網(wǎng)頁(yè)定題采集及分類(lèi)研究[D];華中科技大學(xué);2006年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 高文梁;改進(jìn)的基于歷史信息分析的網(wǎng)頁(yè)排序算法[D];大連理工大學(xué);2009年

2 劉輝;網(wǎng)頁(yè)信息過(guò)濾系統(tǒng)的研究與設(shè)計(jì)[D];蘇州大學(xué);2009年

3 趙胤;海量網(wǎng)頁(yè)搜集系統(tǒng)的設(shè)計(jì)[D];東北大學(xué) ;2009年

4 羅永蓮;突發(fā)事件語(yǔ)料噪聲排除與網(wǎng)頁(yè)去重方法研究[D];山西大學(xué);2005年

5 黃永光;基于網(wǎng)頁(yè)挖掘的搜索引擎若干技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2006年

6 張超群;基于網(wǎng)頁(yè)分塊技術(shù)的主題爬行[D];吉林大學(xué);2007年

7 張雅潔;網(wǎng)頁(yè)視覺(jué)基礎(chǔ)設(shè)計(jì)與應(yīng)用研究[D];東北師范大學(xué);2007年

8 黃文蓓;基于網(wǎng)頁(yè)分割和摘要的小屏幕設(shè)備網(wǎng)頁(yè)自適應(yīng)技術(shù)研究與實(shí)現(xiàn)[D];華東師范大學(xué);2008年

9 劉華暉;需求概念圖導(dǎo)引下的網(wǎng)頁(yè)檢索結(jié)果分析[D];上海交通大學(xué);2011年

10 程歡;網(wǎng)頁(yè)中動(dòng)態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學(xué);2011年

,

本文編號(hào):1308923

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1308923.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dc22a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com