基于B2B垂直搜索的網(wǎng)頁信息抽取系統(tǒng)研究
本文關(guān)鍵詞:基于B2B垂直搜索的網(wǎng)頁信息抽取系統(tǒng)研究
更多相關(guān)文章: BB垂直搜索 網(wǎng)頁信息抽取 企業(yè)站點(diǎn)樹 去噪
【摘要】:為了解決從網(wǎng)頁中準(zhǔn)確抽取產(chǎn)品信息這一B2B垂直搜索引擎的關(guān)鍵問題,以站點(diǎn)樹為模型,首先分析了企業(yè)網(wǎng)站的結(jié)構(gòu)特征,在此基礎(chǔ)上構(gòu)建了一個(gè)面向B2B垂直搜索引擎的網(wǎng)頁信息抽取系統(tǒng)。該系統(tǒng)利用站點(diǎn)樹在企業(yè)站點(diǎn)大量網(wǎng)頁中識(shí)別出產(chǎn)品頁,并進(jìn)行去噪處理,然后使用基于規(guī)則的方法抽取產(chǎn)品頁中包含的產(chǎn)品描述信息和參數(shù)信息。通過該系統(tǒng)抽取到的各類產(chǎn)品信息較為準(zhǔn)確,且效率得到明顯提高,適用于B2B垂直搜索引擎中對(duì)產(chǎn)品的描述、分類及搜索。
【作者單位】: 南海艦隊(duì)司令部;中國勞動(dòng)關(guān)系學(xué)院;
【基金】:中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金項(xiàng)目(12zy019)
【分類號(hào)】:TP393.092
【正文快照】: 0引言垂直搜索是針對(duì)某一行業(yè)、某一領(lǐng)域或某一主題而進(jìn)行的專業(yè)搜索,是綜合搜索技術(shù)的深化。B2B(Business to Business)指企業(yè)間通過互聯(lián)網(wǎng)進(jìn)行產(chǎn)品、服務(wù)及信息交換,是電子商務(wù)的重要組成部分。企業(yè)用戶在使用B2B平臺(tái)進(jìn)行一次特定的商業(yè)交易時(shí),通常只關(guān)注某個(gè)類別、某個(gè)品
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 李向陽;戴江山;張亞非;;一種Web信息抽取規(guī)則的優(yōu)化方法[J];蘭州理工大學(xué)學(xué)報(bào);2006年01期
2 周明建,高濟(jì),李飛;基于本體論的Web信息抽取[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2004年04期
3 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
4 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報(bào)科學(xué);2007年01期
5 林文清;;B2B垂直搜索引擎在信息獲取技術(shù)中的應(yīng)用[J];情報(bào)雜志;2007年09期
6 余淼;楊丹;趙俊芹;;垂直搜索引擎的關(guān)鍵技術(shù)研究[J];軟件導(dǎo)刊;2007年23期
7 羅立宏;陳志;;基于語義分析的垂直搜索網(wǎng)絡(luò)蜘蛛[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年18期
8 趙金仿;趙艷;繆建明;;網(wǎng)頁信息抽取及其自動(dòng)文本分類的實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年10期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王曉璐;劉海芳;王凡;;基于模糊專家系統(tǒng)的魚疾病診斷方法[J];安徽農(nóng)業(yè)科學(xué);2008年09期
2 劉秋紅;焦仁普;張鈺;李娟;王哲;;基于產(chǎn)生式規(guī)則和歸結(jié)原理的農(nóng)業(yè)專家系統(tǒng)[J];安徽農(nóng)業(yè)科學(xué);2008年10期
3 張鈺;劉秋紅;王哲;;AGA在植物病理專家系統(tǒng)中的應(yīng)用研究[J];安徽農(nóng)業(yè)科學(xué);2009年24期
4 王興旺;金寶華;;基于WEB的桃樹病蟲害決策支持系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];安徽農(nóng)業(yè)科學(xué);2010年12期
5 濮永仙;;貝葉網(wǎng)在農(nóng)業(yè)專家系統(tǒng)中的研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2011年07期
6 汪明磊,李煒疆;脯氨酸順式肽鍵的神經(jīng)網(wǎng)絡(luò)篩選[J];安徽農(nóng)業(yè)大學(xué)學(xué)報(bào);2003年04期
7 郭相坤,周益明,姚杰;高分子材料的紅外光譜解析系統(tǒng)[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年01期
8 李林林;王平;孫良旭;;Snort規(guī)則庫在高爐專家系統(tǒng)知識(shí)庫的移植[J];遼寧科技大學(xué)學(xué)報(bào);2008年06期
9 李林林;孫良旭;王平;;Snort規(guī)則庫在高爐專家系統(tǒng)知識(shí)庫的移植[J];遼寧科技大學(xué)學(xué)報(bào);2009年01期
10 張喜平,馮乃勤;計(jì)算機(jī)人工智能中模糊度分析研究[J];安陽師范學(xué)院學(xué)報(bào);2003年02期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 楊陽;陳宗海;張海濤;;復(fù)雜系統(tǒng)仿真的前端智能化綜述[A];'2003系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2003年
2 高倩;吳仁彪;劉家學(xué);;一種基于自適應(yīng)冪變換的HRRP-ATR方法[A];第十一屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2003)論文集[C];2003年
3 翟偉斌;許榕生;;基于Internet的CIS研究[A];第十三屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2006年
4 韓文芳;;IPTV比數(shù)字電視更適應(yīng)未來[A];2007中國科協(xié)年會(huì)——通信與信息發(fā)展高層論壇論文集[C];2007年
5 張留俊;;公路軟基處理方案決策的人工神經(jīng)網(wǎng)絡(luò)模型[A];工程排水與加固技術(shù)理論與實(shí)踐——第七屆全國工程排水與加固技術(shù)研討會(huì)論文集[C];2008年
6 王芳;谷文祥;;一種在圖規(guī)劃框架下處理不確定性和感知?jiǎng)幼鞯男滤惴╗A];第八屆中國青年運(yùn)籌信息管理學(xué)者大會(huì)論文集[C];2006年
7 李春鑫;李天偉;王孝通;黃謙;;基于決策樹改進(jìn)CART算法的ANFIS結(jié)構(gòu)辨識(shí)技術(shù)[A];第16屆中國過程控制學(xué)術(shù)年會(huì)暨第4屆全國故障診斷與安全性學(xué)術(shù)會(huì)議論文集[C];2005年
8 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(上)[C];2009年
9 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(中)[C];2009年
10 梁勇;張文;;網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計(jì)[A];2011年全國通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王杰;基于人工智能的乒乓球比賽技戰(zhàn)術(shù)診斷與評(píng)估研究[D];上海體育學(xué)院;2010年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 陶勇;知識(shí)輔助的SAR圖像目標(biāo)特性分析與識(shí)別研究[D];國防科學(xué)技術(shù)大學(xué);2010年
4 周俊萍;自動(dòng)推理與規(guī)劃問題最小上界和相變規(guī)律研究[D];吉林大學(xué);2011年
5 陶媛;基于生物免疫的動(dòng)態(tài)風(fēng)險(xiǎn)識(shí)別模型研究與應(yīng)用[D];上海大學(xué);2011年
6 丁杰;無限制手寫體數(shù)字串切分與識(shí)別的相關(guān)問題研究[D];南京理工大學(xué);2010年
7 吳承榮;骨干通道上的網(wǎng)絡(luò)論壇通信信息監(jiān)測和分析的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年
8 王秀美;隱變量模型的建模與優(yōu)化[D];西安電子科技大學(xué);2010年
9 陳國榮;面向服務(wù)的滾齒機(jī)故障診斷模式及關(guān)鍵支撐技術(shù)研究[D];重慶大學(xué);2011年
10 劉紀(jì)平;多重演化神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用[D];武漢大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孫嶺;一種基于前綴表達(dá)式的Web信息抽取方法的關(guān)鍵問題的實(shí)現(xiàn)[D];山東科技大學(xué);2010年
2 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
3 蒲錳;非侵入式礦井提升機(jī)PLC電控系統(tǒng)實(shí)時(shí)故障診斷方法的研究[D];山東科技大學(xué);2010年
4 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年
5 張曉冬;基于全矢譜的智能診斷技術(shù)研究[D];鄭州大學(xué);2010年
6 常春艷;礦山土地復(fù)墾方案論證管理系統(tǒng)研究[D];山東農(nóng)業(yè)大學(xué);2010年
7 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
8 韋哲;基于上下文感知技術(shù)的WSN路由協(xié)議研究[D];大連理工大學(xué);2010年
9 朱利君;基于茶學(xué)領(lǐng)域本體的智能檢索研究[D];安徽農(nóng)業(yè)大學(xué);2010年
10 王誠;齒輪精度設(shè)計(jì)及加工誤差分析智能系統(tǒng)研究[D];長沙理工大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 岳清;淺析搜索引擎的原理及發(fā)展前景[J];大眾科技;2005年05期
2 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
3 潘以鋒;;基于Lucene的網(wǎng)站全文檢索系統(tǒng)的開發(fā)[J];廣西教育學(xué)院學(xué)報(bào);2006年05期
4 黃建蓮;中國搜索引擎服務(wù)市場的現(xiàn)狀及發(fā)展[J];華北科技學(xué)院學(xué)報(bào);2005年03期
5 李朝光,張銘,鄧志鴻,楊冬青,唐世渭;論文元數(shù)據(jù)信息的自動(dòng)抽取[J];計(jì)算機(jī)工程與應(yīng)用;2002年21期
6 鄒娟;周經(jīng)野;鄧成;;一種基于語義分析的中文特征值提取方法[J];計(jì)算機(jī)工程與應(yīng)用;2005年36期
7 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
8 孫登峰;面向XML文檔的概念檢索技術(shù)[J];計(jì)算機(jī)應(yīng)用;2003年01期
9 雷育生,甘仞初,杜頂;基于垂直網(wǎng)站的網(wǎng)絡(luò)信息支持系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用研究;2005年07期
10 錢兵;王永成;高凱;;面向搜索引擎的自然語言理解的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2006年12期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 崔陽;吳愛華;;一種面向B2B垂直搜索的網(wǎng)頁信息去噪方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年12期
2 王曉艷;梁晉春;郭曉霞;姚穎穎;汪瑛;;基于互聯(lián)網(wǎng)的數(shù)字媒體內(nèi)容輿情分析系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年08期
3 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計(jì)學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
4 陳磊,馮玉珉;一種基于網(wǎng)頁自動(dòng)分類的分類查詢搜索引擎[J];電腦與信息技術(shù);2004年06期
5 譚曉玲,許勇,張凌,梅成剛,劉蘭;基于小波分解的網(wǎng)絡(luò)流量模型[J];計(jì)算機(jī)工程與應(yīng)用;2005年09期
6 傅華忠;茅劍;;基于DBSCAN聚類算法的Web文本挖掘[J];科技信息;2007年01期
7 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[J];計(jì)算機(jī)工程;2007年19期
8 陳金鑫;羅立群;;基于主體知識(shí)庫的Web主體信息抽取系統(tǒng)[J];軟件導(dǎo)刊;2007年19期
9 ;[J];;年期
10 ;[J];;年期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 李穎;Web驗(yàn)證碼的生成與識(shí)別[D];南京理工大學(xué);2008年
2 宋鰲;網(wǎng)頁去噪在交互電視中的應(yīng)用與研究[D];上海交通大學(xué);2011年
3 萬樂;網(wǎng)頁的預(yù)處理技術(shù)[D];吉林大學(xué);2008年
4 蘇秀芝;網(wǎng)頁去噪與特征提取算法的研究及實(shí)現(xiàn)[D];西南交通大學(xué);2010年
5 梁建飛;網(wǎng)絡(luò)環(huán)境下獲取漢維篇章級(jí)平行語料的研究[D];新疆大學(xué);2011年
6 欒艷;基于段落指紋的大規(guī)模近似網(wǎng)頁檢測算法研究[D];南京理工大學(xué);2012年
7 賈淑芳;基于用戶日志聚類的查詢擴(kuò)展[D];北京郵電大學(xué);2010年
8 任海果;基于主題事件的輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
9 孫凱;Rainbow密碼硬件安全性分析工具的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2012年
,本文編號(hào):1304242
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1304242.html