天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

含有豐富結(jié)構(gòu)化數(shù)據(jù)的Web頁面分類技術(shù)的研究

發(fā)布時(shí)間:2017-07-02 15:11

  本文關(guān)鍵詞:含有豐富結(jié)構(gòu)化數(shù)據(jù)的Web頁面分類技術(shù)的研究,由筆耕文化傳播整理發(fā)布。


【摘要】:Web頁面的主題識(shí)別和分類是垂直搜索引擎的核心,是結(jié)構(gòu)化數(shù)據(jù)抽取的前提,具有重要的學(xué)術(shù)價(jià)值,工程應(yīng)用也非常廣泛.以往的工作多以定向爬蟲技術(shù)來解決垂直搜索引擎數(shù)據(jù)采集的專業(yè)化問題,而Web頁面的主題識(shí)別和分類也多采用傳統(tǒng)的文本分類方法.針對(duì)含有豐富結(jié)構(gòu)化數(shù)據(jù)的Web頁面,提出了復(fù)用結(jié)構(gòu)化數(shù)據(jù)抽取模板來進(jìn)行Web頁面主題識(shí)別的分類框架.該框架首先解析Web頁面的組織結(jié)構(gòu),通過屬性探測(cè)算法,獲得Web頁面所包含的主題關(guān)鍵詞.進(jìn)一步通過計(jì)算主題關(guān)鍵詞與結(jié)構(gòu)化抽取模板的相似性來判定Web頁面的主題并按照領(lǐng)域進(jìn)行分類.該方法避免了主題爬蟲對(duì)URL格式嚴(yán)重依賴的問題,分類準(zhǔn)確率也高于傳統(tǒng)的文本分類方法.通過實(shí)驗(yàn)證明了框架在含有豐富結(jié)構(gòu)化數(shù)據(jù)的Web頁面分類方面的有效性.
【作者單位】: 東北大學(xué)信息科學(xué)與工程學(xué)院;
【關(guān)鍵詞】垂直搜索 結(jié)構(gòu)化數(shù)據(jù) 網(wǎng)頁分類 模板 相似性計(jì)算
【基金】:中央高;究蒲袠I(yè)務(wù)費(fèi)基金項(xiàng)目(N110404016,N100704001) 國(guó)家自然科學(xué)基金項(xiàng)目(61173027) 教育部-英特爾信息技術(shù)專項(xiàng)科研基金項(xiàng)目(MOE-INTEL-2012-06)
【分類號(hào)】:TP391.3
【正文快照】: 近年來,通用搜索引擎技術(shù)已經(jīng)取得了長(zhǎng)足的發(fā)展,其應(yīng)用也非常廣泛.但是,通用搜索引擎無法滿足一些特定互聯(lián)網(wǎng)用戶的專業(yè)性搜索需求,尤其對(duì)于企業(yè)用戶,他們將領(lǐng)域數(shù)據(jù)作為經(jīng)營(yíng)和分析的基礎(chǔ),對(duì)于領(lǐng)域數(shù)據(jù)有著更專業(yè)與全面的要求.為了解決這個(gè)問題,垂直搜索技術(shù)應(yīng)運(yùn)而生,并成為業(yè)

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條

1 朱紅斌;蔡郁;;基于主動(dòng)學(xué)習(xí)支持向量機(jī)的文本分類[J];計(jì)算機(jī)工程與應(yīng)用;2009年02期

2 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期

3 周炎濤;唐劍波;吳正國(guó);;基于向量空間模型的多主題Web文本分類方法[J];計(jì)算機(jī)應(yīng)用研究;2008年01期

4 劉華;;文本分類相似度模型和概率模型的實(shí)現(xiàn)與比較[J];現(xiàn)代圖書情報(bào)技術(shù);2006年04期

5 李敏;余正濤;;結(jié)合加權(quán)特征向量空間模型和RBPNN的文本分類方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年12期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年05期

2 蔡華利;劉魯;王理;;突發(fā)事件Web新聞多層次自動(dòng)分類方法[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年06期

3 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年18期

4 拓守恒;;基于改進(jìn)PSO的SVM文本分類研究[J];電腦開發(fā)與應(yīng)用;2010年10期

5 唐波;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2009年11期

6 周民;邱雅;王華彬;;網(wǎng)絡(luò)輿情分析中智能爬蟲的設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2011年33期

7 王巖;;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展[J];電信快報(bào);2008年10期

8 黃敏;;網(wǎng)絡(luò)輿情熱點(diǎn)挖掘算法研究與實(shí)現(xiàn)[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期

9 屠要峰;錢煜明;;一種基于海量數(shù)據(jù)的信息云系統(tǒng)及其關(guān)鍵技術(shù)研究[J];電信科學(xué);2012年12期

10 趙前東;葉猛;;微博熱點(diǎn)話題檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電視技術(shù);2013年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年

2 單鐵城;張安妮;馬德輝;;基于爬蟲改進(jìn)算法的個(gè)性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會(huì)論文集[C];2012年

3 李晉宏;徐潔;唐存雨;;聚類算法在試題存儲(chǔ)中的應(yīng)用研究[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2013年會(huì)論文集[C];2013年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

1 田俊華;基于本體知識(shí)庫(kù)的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年

2 劉笑嶂;核方法的若干關(guān)鍵問題研究及其在人臉圖像分析中的應(yīng)用[D];中山大學(xué);2010年

3 郝立柱;漢語文本自動(dòng)分類[D];吉林大學(xué);2008年

4 冷彪;三維模型檢索的特征描述和相關(guān)性反饋算法的研究[D];清華大學(xué);2009年

5 萬源;基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 黃輝;基于LSI和SVC的網(wǎng)頁文本分類算法研究[D];長(zhǎng)沙理工大學(xué);2010年

2 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年

3 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開發(fā)[D];武漢理工大學(xué);2011年

4 晉小玲;圖轉(zhuǎn)導(dǎo)理論的研究與應(yīng)用[D];華北電力大學(xué)(北京);2011年

5 喬宇;一種基于主題數(shù)據(jù)的存取調(diào)度模型的研究[D];北京郵電大學(xué);2011年

6 陳沖;互聯(lián)網(wǎng)中文文本分類的研究與應(yīng)用[D];北京郵電大學(xué);2011年

7 郭艷芬;林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2011年

8 連惠杰;基于主題的教育信息定向采集系統(tǒng)[D];南京理工大學(xué);2011年

9 陳宗利;面向SNS的社會(huì)網(wǎng)絡(luò)數(shù)據(jù)抓取與經(jīng)驗(yàn)性分析[D];長(zhǎng)安大學(xué);2011年

10 盧凡;基于領(lǐng)域本體的主題爬蟲系統(tǒng)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 許增福,梁靜國(guó),田曉宇;基于FVSM和自組織映射網(wǎng)絡(luò)的Web文本自動(dòng)分類方法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

2 李倫波;馬廣富;;基于RBPNN的退化交通標(biāo)志圖像的識(shí)別算法[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2008年06期

3 劉嬌蛟,龔麗,李建華;基于本體實(shí)現(xiàn)對(duì)網(wǎng)頁文本的自動(dòng)主題分類[J];計(jì)算機(jī)工程;2003年11期

4 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2003年17期

5 柳松;王展;;基于徑向基概率神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J];計(jì)算機(jī)工程與科學(xué);2006年02期

6 鄒娟;周經(jīng)野;鄧成;劉玲;;基于多重啟發(fā)式規(guī)則的中文文本特征值提取方法[J];計(jì)算機(jī)工程與科學(xué);2006年08期

7 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期

8 李衛(wèi);劉建毅;何華燦;王樅;;基于主題的智能Web信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2006年02期

9 張宇,劉挺,文勖;基于改進(jìn)貝葉斯模型的問題分類[J];中文信息學(xué)報(bào);2005年02期

10 鄭海清;林琛;牛軍鈺;;一種基于緊密度的半監(jiān)督文本分類方法[J];中文信息學(xué)報(bào);2007年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條

1 陳克利;宗成慶;王霞;;基于大規(guī)模真實(shí)文本的平衡語料分析與文本分類方法[A];語言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實(shí)踐[J];信息系統(tǒng)工程;2009年05期

2 牟思;;基于垂直搜索引擎的學(xué)校網(wǎng)站的研究與建設(shè)[J];中國(guó)教育技術(shù)裝備;2011年21期

3 王雪冬;李偉英;李強(qiáng);;商業(yè)主題搜索引擎的研究[J];商場(chǎng)現(xiàn)代化;2008年29期

4 張敏;;基于本體的垂直搜索引擎的研究[J];軟件導(dǎo)刊;2010年02期

5 余棟柱;黃謳;;用Nutch構(gòu)建垂直搜索引擎的方案[J];知識(shí)經(jīng)濟(jì);2009年14期

6 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時(shí);2003年Z1期

7 胡文勝;;垂直搜索助號(hào)碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年32期

8 陳洪猛;;基于垂直搜索技術(shù)的搜索引擎解決方案[J];電腦應(yīng)用技術(shù);2008年01期

9 田野;垂直搜索火熱為哪般[J];中國(guó)計(jì)算機(jī)用戶;2005年37期

10 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 李立宇;唐世渭;楊冬青;葉恒強(qiáng);王騰蛟;;COMMIX-Classifier—自動(dòng)網(wǎng)頁分類系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

2 程靜;邱玉輝;;Web Mining中的網(wǎng)頁分類[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

4 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 廖磊;林秀玉;;EPS系統(tǒng)在土地利用更新調(diào)查中的應(yīng)用[A];江蘇省測(cè)繪學(xué)會(huì)2007'學(xué)術(shù)年會(huì)論文集[C];2008年

6 廖磊;林秀玉;;EPS系統(tǒng)在土地利用更新調(diào)查中的應(yīng)用[A];華東地區(qū)第十次測(cè)繪學(xué)術(shù)交流大會(huì)論文集[C];2007年

7 宋曉雷;王素格;李紅霞;;面向特定領(lǐng)域產(chǎn)品評(píng)價(jià)對(duì)象自動(dòng)識(shí)別研究[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

8 林子雨;左思強(qiáng);賴永炫;張東站;;DB&IR系統(tǒng)研究綜述[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

9 陳梅;曲宏遠(yuǎn);;探索CATIA V5在教練機(jī)管路系統(tǒng)中的應(yīng)用[A];貴州省科學(xué)技術(shù)優(yōu)秀學(xué)術(shù)論文集(2004年度)[C];2004年

10 孫海才;疏謙;馬鉞;畢欣;;用于香煙包裝質(zhì)量檢測(cè)的圖像匹配算法研究[A];第七屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2009年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年

2 ;制作一個(gè)能自動(dòng)統(tǒng)計(jì)成績(jī)的模板[N];電子報(bào);2009年

3 艾思平翻譯;視頻編碼軟件CCE SP2操作指南(20)[N];電子報(bào);2009年

4 李坤;你就是明日之星[N];中國(guó)計(jì)算機(jī)報(bào);2008年

5 閻巖;易飛ERP的兩大特色[N];中國(guó)計(jì)算機(jī)報(bào);2002年

6 高雪娟;讓夢(mèng)想點(diǎn)亮世界[N];中國(guó)計(jì)算機(jī)報(bào);2005年

7 李琨;異構(gòu)時(shí)代,誰將統(tǒng)一度量衡?[N];中國(guó)計(jì)算機(jī)報(bào);2006年

8 Howard Marks;挖掘ILM的金礦[N];計(jì)算機(jī)世界;2007年

9 張小西;BI工具與隱私數(shù)據(jù)[N];網(wǎng)絡(luò)世界;2006年

10 郭瑩;全文檢索市場(chǎng)空間大[N];中國(guó)計(jì)算機(jī)報(bào);2006年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

3 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年

4 閻紅燦;面向Web的XML文檔數(shù)據(jù)管理及分類檢索技術(shù)研究[D];天津大學(xué);2009年

5 辜寄蓉;基于元數(shù)據(jù)的綜合數(shù)據(jù)管理與信息共享[D];成都理工大學(xué);2003年

6 樓偶俊;基于特征的第二代圖像與視頻水印技術(shù)研究[D];吉林大學(xué);2009年

7 李鵬;Web環(huán)境下企業(yè)產(chǎn)品信息共享的若干關(guān)鍵技術(shù)研究[D];西北工業(yè)大學(xué);2006年

8 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

9 周,

本文編號(hào):510406


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/510406.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶18353***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com