天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種主題知識(shí)自增長(zhǎng)的聚焦網(wǎng)絡(luò)爬蟲(chóng)

發(fā)布時(shí)間:2017-12-26 20:33

  本文關(guān)鍵詞:一種主題知識(shí)自增長(zhǎng)的聚焦網(wǎng)絡(luò)爬蟲(chóng) 出處:《計(jì)算機(jī)應(yīng)用與軟件》2014年05期  論文類型:期刊論文


  更多相關(guān)文章: 聚焦網(wǎng)絡(luò)爬蟲(chóng) 無(wú)監(jiān)督學(xué)習(xí) 知識(shí)擴(kuò)展 主題相關(guān)度


【摘要】:聚焦網(wǎng)絡(luò)爬蟲(chóng)是各類因特網(wǎng)文本挖掘和信息檢索應(yīng)用必需的處理步驟,F(xiàn)有聚焦網(wǎng)絡(luò)爬蟲(chóng)面臨著知識(shí)描述困難、誤差易被放大等挑戰(zhàn)。發(fā)現(xiàn)網(wǎng)頁(yè)中主題知識(shí)存在的若干性質(zhì),提出一種主題知識(shí)自增長(zhǎng)的聚焦網(wǎng)絡(luò)爬蟲(chóng)KAG-Crawler,在網(wǎng)頁(yè)爬取過(guò)程中采用一種無(wú)監(jiān)督的學(xué)習(xí)技術(shù)不斷擴(kuò)展主題知識(shí),從而使爬蟲(chóng)在一個(gè)簡(jiǎn)單的初始主題描述條件下,能夠以較高正確率爬取大量網(wǎng)頁(yè)。同時(shí)為便于主題知識(shí)的擴(kuò)展,還提出一種新的主題表示模型,并基于該模型構(gòu)建了新的網(wǎng)頁(yè)主題和URL主題相關(guān)度方法。最后在真實(shí)環(huán)境下的實(shí)驗(yàn)表明,KAG-Crawler的性能顯著高于傳統(tǒng)基于文本相似度的聚焦網(wǎng)絡(luò)爬蟲(chóng)。
[Abstract]:Focusing network crawler is a necessary processing step for various Internet text mining and information retrieval applications. The existing focus network crawler is faced with the challenges of difficult knowledge description and easy to be amplified. We find some properties of existing topic knowledge in web pages, proposes a topic knowledge for self growth focused web crawler KAG-Crawler, in "climbing expanding knowledge using an unsupervised learning technique and process, so as to make the crawler in a simple description of the theme of the initial conditions, at a higher correct rate of crawling a large number of web pages. Meanwhile, in order to facilitate the extension of thematic knowledge, a new topic representation model is also proposed. Based on this model, a new webpage topic and URL topic relevance method are constructed. Finally, the experiment in real environment shows that the performance of KAG-Crawler is significantly higher than that of the traditional focus network crawler based on text similarity.
【作者單位】: 湖南農(nóng)業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院;湖南農(nóng)業(yè)大學(xué)植物保護(hù)學(xué)院;廈門通融軟件科技有限公司;解放軍73111部隊(duì)博士后工作站;湘南學(xué)院計(jì)算機(jī)科學(xué)系;
【基金】:湖南省教育廳外來(lái)生物災(zāi)害預(yù)警機(jī)制研究(62021612008) 湖南省科技計(jì)劃資助項(xiàng)目(2013FJ3032) 湖南省哲學(xué)社會(huì)科學(xué)基金項(xiàng)目(13YBA302)
【分類號(hào)】:TP393.092;TP391.1
【正文快照】: 0引言因特網(wǎng)蘊(yùn)藏著大量的有用信息,Web信息檢索、Web挖掘和知識(shí)發(fā)現(xiàn)等應(yīng)用是人們從因特網(wǎng)上獲取和處理信息的重要手段。網(wǎng)絡(luò)爬蟲(chóng)是這些應(yīng)用必需的第一個(gè)環(huán)節(jié),旨在從因特網(wǎng)上將網(wǎng)頁(yè)采集到本地,供后續(xù)的索引構(gòu)建、信息抽取或文本挖掘等使用。然而,如今的因特網(wǎng)信息量巨大,給網(wǎng)絡(luò)

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 傅向華,馮博琴,馬兆豐,何明;可在線增量自學(xué)習(xí)的聚焦爬行方法[J];西安交通大學(xué)學(xué)報(bào);2004年06期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉豐;韓輝;周蕾;齊峻瑤;徐寶梁;;網(wǎng)絡(luò)信息技術(shù)在傳染病輿情監(jiān)測(cè)中的應(yīng)用[J];中國(guó)國(guó)境衛(wèi)生檢疫雜志;2012年04期

2 馬寧;劉怡君;;基于超網(wǎng)絡(luò)中超邊排序算法的網(wǎng)絡(luò)輿論領(lǐng)袖識(shí)別[J];系統(tǒng)工程;2013年09期

3 劉喜文;鄭昌興;王文龍;湯剛強(qiáng);;構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中的數(shù)據(jù)清洗研究[J];圖書(shū)與情報(bào);2013年05期

4 馬寶君;張楠;孫濤;;智慧城市背景下公眾反饋大數(shù)據(jù)分析:概率主題建模的視角[J];電子政務(wù);2013年12期

5 潘善亮;茅琴嬌;韓露;;一種基于虛擬社交化的Web服務(wù)發(fā)現(xiàn)方法研究[J];電信科學(xué);2013年12期

6 易軍凱;田立康;;基于類別區(qū)分度的文本特征選擇算法研究[J];北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年S1期

7 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁(yè)主題特征項(xiàng)抽取[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2014年01期

8 顧益軍;解易;張培晶;;面向有組織犯罪分析的人際關(guān)系網(wǎng)絡(luò)節(jié)點(diǎn)重要性評(píng)價(jià)研究[J];中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期

9 吳瑞紅;呂學(xué)強(qiáng);;基于互聯(lián)網(wǎng)的術(shù)語(yǔ)定義辨析[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期

10 羅琦;;一種最大分類間隔SVDD的多類文本分類算法[J];電訊技術(shù);2014年04期

相關(guān)會(huì)議論文 前2條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年

2 劉權(quán);郭武;;基于核主成分分析的話題跟蹤系統(tǒng)[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年

相關(guān)博士學(xué)位論文 前10條

1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年

2 史斌;面向語(yǔ)義網(wǎng)的語(yǔ)義搜索引擎關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2010年

3 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年

4 馬飛;云數(shù)據(jù)中心中虛擬機(jī)放置和實(shí)時(shí)遷移研究[D];北京交通大學(xué);2013年

5 李雁妮;深網(wǎng)數(shù)據(jù)集成與挖掘關(guān)鍵問(wèn)題的建模及算法研究[D];西安電子科技大學(xué);2013年

6 樂(lè)承毅;企業(yè)知識(shí)與員工知識(shí)貢獻(xiàn)度集成評(píng)價(jià)方法及應(yīng)用研究[D];浙江大學(xué);2013年

7 孫甲申;基于主題模型和隨機(jī)游走的標(biāo)簽技術(shù)研究[D];北京郵電大學(xué);2013年

8 張鵬;數(shù)據(jù)中心網(wǎng)絡(luò)的流量管理和優(yōu)化問(wèn)題研究[D];北京郵電大學(xué);2013年

9 王寶勛;面向網(wǎng)絡(luò)社區(qū)問(wèn)答對(duì)的語(yǔ)義挖掘研究[D];哈爾濱工業(yè)大學(xué);2013年

10 龔書(shū);抽取式多文檔文摘的文本表示研究[D];北京交通大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 楊哲;基于Groovy的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2010年

2 李銳鑫;Web視頻資源的智能發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年

3 衛(wèi)莉莉;面向領(lǐng)域的Web文本采集與分類[D];西安建筑科技大學(xué);2011年

4 邢敏玲;基于網(wǎng)頁(yè)分塊的主題爬蟲(chóng)方法研究[D];重慶大學(xué);2011年

5 盧振;面向教育新聞的主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年

6 吳昊;主題爬蟲(chóng)URL分析模型與調(diào)度技術(shù)研究[D];哈爾濱工程大學(xué);2011年

7 常旭;主題爬蟲(chóng)穿越隧道算法研究與設(shè)計(jì)[D];山東科技大學(xué);2011年

8 魏霞;面向網(wǎng)絡(luò)教育的學(xué)習(xí)評(píng)價(jià)依據(jù)采集系統(tǒng)的研究與實(shí)現(xiàn)[D];浙江工業(yè)大學(xué);2007年

9 謝德輝;面向刑偵網(wǎng)頁(yè)的信息抽取與主題爬蟲(chóng)應(yīng)用研究[D];大連理工大學(xué);2007年

10 朱良峰;主題網(wǎng)絡(luò)爬蟲(chóng)的研究與設(shè)計(jì)[D];南京理工大學(xué);2008年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 宮秀軍,史忠植;基于Bayes潛在語(yǔ)義模型的半監(jiān)督Web挖掘[J];軟件學(xué)報(bào);2002年08期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2008年06期

2 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲(chóng)研究與優(yōu)化[J];計(jì)算機(jī)科學(xué)與探索;2011年01期

3 王芳;陳海建;;深入解析Web主題爬蟲(chóng)的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期

4 劉潔清;吳京慧;;面向主題的個(gè)人實(shí)時(shí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2006年05期

5 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲(chóng)[J];硅谷;2009年04期

6 王星;劉李敦;;基于移動(dòng)代理(Agent)的智能爬蟲(chóng)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J];科技資訊;2007年28期

7 趙靖華;;網(wǎng)絡(luò)性能指標(biāo)預(yù)測(cè)法指導(dǎo)任務(wù)分配的分布式網(wǎng)頁(yè)信息獲取技術(shù)[J];通化師范學(xué)院學(xué)報(bào);2008年10期

8 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲(chóng)[J];電子科技;2009年01期

9 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[J];大眾科技;2010年02期

10 曾文;湛騰西;;網(wǎng)絡(luò)視頻爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];中國(guó)科技信息;2010年15期

相關(guān)會(huì)議論文 前9條

1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年

2 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年

3 鄒永斌;陳興蜀;王文賢;;一個(gè)高性能Web資源收集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

4 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

5 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年

6 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計(jì)與實(shí)現(xiàn)[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

7 栗振江;楊洋;李麗;;智能問(wèn)答系統(tǒng)[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年

8 安倫;周斌;賈焰;;在線Web挖掘中的計(jì)算資源動(dòng)態(tài)平衡[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年

9 單大甫;周斌;黃九鳴;;基于CAAR算法的文本傾向性分析技術(shù)[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年

相關(guān)博士學(xué)位論文 前1條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 趙茉莉;網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年

2 芮虎;比價(jià)購(gòu)物平臺(tái)中網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華東理工大學(xué);2013年

3 龔秋艷;并行網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2010年

4 張大偉;基于動(dòng)態(tài)概念圖的主題網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與分析[D];遼寧科技大學(xué);2013年

5 王毅桐;分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年

6 黃曉鵬;基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的內(nèi)容探測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年

7 么士宇;基于分布式計(jì)算的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[D];大連海事大學(xué);2011年

8 王洪威;主題網(wǎng)絡(luò)爬蟲(chóng)的分析與設(shè)計(jì)[D];北京郵電大學(xué);2013年

9 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[D];西安電子科技大學(xué);2009年

10 張媚;Ajax友好的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2011年

,

本文編號(hào):1338759

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1338759.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d4679***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com