面向新聞網(wǎng)的智能抓取技術(shù)
本文選題:主題提取 + 網(wǎng)絡(luò)爬蟲。 參考:《控制工程》2013年04期
【摘要】:隨著新聞網(wǎng)信息的急劇增加,研究面向新聞網(wǎng)的智能抓取技術(shù)變得十分必要。在基于主題網(wǎng)絡(luò)爬蟲的基礎(chǔ)上,改進(jìn)了網(wǎng)頁(yè)與主題的相關(guān)度算法,設(shè)計(jì)出面向新聞網(wǎng)的智能抓取技術(shù)。按照預(yù)先確定的主題,分析超鏈接和剛剛抓取的網(wǎng)頁(yè)內(nèi)容,獲取下一個(gè)要爬行的URL。有選擇的訪問新聞網(wǎng)上的網(wǎng)頁(yè)和相關(guān)的鏈接,盡可能保證多爬行與主題相關(guān)的網(wǎng)頁(yè)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的抓取技術(shù)比以往的新聞網(wǎng)抓取技術(shù)在性能上有較大提升,抓取準(zhǔn)確率顯著提高。
[Abstract]:With the rapid increase of news network information, it is necessary to study the intelligent capture technology for news network. On the basis of topic crawler, the correlation algorithm between web page and topic is improved, and the intelligent crawling technology to news network is designed. According to the predefined theme, analyze the hyperlink and the content of the page you just crawled to get the next URLL to crawl. Choose to access web pages and related links on the news network to ensure that as many web pages as possible are crawled related to the topic. The experimental results show that the performance of the improved grabbing technique is much higher than that of the previous news network grabbing technology, and the accuracy rate is improved significantly.
【作者單位】: 東北大學(xué)計(jì)算中心;
【基金】:國(guó)家自然科學(xué)基金(61272179) 中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助(N110316001) 遼寧省自然科學(xué)基金(20092005)
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊愛民;肖健;文福拴;;計(jì)及非發(fā)電權(quán)容量出力調(diào)整的發(fā)電權(quán)阻塞調(diào)度[J];電力系統(tǒng)自動(dòng)化;2009年20期
2 劉昊;;搜索引擎優(yōu)化策略在新聞網(wǎng)站中的應(yīng)用[J];電腦知識(shí)與技術(shù);2009年08期
3 丁鵬;朱莉;;以節(jié)能降耗為目標(biāo)的發(fā)電權(quán)交易模型[J];華中電力;2011年05期
4 陳燕娜,邵志清;基于全文搜索的中文搜索引擎設(shè)計(jì)技術(shù)[J];計(jì)算機(jī)工程與應(yīng)用;2002年17期
5 汪濤,樊孝忠;鏈接分析對(duì)主題爬蟲的改進(jìn)[J];計(jì)算機(jī)應(yīng)用;2004年S2期
6 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
7 魏晶晶;楊定達(dá);廖祥文;;基于網(wǎng)頁(yè)內(nèi)容相似度改進(jìn)算法的主題網(wǎng)絡(luò)爬蟲[J];計(jì)算機(jī)與現(xiàn)代化;2011年09期
8 曹軍;Google的PageRank技術(shù)剖析[J];情報(bào)雜志;2002年10期
9 劉嘉佳;劉俊勇;;CVaR風(fēng)險(xiǎn)度量模型在單期發(fā)電權(quán)交易中的應(yīng)用[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2007年01期
10 張森林;;水電參與電力市場(chǎng)競(jìng)爭(zhēng)若干問題研究(二)[J];水電能源科學(xué);2006年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計(jì)[J];北京理工大學(xué)學(xué)報(bào);2004年10期
2 徐金雷;楊曉江;;基礎(chǔ)教育資源搜索引擎的排序算法研究[J];電化教育研究;2007年02期
3 鐘斌青;劉湘南;;基于空間化PageRank算法的人口流動(dòng)空間集聚性分析[J];地理與地理信息科學(xué);2011年05期
4 盛方正;季建華;;基于發(fā)電期權(quán)交易的發(fā)電公司決策[J];電力系統(tǒng)自動(dòng)化;2007年23期
5 張粒子;韓冰;舒雋;;考慮不確定性的小水電代理競(jìng)爭(zhēng)市場(chǎng)均衡分析[J];電力系統(tǒng)自動(dòng)化;2008年11期
6 肖健;文福拴;;發(fā)電權(quán)交易的阻塞調(diào)度[J];電力系統(tǒng)自動(dòng)化;2008年18期
7 鄭欣;蔣傳文;李磊;趙巖;;基于能耗和效益最優(yōu)的發(fā)電權(quán)節(jié)能降耗分析[J];電力系統(tǒng)自動(dòng)化;2008年24期
8 楊愛民;肖健;文福拴;;計(jì)及非發(fā)電權(quán)容量出力調(diào)整的發(fā)電權(quán)阻塞調(diào)度[J];電力系統(tǒng)自動(dòng)化;2009年20期
9 王雅娟;王先甲;;一種激勵(lì)相容的發(fā)電權(quán)交易雙邊拍賣機(jī)制[J];電力系統(tǒng)自動(dòng)化;2009年22期
10 舒雋;韓冰;張粒子;;市場(chǎng)環(huán)境下梯級(jí)水電資源有效配置的代理機(jī)制[J];電力系統(tǒng)自動(dòng)化;2010年07期
相關(guān)會(huì)議論文 前1條
1 陸勇;侯漢清;;基于詞典注釋的漢語(yǔ)同義詞自動(dòng)識(shí)別[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)博士學(xué)位論文 前10條
1 艾東平;電力市場(chǎng)發(fā)電權(quán)交易及相關(guān)問題的研究[D];華北電力大學(xué)(北京);2011年
2 王楠;發(fā)電調(diào)度優(yōu)化模型與方法研究[D];華北電力大學(xué)(北京);2011年
3 張森林;電力市場(chǎng)雙邊交易若干問題研究[D];華南理工大學(xué);2011年
4 王金鳳;CVaR在電力市場(chǎng)風(fēng)險(xiǎn)管理中的應(yīng)用研究[D];上海大學(xué);2012年
5 常春;Ontology在農(nóng)業(yè)信息管理中的構(gòu)建和轉(zhuǎn)化[D];中國(guó)農(nóng)業(yè)科學(xué)院;2004年
6 劉嘉佳;電力市場(chǎng)環(huán)境下水電的優(yōu)化調(diào)度和風(fēng)險(xiǎn)分析[D];四川大學(xué);2007年
7 宗校軍;中文網(wǎng)頁(yè)定題采集及分類研究[D];華中科技大學(xué);2006年
8 韓冰;水電站參與市場(chǎng)競(jìng)爭(zhēng)的代理機(jī)制設(shè)計(jì)[D];華北電力大學(xué)(北京);2008年
9 張格偉;基于工藝知識(shí)網(wǎng)格的可重構(gòu)CAPP系統(tǒng)關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2008年
10 關(guān)勇;提高電能效率目的下電網(wǎng)企業(yè)購(gòu)售電風(fēng)險(xiǎn)度量與控制模型[D];華北電力大學(xué)(北京);2009年
相關(guān)碩士學(xué)位論文 前10條
1 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長(zhǎng)春理工大學(xué);2010年
2 汪永偉;搜索引擎中網(wǎng)頁(yè)排序算法的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
3 于飛;基于搜索引擎的個(gè)性化推薦研究[D];哈爾濱理工大學(xué);2010年
4 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
5 陳瀟;油脂企業(yè)故障信息管理與診斷系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
6 陳志剛;網(wǎng)絡(luò)Flash資源爬行器的設(shè)計(jì)與實(shí)現(xiàn)[D];山東師范大學(xué);2011年
7 姜博;基于聚焦爬蟲的web信息采集技術(shù)研究[D];北方工業(yè)大學(xué);2011年
8 曹仲偉;FTP搜索引擎的關(guān)鍵技術(shù)研究[D];湖北工業(yè)大學(xué);2011年
9 周源;基于本體的語(yǔ)義垂直搜索引擎研究[D];北京交通大學(xué);2011年
10 崔頃頃;基于個(gè)性化搜索的系統(tǒng)研究與設(shè)計(jì)[D];北京交通大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計(jì)[J];北京理工大學(xué)學(xué)報(bào);2004年10期
2 張玉山,李繼清,紀(jì)昌明,王麗萍;市場(chǎng)環(huán)境下水電運(yùn)營(yíng)方式的探討[J];水電自動(dòng)化與大壩監(jiān)測(cè);2003年05期
3 任震,黃福全,黃雯瑩,吳杰康;電力市場(chǎng)中的發(fā)電廠投標(biāo)組合策略[J];電力系統(tǒng)自動(dòng)化;2002年02期
4 黎燦兵,康重慶,夏清,黃永皓,尚金成,孟遠(yuǎn)景,丁軍威,沈瑜;發(fā)電權(quán)交易及其機(jī)理分析[J];電力系統(tǒng)自動(dòng)化;2003年06期
5 劉亞安,薛禹勝,管曉宏;Price-taker在兩個(gè)電力市場(chǎng)中的交易決策 (二)發(fā)電商的策略[J];電力系統(tǒng)自動(dòng)化;2004年17期
6 王壬,尚金成,馮e,
本文編號(hào):1956718
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1956718.html