百度百科景點(diǎn)信息爬取及組織研究

發(fā)布時(shí)間：2017-08-21 14:29

本文關(guān)鍵詞：百度百科景點(diǎn)信息爬取及組織研究

【摘要】：百度百科是百度公司推出的一部內(nèi)容開放、免費(fèi)的網(wǎng)絡(luò)百科全書平臺,百度公司已在它的基礎(chǔ)上開發(fā)了百度搜索引擎和百度知道等功能十分強(qiáng)大的應(yīng)用。為滿足"景點(diǎn)達(dá)人"移動(dòng)應(yīng)用開發(fā)的需要,研究了從百度百科爬取景點(diǎn)信息網(wǎng)頁、解析網(wǎng)頁以及組織全國范圍內(nèi)將近6000個(gè)景點(diǎn)信息的技術(shù)和方法。收集的數(shù)據(jù)使景點(diǎn)達(dá)人APP順利上線,對開發(fā)旅游相關(guān)的其他大數(shù)據(jù)應(yīng)用具有十分重要的價(jià)值。
【作者單位】：湖南農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院;湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院;
【關(guān)鍵詞】： 網(wǎng)絡(luò)爬蟲 搜索引擎 百度百科 景點(diǎn)大數(shù)據(jù)
【分類號】：TP393.092;TP391.3
【正文快照】： 1相關(guān)技術(shù)介紹1.1網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(又稱網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人),它是按一定規(guī)則自動(dòng)抓取網(wǎng)頁信息的程序,它可以用來檢查站點(diǎn)鏈接的有效性,若是能把網(wǎng)頁中的相關(guān)數(shù)據(jù)保存下來,就成了搜索引擎。1.2 Html UnitHtml Unit是一款開源的JAVA頁面分析工具,讀取頁面后,可以有效的使Html

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前2條

1 胡婕茹;楊小平;黃都培;;從百度百科挖掘領(lǐng)域知識相關(guān)度[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

2 ;[J];;年期

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 張佳佳;基于百度百科的隱性語義知識挖掘研究[D];河南師范大學(xué);2014年

，

本文編號：713443

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/713443.html

上一篇：淺談增強(qiáng)現(xiàn)實(shí)技術(shù)及其軍事應(yīng)用
下一篇：機(jī)器翻譯對網(wǎng)絡(luò)信息安全的影響研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

百度百科景點(diǎn)信息爬取及組織研究