百度百科景點(diǎn)信息爬取及組織研究
發(fā)布時(shí)間:2017-08-21 14:29
本文關(guān)鍵詞:百度百科景點(diǎn)信息爬取及組織研究
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 搜索引擎 百度百科 景點(diǎn)大數(shù)據(jù)
【摘要】:百度百科是百度公司推出的一部內(nèi)容開放、免費(fèi)的網(wǎng)絡(luò)百科全書平臺,百度公司已在它的基礎(chǔ)上開發(fā)了百度搜索引擎和百度知道等功能十分強(qiáng)大的應(yīng)用。為滿足"景點(diǎn)達(dá)人"移動(dòng)應(yīng)用開發(fā)的需要,研究了從百度百科爬取景點(diǎn)信息網(wǎng)頁、解析網(wǎng)頁以及組織全國范圍內(nèi)將近6000個(gè)景點(diǎn)信息的技術(shù)和方法。收集的數(shù)據(jù)使景點(diǎn)達(dá)人APP順利上線,對開發(fā)旅游相關(guān)的其他大數(shù)據(jù)應(yīng)用具有十分重要的價(jià)值。
【作者單位】: 湖南農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院;湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院;
【關(guān)鍵詞】: 網(wǎng)絡(luò)爬蟲 搜索引擎 百度百科 景點(diǎn)大數(shù)據(jù)
【分類號】:TP393.092;TP391.3
【正文快照】: 1相關(guān)技術(shù)介紹1.1網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(又稱網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人),它是按一定規(guī)則自動(dòng)抓取網(wǎng)頁信息的程序,它可以用來檢查站點(diǎn)鏈接的有效性,若是能把網(wǎng)頁中的相關(guān)數(shù)據(jù)保存下來,就成了搜索引擎。1.2 Html UnitHtml Unit是一款開源的JAVA頁面分析工具,讀取頁面后,可以有效的使Html
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 胡婕茹;楊小平;黃都培;;從百度百科挖掘領(lǐng)域知識相關(guān)度[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
2 ;[J];;年期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張佳佳;基于百度百科的隱性語義知識挖掘研究[D];河南師范大學(xué);2014年
,本文編號:713443
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/713443.html
最近更新
教材專著