天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

社交網(wǎng)絡(luò)數(shù)據(jù)抓取和社團(tuán)發(fā)現(xiàn)研究

發(fā)布時(shí)間:2021-01-23 12:38
  社交網(wǎng)絡(luò)服務(wù)(Social Networking Services,SNS)是以人和人之間的關(guān)系為基礎(chǔ)構(gòu)建起來的用于信息發(fā)布和分享的平臺(tái)。它和在線社區(qū)有著本質(zhì)的區(qū)別—在線社區(qū)是以信息本身的某屬性維度來組織的,通常以內(nèi)容為中心,如天涯社區(qū);而社交網(wǎng)絡(luò)則以用戶為核心,注重用戶間的關(guān)系和信息分享,如新浪微博。SNS的概念起源于社會(huì)網(wǎng)絡(luò)研究者提出的“六度理論”,即最多通過六個(gè)人就能認(rèn)識(shí)任何一個(gè)陌生人。SNS將現(xiàn)實(shí)生活中的人際關(guān)系搬到了互聯(lián)網(wǎng),且目前約有一半以上的中國網(wǎng)民通過社交網(wǎng)絡(luò)溝通交流,分享信息,它已然成為覆蓋用戶最廣傳播影響最大、商業(yè)價(jià)值最高的web2.0業(yè)務(wù)。Gartner報(bào)告指出,85%的大數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù),因此,對于社交網(wǎng)絡(luò)的數(shù)據(jù)抓取和挖掘的研究非常重要,本文將在這兩方面做一些探究。目前,對于社交網(wǎng)絡(luò)數(shù)據(jù)抓取通;陂_放API,對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行簡單的抓取和存儲(chǔ),導(dǎo)致巨大的開發(fā)和維護(hù)成本,并且不利于對關(guān)系數(shù)據(jù)進(jìn)行挖掘利用。本文提出了一種基于社交網(wǎng)絡(luò)自身特征的抓取和存儲(chǔ)框架?蚣軐^(qū)分社交網(wǎng)絡(luò)的內(nèi)容信息和關(guān)系信息,針對性地進(jìn)行抓取和存儲(chǔ),并且... 

【文章來源】:復(fù)旦大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:61 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

社交網(wǎng)絡(luò)數(shù)據(jù)抓取和社團(tuán)發(fā)現(xiàn)研究


網(wǎng)頁爬蟲抓取流程

應(yīng)用場,網(wǎng)絡(luò)數(shù)據(jù),工作流程,框架


從概念上而言,nutch并不是僅僅是一個(gè)Web爬蟲,而是一個(gè)基于Java的??開源搜索引擎。它由全文搜索和Web爬蟲兩部分姐成。不同于Heritrix,Nutch??只能獲取頁面中可W索引的內(nèi)容,并且定制能力不強(qiáng)。其工作流程如圖2-3所示:??創(chuàng)建一個(gè)WebDB,其中存儲(chǔ)的是爬蟲所抓取的網(wǎng)頁之間的鏈接結(jié)構(gòu)信息。??從一些種子uri開始啟動(dòng);爬蟲會(huì)根據(jù)WebDB中的鏈接關(guān)系按照一定策略生成??一次循環(huán)的fetch?list,在一次循環(huán)中爬蟲會(huì)對fetch?list中的uri進(jìn)行抓。ㄒ淮??爬行會(huì)生成許多segment,段存儲(chǔ)的是爬蟲在一次抓取過程中抓到的網(wǎng)頁和網(wǎng)頁??的索引,所有segment中的索引合并處理后可yi■形成index,即所有網(wǎng)頁的索引);??然后爬蟲根據(jù)取回的新網(wǎng)頁更新WebDB,而更新的WebDB可W用來生成新的??fetch?list。每次fetch?list生成,抓取,更新WebDB形成一個(gè)"生成/抓。拢??循環(huán)。??詩??1.)的斯t?Start;?一^???V?5.)?update?crawIDB?new?extracted?uris?\?index?\??I?4?■?jtgMaggjgguaiA.??coniem?parser?/?\?JpH??2.)?generate?segment?^?1|||k?s.?j?A?fucew?query??(conl^nsurtsscheduled?forIe?hing)?^?^4.)?par^?comen.?/??

反饋機(jī)制,策略,用戶關(guān)系


關(guān)系反饋??圖3-2、抓取和存儲(chǔ)的反饋機(jī)制??如圖3-2所示,抓取策略直接影響關(guān)系抓取,確定是否抓取某些用戶,W及??抓取這些用戶的優(yōu)先順序。當(dāng)確定了要抓取的用戶關(guān)系,進(jìn)行內(nèi)容抓取時(shí),可??認(rèn)為抓取策略間接影響了內(nèi)容的抓取。抓取子系統(tǒng)會(huì)分別針對這兩種信息進(jìn)行抓??取,面向內(nèi)容數(shù)據(jù)和關(guān)系數(shù)據(jù)分別進(jìn)行存儲(chǔ),同時(shí)這兩部分?jǐn)?shù)據(jù)又可通過定制??化的抓取策略對抓取過程進(jìn)行動(dòng)態(tài)調(diào)整。這就形成了一種反饋機(jī)制,當(dāng)有一定數(shù)??據(jù)積累后,可W逐漸做到趨于精準(zhǔn)的數(shù)據(jù)抓取。??16??

【參考文獻(xiàn)】:
期刊論文
[1]基于Heritrix限定爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張敏,孫敏.  計(jì)算機(jī)應(yīng)用與軟件. 2013(04)
[2]基于Heritrix的面向特定主題的聚焦爬蟲研究[J]. 朱敏,羅省賢.  計(jì)算機(jī)技術(shù)與發(fā)展. 2012(02)
[3]拓展人脈還是維護(hù)關(guān)系——社會(huì)資本視野下的SNS網(wǎng)站悖論[J]. 莊佳婧.  新聞大學(xué). 2010(02)
[4]SNS社交網(wǎng)絡(luò)發(fā)展現(xiàn)狀及趨勢[J]. 王亮.  現(xiàn)代電信科技. 2009(06)
[5]網(wǎng)絡(luò)蜘蛛搜索策略比較研究[J]. 李學(xué)勇,歐陽柳波,李國徽,鐘敏娟.  計(jì)算機(jī)工程與應(yīng)用. 2004(04)



本文編號(hào):2995225

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2995225.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶566a6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com