天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于社交網(wǎng)絡(luò)信息爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-05-30 04:37

  本文選題:社交網(wǎng)絡(luò) + 網(wǎng)絡(luò)爬蟲(chóng); 參考:《復(fù)旦大學(xué)》2014年碩士論文


【摘要】:社交網(wǎng)絡(luò)作為Web2.0時(shí)代的標(biāo)志,提供了以互聯(lián)網(wǎng)用戶為中心的交流模式和平臺(tái)。通過(guò)社交網(wǎng)絡(luò)平臺(tái),用戶可以進(jìn)行發(fā)表消息,分享內(nèi)容,添加好友以及關(guān)注自己感興趣的人物等操作。社交網(wǎng)絡(luò)平臺(tái)中的用戶一般是以億為單位,用戶與用戶之間通過(guò)相互關(guān)注和好友關(guān)系連成了一張巨大的社會(huì)網(wǎng)絡(luò),消息能夠迅速的在這種網(wǎng)絡(luò)上進(jìn)行傳播。大多數(shù)的社交網(wǎng)絡(luò)平臺(tái)都提供開(kāi)放的API供用戶和開(kāi)發(fā)者獲取平臺(tái)相關(guān)的數(shù)據(jù),但是對(duì)AP1的調(diào)用次數(shù)通常有限制,這使得需要獲取大量數(shù)據(jù)的需求顯得極為不方便。因此,對(duì)社交網(wǎng)絡(luò)信息爬蟲(chóng)的相關(guān)研究有非常重要的意義。本文以社交網(wǎng)絡(luò)平臺(tái)為研究對(duì)象,研究了網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)技術(shù)。目前社交網(wǎng)絡(luò)平臺(tái)大多采用AJAX技術(shù),以便提供豐富的功能以及良好的用戶體驗(yàn),對(duì)社交網(wǎng)絡(luò)平臺(tái)進(jìn)行爬取的過(guò)程也是AJAX頁(yè)面解析的一個(gè)過(guò)程。社交網(wǎng)絡(luò)平臺(tái)產(chǎn)生的數(shù)據(jù)量巨大,數(shù)據(jù)通常是一些稀疏的非結(jié)構(gòu)化的格式,因此使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)顯得不方便。本文使用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB進(jìn)行數(shù)據(jù)的存儲(chǔ);之后在MongoDB存儲(chǔ)的基礎(chǔ)上進(jìn)行信息的檢索,以便獲取用戶感興趣的信息。本文所作的主要工作如下:1、分析了當(dāng)前社交網(wǎng)絡(luò)信息在進(jìn)行爬取時(shí)存在的問(wèn)題,從而引出爬蟲(chóng)設(shè)計(jì)需要實(shí)現(xiàn)的目標(biāo);2、構(gòu)造了一個(gè)適合爬取社交網(wǎng)絡(luò)信息的網(wǎng)絡(luò)爬蟲(chóng),使用廣度優(yōu)先的策略對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行爬;3、使用BeautifulSoup作為做AJAX的解析器,進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)的爬取,從而解決社交網(wǎng)絡(luò)平臺(tái)自身提供的開(kāi)放API對(duì)數(shù)據(jù)的獲取有次數(shù)限制的缺陷;4、爬取的信息包括用戶信息、用戶關(guān)系信息、網(wǎng)絡(luò)內(nèi)容信息以及內(nèi)容評(píng)論信息;5、使用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB進(jìn)行數(shù)據(jù)存儲(chǔ),從而解決社交網(wǎng)絡(luò)數(shù)據(jù)不斷膨脹的問(wèn)題。
[Abstract]:As a symbol of Web2.0 era, social network provides a communication mode and platform centered on Internet users. Social networking platforms allow users to post messages, share content, add friends and focus on people they are interested in. The users in the social network platform are usually in billions of units. The users and users through mutual concern and friends into a huge social network, information can be quickly spread on this network. Most social network platforms provide open API for users and developers to access platform-related data, but the number of calls to AP1 is usually limited, which makes the need to obtain a large amount of data extremely inconvenient. Therefore, the research on social network information crawler is of great significance. In this paper, we take the social network platform as the research object, and study the related technology of the web crawler. At present, most of the social network platforms use AJAX technology to provide rich functions and good user experience. The process of crawling the social network platform is also a process of AJAX page parsing. Because of the huge amount of data generated by the social network platform, the data is usually in some sparse unstructured format, so it is not convenient to use the traditional relational database to store the data. In this paper, the non-relational database MongoDB is used to store the data, and then the information is retrieved on the basis of the MongoDB storage in order to obtain the information of interest to the user. The main work of this paper is as follows: 1. This paper analyzes the problems existing in the crawling of the current social network information, which leads to the goal of crawler design and constructs a web crawler suitable for crawling social network information. Using the strategy of breadth first to crawl the social network data, using BeautifulSoup as the parser of the AJAX, crawling the web page data, In order to solve the social network platform provided by the open API has limited access to the number of data defects, crawling information including user information, user relationship information, Web content information and content review information 5, using non-relational database MongoDB for data storage, so as to solve the social network data expansion problem.
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.09

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李林容;;社交網(wǎng)絡(luò)的特性及其發(fā)展趨勢(shì)[J];新聞界;2010年05期

2 陳琛;沙昊;;社交網(wǎng)絡(luò)的開(kāi)放融合圖譜[J];通信世界;2010年48期

3 楊宇良;;網(wǎng)絡(luò)讓我們更遠(yuǎn)還是更近[J];互聯(lián)網(wǎng)天地;2011年01期

4 陳昱;;社交網(wǎng)絡(luò)革命與國(guó)家安全關(guān)系[J];情報(bào)雜志;2011年S2期

5 勞倫·考克斯;;請(qǐng)?jiān)诠ぷ鲿r(shí)更新你的狀態(tài)[J];科技創(chuàng)業(yè);2011年05期

6 斯蒂芬·卡斯;;在線社區(qū)能否解決隱私問(wèn)題[J];科技創(chuàng)業(yè);2011年08期

7 陳云鵬;;電子商務(wù)引領(lǐng)社交網(wǎng)絡(luò)走進(jìn)2.0時(shí)代[J];上海信息化;2012年01期

8 馬文剛;;智慧的物聯(lián)社交網(wǎng)絡(luò)[J];上海信息化;2012年03期

9 朱乾龍;張倩;杜娟;;我國(guó)社交網(wǎng)絡(luò)繁榮背后面臨深層次問(wèn)題困擾[J];世界電信;2012年06期

10 劉華;;社交網(wǎng)絡(luò)的融合之路[J];軟件工程師;2012年07期

相關(guān)會(huì)議論文 前10條

1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測(cè)與關(guān)系強(qiáng)度研究[A];第七屆(2012)中國(guó)管理學(xué)年會(huì)商務(wù)智能分會(huì)場(chǎng)論文集(選編)[C];2012年

2 宮廣宇;李開(kāi)軍;;對(duì)社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎(jiǎng)?wù)撐腫C];2010年

3 楊子鵬;喬麗娟;王夢(mèng)思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議論文集[C];2013年

4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國(guó)體育科學(xué)大會(huì)論文摘要匯編(4)[C];2011年

5 杜p,

本文編號(hào):1953977


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1953977.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶42dd3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
白丝美女被插入视频在线观看| 国产亚洲精品俞拍视频福利区| 91免费一区二区三区| 日韩一区二区三区久久| 免费在线观看欧美喷水黄片| 国产女优视频一区二区| 日韩一级一片内射视频4k| 久久大香蕉一区二区三区| 都市激情小说在线一区二区三区| 少妇毛片一区二区三区| 人妻内射在线二区一区| 亚洲a级一区二区不卡| 中日韩美女黄色一级片| 国产亚洲欧美另类久久久| 亚洲午夜av一区二区| 日韩成人免费性生活视频| 日韩欧美国产高清在线| 午夜久久久精品国产精品| 国产又粗又猛又大爽又黄| 国产亚洲精品岁国产微拍精品| 国产老熟女乱子人伦视频| 成人精品一区二区三区在线| 久久精品久久久精品久久| 欧美性高清一区二区三区视频| 日韩欧美一区二区黄色| 中文字幕禁断介一区二区| 日韩欧美一区二区久久婷婷| 亚洲视频偷拍福利来袭| 亚洲国产综合久久天堂| 日本午夜乱色视频在线观看| 日本在线高清精品人妻| 婷婷九月在线中文字幕| 一区二区三区日本高清| 国产欧美日韩综合精品二区| 精品亚洲香蕉久久综合网| 欧美日韩精品视频在线| 日韩aa一区二区三区| 亚洲一区二区三区中文久久| 中文字幕禁断介一区二区 | 中文文精品字幕一区二区| 欧美一区二区三区99|