基于社交網(wǎng)絡(luò)信息爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:社交網(wǎng)絡(luò) + 網(wǎng)絡(luò)爬蟲(chóng); 參考:《復(fù)旦大學(xué)》2014年碩士論文
【摘要】:社交網(wǎng)絡(luò)作為Web2.0時(shí)代的標(biāo)志,提供了以互聯(lián)網(wǎng)用戶為中心的交流模式和平臺(tái)。通過(guò)社交網(wǎng)絡(luò)平臺(tái),用戶可以進(jìn)行發(fā)表消息,分享內(nèi)容,添加好友以及關(guān)注自己感興趣的人物等操作。社交網(wǎng)絡(luò)平臺(tái)中的用戶一般是以億為單位,用戶與用戶之間通過(guò)相互關(guān)注和好友關(guān)系連成了一張巨大的社會(huì)網(wǎng)絡(luò),消息能夠迅速的在這種網(wǎng)絡(luò)上進(jìn)行傳播。大多數(shù)的社交網(wǎng)絡(luò)平臺(tái)都提供開(kāi)放的API供用戶和開(kāi)發(fā)者獲取平臺(tái)相關(guān)的數(shù)據(jù),但是對(duì)AP1的調(diào)用次數(shù)通常有限制,這使得需要獲取大量數(shù)據(jù)的需求顯得極為不方便。因此,對(duì)社交網(wǎng)絡(luò)信息爬蟲(chóng)的相關(guān)研究有非常重要的意義。本文以社交網(wǎng)絡(luò)平臺(tái)為研究對(duì)象,研究了網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)技術(shù)。目前社交網(wǎng)絡(luò)平臺(tái)大多采用AJAX技術(shù),以便提供豐富的功能以及良好的用戶體驗(yàn),對(duì)社交網(wǎng)絡(luò)平臺(tái)進(jìn)行爬取的過(guò)程也是AJAX頁(yè)面解析的一個(gè)過(guò)程。社交網(wǎng)絡(luò)平臺(tái)產(chǎn)生的數(shù)據(jù)量巨大,數(shù)據(jù)通常是一些稀疏的非結(jié)構(gòu)化的格式,因此使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)顯得不方便。本文使用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB進(jìn)行數(shù)據(jù)的存儲(chǔ);之后在MongoDB存儲(chǔ)的基礎(chǔ)上進(jìn)行信息的檢索,以便獲取用戶感興趣的信息。本文所作的主要工作如下:1、分析了當(dāng)前社交網(wǎng)絡(luò)信息在進(jìn)行爬取時(shí)存在的問(wèn)題,從而引出爬蟲(chóng)設(shè)計(jì)需要實(shí)現(xiàn)的目標(biāo);2、構(gòu)造了一個(gè)適合爬取社交網(wǎng)絡(luò)信息的網(wǎng)絡(luò)爬蟲(chóng),使用廣度優(yōu)先的策略對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行爬;3、使用BeautifulSoup作為做AJAX的解析器,進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)的爬取,從而解決社交網(wǎng)絡(luò)平臺(tái)自身提供的開(kāi)放API對(duì)數(shù)據(jù)的獲取有次數(shù)限制的缺陷;4、爬取的信息包括用戶信息、用戶關(guān)系信息、網(wǎng)絡(luò)內(nèi)容信息以及內(nèi)容評(píng)論信息;5、使用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB進(jìn)行數(shù)據(jù)存儲(chǔ),從而解決社交網(wǎng)絡(luò)數(shù)據(jù)不斷膨脹的問(wèn)題。
[Abstract]:As a symbol of Web2.0 era, social network provides a communication mode and platform centered on Internet users. Social networking platforms allow users to post messages, share content, add friends and focus on people they are interested in. The users in the social network platform are usually in billions of units. The users and users through mutual concern and friends into a huge social network, information can be quickly spread on this network. Most social network platforms provide open API for users and developers to access platform-related data, but the number of calls to AP1 is usually limited, which makes the need to obtain a large amount of data extremely inconvenient. Therefore, the research on social network information crawler is of great significance. In this paper, we take the social network platform as the research object, and study the related technology of the web crawler. At present, most of the social network platforms use AJAX technology to provide rich functions and good user experience. The process of crawling the social network platform is also a process of AJAX page parsing. Because of the huge amount of data generated by the social network platform, the data is usually in some sparse unstructured format, so it is not convenient to use the traditional relational database to store the data. In this paper, the non-relational database MongoDB is used to store the data, and then the information is retrieved on the basis of the MongoDB storage in order to obtain the information of interest to the user. The main work of this paper is as follows: 1. This paper analyzes the problems existing in the crawling of the current social network information, which leads to the goal of crawler design and constructs a web crawler suitable for crawling social network information. Using the strategy of breadth first to crawl the social network data, using BeautifulSoup as the parser of the AJAX, crawling the web page data, In order to solve the social network platform provided by the open API has limited access to the number of data defects, crawling information including user information, user relationship information, Web content information and content review information 5, using non-relational database MongoDB for data storage, so as to solve the social network data expansion problem.
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.09
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李林容;;社交網(wǎng)絡(luò)的特性及其發(fā)展趨勢(shì)[J];新聞界;2010年05期
2 陳琛;沙昊;;社交網(wǎng)絡(luò)的開(kāi)放融合圖譜[J];通信世界;2010年48期
3 楊宇良;;網(wǎng)絡(luò)讓我們更遠(yuǎn)還是更近[J];互聯(lián)網(wǎng)天地;2011年01期
4 陳昱;;社交網(wǎng)絡(luò)革命與國(guó)家安全關(guān)系[J];情報(bào)雜志;2011年S2期
5 勞倫·考克斯;;請(qǐng)?jiān)诠ぷ鲿r(shí)更新你的狀態(tài)[J];科技創(chuàng)業(yè);2011年05期
6 斯蒂芬·卡斯;;在線社區(qū)能否解決隱私問(wèn)題[J];科技創(chuàng)業(yè);2011年08期
7 陳云鵬;;電子商務(wù)引領(lǐng)社交網(wǎng)絡(luò)走進(jìn)2.0時(shí)代[J];上海信息化;2012年01期
8 馬文剛;;智慧的物聯(lián)社交網(wǎng)絡(luò)[J];上海信息化;2012年03期
9 朱乾龍;張倩;杜娟;;我國(guó)社交網(wǎng)絡(luò)繁榮背后面臨深層次問(wèn)題困擾[J];世界電信;2012年06期
10 劉華;;社交網(wǎng)絡(luò)的融合之路[J];軟件工程師;2012年07期
相關(guān)會(huì)議論文 前10條
1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測(cè)與關(guān)系強(qiáng)度研究[A];第七屆(2012)中國(guó)管理學(xué)年會(huì)商務(wù)智能分會(huì)場(chǎng)論文集(選編)[C];2012年
2 宮廣宇;李開(kāi)軍;;對(duì)社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎(jiǎng)?wù)撐腫C];2010年
3 楊子鵬;喬麗娟;王夢(mèng)思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國(guó)體育科學(xué)大會(huì)論文摘要匯編(4)[C];2011年
5 杜p,
本文編號(hào):1953977
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1953977.html