基于網(wǎng)絡(luò)爬蟲的社區(qū)發(fā)現(xiàn)及意見(jiàn)領(lǐng)袖挖掘方法研究
發(fā)布時(shí)間:2021-06-27 14:29
隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),人們完成信息交流的方式不再局限于現(xiàn)實(shí)媒介,許多人開始使用互聯(lián)網(wǎng)進(jìn)行信息交流,在線社交平臺(tái)便是其中的一種。微博作為其中一種網(wǎng)絡(luò)信息交流平臺(tái)受到眾多人們的喜愛(ài)。在使用微博的用戶越來(lái)越多后,大量的用戶集群使微博具有社交網(wǎng)絡(luò)特性,通過(guò)用戶間的關(guān)注關(guān)系、轉(zhuǎn)發(fā)功能使用戶間存在緊密的聯(lián)系,因此對(duì)微博社交網(wǎng)絡(luò)進(jìn)行分析逐漸成為人們研究的熱點(diǎn)。本文對(duì)于微博社會(huì)網(wǎng)絡(luò)分析的研究主要有以下幾個(gè)方面:1、討論了本文主要研究?jī)?nèi)容的研究現(xiàn)狀,并討論了相關(guān)理論概念及技術(shù)。2、通過(guò)分布式爬蟲系統(tǒng)獲取社交網(wǎng)絡(luò)平臺(tái)中的資源,以微博為目標(biāo),搭建了完整的分布式爬蟲體系,分析研究了反爬蟲技術(shù)以及解決辦法,完成對(duì)數(shù)據(jù)的分析、處理和存儲(chǔ),為之后的工作提供數(shù)據(jù)基礎(chǔ)。3、進(jìn)一步分析通過(guò)分布式爬蟲獲取的微博數(shù)據(jù),對(duì)爬取到的微博用戶進(jìn)行社區(qū)劃分,通過(guò)Spark并行化框架實(shí)現(xiàn)基于GraphX的并行化Louvain算法,使算法的運(yùn)行效率顯著提升。4、學(xué)習(xí)研究了社區(qū)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)算法,以PageRank算法的思想為根據(jù),對(duì)比分析了社區(qū)網(wǎng)絡(luò)與網(wǎng)頁(yè)鏈接網(wǎng)絡(luò)的相似性,發(fā)現(xiàn)社區(qū)網(wǎng)絡(luò)中的用戶的用戶初始影響力特性以及用戶交互行為影響力特性,...
【文章來(lái)源】:北京印刷學(xué)院北京市
【文章頁(yè)數(shù)】:47 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
HTML DOM Tree實(shí)例
無(wú)論在現(xiàn)實(shí)中還是在網(wǎng)絡(luò)中,每個(gè)人都有自己的社交網(wǎng)絡(luò),因?yàn)槊總(gè)人都會(huì)有家人、朋友或者熟人。而通過(guò)網(wǎng)絡(luò),這個(gè)社交網(wǎng)路的范圍會(huì)被擴(kuò)大,人們可以通過(guò)網(wǎng)絡(luò)連接到許多更多不在我們社交范圍內(nèi)的人,在網(wǎng)絡(luò)中人們可以結(jié)識(shí)更多與自己志趣相投的人或者一些有共同關(guān)注的人。因此在社交平臺(tái)中,大多數(shù)用戶會(huì)擁有比現(xiàn)實(shí)中更龐大的社交范圍。由于社交范圍的擴(kuò)大,越來(lái)越多有相同愛(ài)好或?qū)傩缘娜俗园l(fā)的相互關(guān)注就逐漸的形成了社區(qū)。通俗的來(lái)講,社區(qū)是網(wǎng)絡(luò)中相似對(duì)象的集合,集合內(nèi)部的用戶節(jié)點(diǎn)距離較近、屬性相似。如圖2-2所示,圖中的點(diǎn)代表不同的用戶,點(diǎn)與點(diǎn)之間的連線則代表用戶間的聯(lián)系。由于現(xiàn)代生活的多面性,一個(gè)人可能會(huì)屬于多個(gè)社區(qū)。甚至,社區(qū)會(huì)重合或者說(shuō)嵌套。
GN算法示例圖如圖2-3所示[15]:假設(shè)存在一個(gè)有m條邊和n個(gè)節(jié)點(diǎn)的社區(qū)網(wǎng)絡(luò),GN算法完成該社區(qū)計(jì)算的時(shí)間復(fù)雜度為。這使得GN算法在計(jì)算邊介數(shù)時(shí)會(huì)耗費(fèi)大量的時(shí)間,除此之外GN算法還存在不能判斷停止位置的缺點(diǎn)。雖然GN算法有很多缺點(diǎn),但該算法的思想為后面的研究者們提供了寶貴的思路。
【參考文獻(xiàn)】:
期刊論文
[1]加權(quán)有向圖社區(qū)發(fā)現(xiàn)的子系統(tǒng)劃分[J]. 楊曉峰,謝巍,張浪文. 控制理論與應(yīng)用. 2020(09)
[2]基于python網(wǎng)絡(luò)爬蟲的瀏覽器偽裝技術(shù)探討[J]. 余本國(guó). 太原學(xué)院學(xué)報(bào)(自然科學(xué)版). 2020(01)
[3]基于改進(jìn)LeaderRank算法的高速鐵路網(wǎng)絡(luò)關(guān)鍵站點(diǎn)識(shí)別方法研究[J]. 陳錦渠,劉杰,殷勇,孫靖翔. 交通運(yùn)輸工程與信息學(xué)報(bào). 2020(01)
[4]基于Hadoop的數(shù)據(jù)挖掘?qū)嵺`平臺(tái)研究與應(yīng)用[J]. 王輝,潘俊輝,王浩暢,張強(qiáng). 赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版). 2020(02)
[5]基于網(wǎng)絡(luò)爬蟲的網(wǎng)絡(luò)平臺(tái)用戶數(shù)據(jù)獲取與分析[J]. 李世杰,高雅蓉. 計(jì)算機(jī)與網(wǎng)絡(luò). 2020(01)
[6]分布式爬蟲的研究與實(shí)現(xiàn)[J]. 馬蕾,馮錫煒,竇予梓,高天鑄,朱睿,吳衍兵. 計(jì)算機(jī)技術(shù)與發(fā)展. 2020(02)
[7]基于URL和PageRank的公安輿情關(guān)鍵人物評(píng)估[J]. 張俊豪,李楊. 鐵道警察學(xué)院學(xué)報(bào). 2019(05)
[8]基于反向PageRank的影響力最大化算法[J]. 張憲立,唐建新,曹來(lái)成. 計(jì)算機(jī)應(yīng)用. 2020(01)
[9]基于Spark GraphX的異構(gòu)網(wǎng)絡(luò)社區(qū)檢測(cè)[J]. 包文瑞. 信息技術(shù). 2019(08)
[10]基于改進(jìn)PageRank算法的作者影響力評(píng)價(jià)研究[J]. 臧思思,李秀霞,孔月. 情報(bào)理論與實(shí)踐. 2019(11)
碩士論文
[1]一種分布式聚焦型爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 黃林波.華中科技大學(xué) 2016
[2]Louvain算法在社區(qū)挖掘中的研究與實(shí)現(xiàn)[D]. 李沐南.中國(guó)石油大學(xué)(北京) 2016
[3]基于Fish-search算法的垂直搜索引擎研究與設(shè)計(jì)[D]. 舒奔.安徽理工大學(xué) 2014
本文編號(hào):3253027
【文章來(lái)源】:北京印刷學(xué)院北京市
【文章頁(yè)數(shù)】:47 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
HTML DOM Tree實(shí)例
無(wú)論在現(xiàn)實(shí)中還是在網(wǎng)絡(luò)中,每個(gè)人都有自己的社交網(wǎng)絡(luò),因?yàn)槊總(gè)人都會(huì)有家人、朋友或者熟人。而通過(guò)網(wǎng)絡(luò),這個(gè)社交網(wǎng)路的范圍會(huì)被擴(kuò)大,人們可以通過(guò)網(wǎng)絡(luò)連接到許多更多不在我們社交范圍內(nèi)的人,在網(wǎng)絡(luò)中人們可以結(jié)識(shí)更多與自己志趣相投的人或者一些有共同關(guān)注的人。因此在社交平臺(tái)中,大多數(shù)用戶會(huì)擁有比現(xiàn)實(shí)中更龐大的社交范圍。由于社交范圍的擴(kuò)大,越來(lái)越多有相同愛(ài)好或?qū)傩缘娜俗园l(fā)的相互關(guān)注就逐漸的形成了社區(qū)。通俗的來(lái)講,社區(qū)是網(wǎng)絡(luò)中相似對(duì)象的集合,集合內(nèi)部的用戶節(jié)點(diǎn)距離較近、屬性相似。如圖2-2所示,圖中的點(diǎn)代表不同的用戶,點(diǎn)與點(diǎn)之間的連線則代表用戶間的聯(lián)系。由于現(xiàn)代生活的多面性,一個(gè)人可能會(huì)屬于多個(gè)社區(qū)。甚至,社區(qū)會(huì)重合或者說(shuō)嵌套。
GN算法示例圖如圖2-3所示[15]:假設(shè)存在一個(gè)有m條邊和n個(gè)節(jié)點(diǎn)的社區(qū)網(wǎng)絡(luò),GN算法完成該社區(qū)計(jì)算的時(shí)間復(fù)雜度為。這使得GN算法在計(jì)算邊介數(shù)時(shí)會(huì)耗費(fèi)大量的時(shí)間,除此之外GN算法還存在不能判斷停止位置的缺點(diǎn)。雖然GN算法有很多缺點(diǎn),但該算法的思想為后面的研究者們提供了寶貴的思路。
【參考文獻(xiàn)】:
期刊論文
[1]加權(quán)有向圖社區(qū)發(fā)現(xiàn)的子系統(tǒng)劃分[J]. 楊曉峰,謝巍,張浪文. 控制理論與應(yīng)用. 2020(09)
[2]基于python網(wǎng)絡(luò)爬蟲的瀏覽器偽裝技術(shù)探討[J]. 余本國(guó). 太原學(xué)院學(xué)報(bào)(自然科學(xué)版). 2020(01)
[3]基于改進(jìn)LeaderRank算法的高速鐵路網(wǎng)絡(luò)關(guān)鍵站點(diǎn)識(shí)別方法研究[J]. 陳錦渠,劉杰,殷勇,孫靖翔. 交通運(yùn)輸工程與信息學(xué)報(bào). 2020(01)
[4]基于Hadoop的數(shù)據(jù)挖掘?qū)嵺`平臺(tái)研究與應(yīng)用[J]. 王輝,潘俊輝,王浩暢,張強(qiáng). 赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版). 2020(02)
[5]基于網(wǎng)絡(luò)爬蟲的網(wǎng)絡(luò)平臺(tái)用戶數(shù)據(jù)獲取與分析[J]. 李世杰,高雅蓉. 計(jì)算機(jī)與網(wǎng)絡(luò). 2020(01)
[6]分布式爬蟲的研究與實(shí)現(xiàn)[J]. 馬蕾,馮錫煒,竇予梓,高天鑄,朱睿,吳衍兵. 計(jì)算機(jī)技術(shù)與發(fā)展. 2020(02)
[7]基于URL和PageRank的公安輿情關(guān)鍵人物評(píng)估[J]. 張俊豪,李楊. 鐵道警察學(xué)院學(xué)報(bào). 2019(05)
[8]基于反向PageRank的影響力最大化算法[J]. 張憲立,唐建新,曹來(lái)成. 計(jì)算機(jī)應(yīng)用. 2020(01)
[9]基于Spark GraphX的異構(gòu)網(wǎng)絡(luò)社區(qū)檢測(cè)[J]. 包文瑞. 信息技術(shù). 2019(08)
[10]基于改進(jìn)PageRank算法的作者影響力評(píng)價(jià)研究[J]. 臧思思,李秀霞,孔月. 情報(bào)理論與實(shí)踐. 2019(11)
碩士論文
[1]一種分布式聚焦型爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 黃林波.華中科技大學(xué) 2016
[2]Louvain算法在社區(qū)挖掘中的研究與實(shí)現(xiàn)[D]. 李沐南.中國(guó)石油大學(xué)(北京) 2016
[3]基于Fish-search算法的垂直搜索引擎研究與設(shè)計(jì)[D]. 舒奔.安徽理工大學(xué) 2014
本文編號(hào):3253027
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3253027.html
最近更新
教材專著