天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

在線社區(qū)中的用戶行為分析及熱度預測

發(fā)布時間:2018-02-03 09:15

  本文關鍵詞: 在線社區(qū) Scrapy爬蟲 回復網(wǎng)絡 用戶分類 熱貼預測 出處:《浙江大學》2017年碩士論文 論文類型:學位論文


【摘要】:隨著Web 2.0的日益普及,各類在線社區(qū)也應運而生。在線社區(qū)具有現(xiàn)實社區(qū)所不具有的超時空性、符號性以及虛擬性,因而吸引了越來越多的互聯(lián)網(wǎng)用戶參與到其中。如何從這些在線社區(qū)中產生的海量數(shù)據(jù)中挖掘出有價值的信息也成為了當下熱門的研究課題。本文基于百度貼吧的數(shù)據(jù)集對貼吧中的用戶行為進行了分析,同時也提出了一種熱貼預測模型。本文的工作主要包括以下幾個方面:(1)設計并實現(xiàn)了基于Scrapy的網(wǎng)絡爬蟲,對百度貼吧中某貼吧于7、8月間產生的數(shù)據(jù)進行了采集。經(jīng)過數(shù)據(jù)預處理后,數(shù)據(jù)集包含了約6萬個主題貼、249萬個回復貼以及22萬個用戶的信息,通過實驗發(fā)現(xiàn)主題貼的獲回貼數(shù)滿足冪律分布;(2)基于上文獲取的數(shù)據(jù)集構建了貼吧用戶之間的回復網(wǎng)絡,驗證了該回復網(wǎng)絡也具有社交網(wǎng)絡的小世界和無標度特性。并且從活躍時間、發(fā)貼數(shù)、獲回貼數(shù)以及回復時延四個角度對貼吧用戶行為進行了分析。最后,對貼吧用戶進行了聚類研究,通過額外引入"平均回復時延"這一用戶行為指標,得到了有趣的分類結果并對其進行了詳細闡述;(3)提出了一種基于時間閥值T的熱貼預測模型,提取了與上文構建的回復網(wǎng)絡相關的特征,并結合其他三類特征,對貼子最終能否成為熱門貼進行預測,并通過實驗驗證了該預測模型的有效性。最后,通過對比實驗分析了不同的時間閥值T、不同的分類模型以及不同的特征組合對預測效果產生的影響。
[Abstract]:With the increasing popularity of Web 2.0, all kinds of online communities have emerged. Online communities have the transcendental, symbolic and virtual properties that the real community does not have. Therefore, it attracts more and more Internet users to participate in it. How to extract valuable information from the massive data generated from these online communities has also become a hot research topic at present. This paper is based on Baidu Tieba. The user behavior in the post bar is analyzed in the data set of. At the same time, a hot patch prediction model is proposed. The main work of this paper includes the following aspects: 1) designed and implemented the Scrapy based web crawler. The data generated in August was collected. After data preprocessing, the dataset contained about 60, 000 topic posts, 2. 49 million reply posts and 220,000 users' information. It is found by experiments that the number of reposted objects meets the power law distribution. Based on the data set obtained above, a reply network between the users of the post bar is constructed, which verifies that the response network also has the small-world and scale-free characteristics of the social network, and posts from the active time. Finally, the user behavior is analyzed from four aspects: the number of posts returned and the response delay. Finally, the user behavior index of "average reply delay" is introduced by clustering the users. Some interesting classification results are obtained and explained in detail. (3) A hot patch prediction model based on time threshold T is proposed. The features related to the response network constructed above are extracted, and the other three kinds of features are combined to predict whether the post will eventually become a hot sticker. The effectiveness of the prediction model is verified by experiments. Finally, the effects of different time threshold T, different classification models and different feature combinations on the prediction results are analyzed through comparative experiments.
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13;TP393.09

【相似文獻】

相關期刊論文 前10條

1 王文蓮;張志宇;;預測模型智能選擇的探討[J];中國管理信息化;2006年02期

2 師瑞峰;周一民;;基于數(shù)據(jù)挖掘的人口數(shù)據(jù)預測模型綜述[J];計算機工程與應用;2008年09期

3 姚光圻;趙榮黎;;場強預測模型分析及應用[J];移動通訊裝備;1987年05期

4 唐蕓,秦秀華,蘇杰南;一種簡易預測模型的應用[J];林業(yè)調查規(guī)劃;2002年02期

5 吳學雁;辜敏;漆晨曦;;綜合運用各種建模方法提高預測模型的準確度[J];廣東通信技術;2006年06期

6 張飛飛;吳杰;呂智慧;;云計算資源管理中的預測模型綜述[J];計算機工程與設計;2013年09期

7 廖燦平,柳玉柏;科技期刊發(fā)行量的灰色預測模型[J];編輯學報;1990年04期

8 劉曉雁,方憶岡;“讀者需求”預測模型[J];晉圖學刊;1997年02期

9 張慧敏;宋東;郭勇;王彥松;;故障預測模型的評價方法研究[J];測控技術;2013年05期

10 謝開貴,何斌,鄭繼明;灰色預測模型建模方法探討[J];重慶郵電學院學報;1998年03期

相關會議論文 前10條

1 鄢小彬;肖新平;;基于灰色馬爾可夫模型的煤礦安全預測[A];第九屆中國青年信息與管理學者大會論文集[C];2007年

2 羅榮桂;黃敏鎂;;基于自適應神經(jīng)模糊推理系統(tǒng)的服務業(yè)發(fā)展預測模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年

3 王亮;劉豹;徐德民;;預測模型的選擇及其智能化實現(xiàn)[A];科學決策與系統(tǒng)工程——中國系統(tǒng)工程學會第六次年會論文集[C];1990年

4 肖健華;吳今培;;基于支持向量機的預測模型及應用[A];2003年中國智能自動化會議論文集(下冊)[C];2003年

5 李陽旭;鄧輝文;;一種新的企業(yè)市場預測模型及其比較研究[A];2004年中國管理科學學術會議論文集[C];2004年

6 馬志元;;城市區(qū)域經(jīng)濟、人口、能源、環(huán)境綜合系統(tǒng)預測模型及應用[A];中國城市建設與環(huán)境保護實踐——城市建設與環(huán)境保護學術研討會論文集[C];1997年

7 李兆芹;姚克敏;;一種新的疾病發(fā)病率預測模型研究[A];首屆長三角氣象科技論壇論文集[C];2004年

8 李兆芹;姚克敏;;一種新的疾病發(fā)病率預測模型研究[A];首屆長三角科技論壇——氣象科技發(fā)展論壇論文集[C];2004年

9 張曉f^;;全球煤炭產量的灰色預測模型[A];中國現(xiàn)場統(tǒng)計研究會第十三屆學術年會論文集[C];2007年

10 肖會敏;樊為剛;;基于神經(jīng)網(wǎng)絡的糧食產量預測模型[A];04'中國企業(yè)自動化和信息化建設論壇暨中南六省區(qū)自動化學會學術年會專輯[C];2004年

相關重要報紙文章 前10條

1 劉慶;“預測模型”要緩行[N];網(wǎng)絡世界;2006年

2 特約記者 劉京濤;華東化工銷售員工設計價格預測模型見成效[N];中國石油報;2010年

3 南方日報記者 彭琳 實習生 周鵬程;預測世界杯之外 大數(shù)據(jù)還能做什么[N];南方日報;2014年

4 本報記者 張超;預測模型:推算SARS起落潮[N];科技日報;2003年

5 本報記者 段佳;機器“品肉師”替您“嘗鮮”[N];大眾科技報;2010年

6 BMC首席IT技術官 Mahendra Durai IDC顧問 Eric Hatcher Randy Perry;預測智能:管理復雜基礎架構的鎖鑰[N];中國計算機報;2010年

7 張琳 趙偉;巧用Excel構建利潤預測模型[N];財會信報;2007年

8 楊宜勇(作者為國家發(fā)改委經(jīng)濟研究所副所長);發(fā)揮信息化對就業(yè)的“增補效應”[N];第一財經(jīng)日報;2005年

9 本報記者 湯潯芳 實習記者 董文萍;“孵化器”模式:大數(shù)據(jù)的垂直運營樣本[N];21世紀經(jīng)濟報道;2014年

10 本報記者 安豐;深部找礦的探鏡[N];中國國土資源報;2006年

相關博士學位論文 前10條

1 師懿;城市交通規(guī)劃環(huán)評中空氣污染預測模型研究[D];中國地質大學;2015年

2 張麗;牦牛肉用品質特性及近紅外預測模型和產量等級系統(tǒng)的研究[D];中國農業(yè)科學院;2015年

3 王菲;肉牛飼料有效能值預測模型的建立與評價[D];中國農業(yè)大學;2016年

4 文江平;農村地區(qū)成人2型糖尿病發(fā)生風險相關生物標志物的篩選及預測模型的建立[D];中國人民解放軍醫(yī)學院;2016年

5 白云鵬;華法林穩(wěn)態(tài)劑量預測模型在瓣膜置換術后抗凝治療中的應用[D];天津醫(yī)科大學;2016年

6 孫鵬;風電機組狀態(tài)異常辨識廣義模型與運行風險評估方法研究[D];重慶大學;2016年

7 馬新;基于灰色系統(tǒng)與核方法的油藏動態(tài)預測方法研究[D];西南石油大學;2016年

8 付中濤;基于切削力預測模型的復雜曲面銑削進給速度優(yōu)化研究[D];華中科技大學;2015年

9 周闖;原發(fā)性肝癌術后轉移復發(fā)分子預測模型的優(yōu)化整合與臨床轉化[D];復旦大學;2012年

10 孫忠林;煤礦安全生產預測模型的研究[D];山東科技大學;2009年

相關碩士學位論文 前10條

1 劉冰;基于神經(jīng)網(wǎng)絡的纖維熱磨過程能耗預測模型的研究[D];東北林業(yè)大學;2015年

2 張念;鐵路軌道幾何不平順趨勢預測的關鍵算法研究[D];西南交通大學;2015年

3 田振偉;城市能源預測模型的研究與應用[D];昆明理工大學;2015年

4 吳迪;基于模糊決策樹算法的安全庫存量預測模型[D];中國地質大學(北京);2015年

5 齊雯;采用灰色預測模型改進的HHT算法在故障診斷中的應用[D];華南理工大學;2015年

6 王萍;膀胱癌遺傳分數(shù)的計算及發(fā)病風險預測模型的構建[D];復旦大學;2013年

7 石大宏;基于序列的蛋白質—核苷酸綁定位點預測研究[D];南京理工大學;2015年

8 熊盛華;基于BP神經(jīng)網(wǎng)絡的混合預測模型的實例研究[D];蘭州大學;2015年

9 趙Z,

本文編號:1486993


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1486993.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶fad34***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com