天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

社交網(wǎng)絡(luò)人物搜索的研究

發(fā)布時(shí)間:2017-05-19 21:00

  本文關(guān)鍵詞:社交網(wǎng)絡(luò)人物搜索的研究,由筆耕文化傳播整理發(fā)布。


【摘要】:社交網(wǎng)絡(luò)的蓬勃發(fā)展帶動(dòng)大量的用戶進(jìn)入了公共社交網(wǎng)絡(luò),除了眾多普通用戶以外,各行各業(yè)的專家也在其上留下了足跡,他們既是信息的消費(fèi)者,也是信息的生產(chǎn)者。這一切成為社交網(wǎng)絡(luò)人物搜索重要的數(shù)據(jù)基礎(chǔ),即人的基本信息,人與人之間的社交關(guān)系,與基于人和社交關(guān)系產(chǎn)生的微博、微博轉(zhuǎn)發(fā)、微博評論等信息流。這些數(shù)據(jù)和早期專家搜索依賴的企業(yè)數(shù)據(jù)有顯著區(qū)別。社交網(wǎng)絡(luò)的數(shù)據(jù)除了人物眾多、領(lǐng)域復(fù)雜以外,還具有個(gè)人信息稀疏,以及虛假和不穩(wěn)定等特點(diǎn),這使得在規(guī)范數(shù)據(jù)上有效的傳統(tǒng)專家搜索方法用于社交數(shù)據(jù)中出現(xiàn)了新的問題。本文的主要工作核心是社交網(wǎng)絡(luò)上的人物搜索,借鑒了推特公司的社交網(wǎng)絡(luò)關(guān)系存放在單機(jī)上處理、Cngos采用分組數(shù)據(jù)等等前人的工作,并面向在社交網(wǎng)絡(luò)上找到大量領(lǐng)域興趣用戶(找普通人)和在社交網(wǎng)絡(luò)上找到領(lǐng)域權(quán)威用戶(找專家)這兩個(gè)需求展開研究。主要研究內(nèi)容包括:社交網(wǎng)絡(luò)的數(shù)據(jù)獲取、數(shù)據(jù)索引、用戶標(biāo)簽擴(kuò)展和預(yù)測、以及人物排序等四個(gè)方面。在社交網(wǎng)絡(luò)數(shù)據(jù)獲取方面,就社交網(wǎng)絡(luò)數(shù)據(jù)抓取中存在的抓取受限和被封的問題,提出了爬蟲眾包化和擬人化的解決方案,并實(shí)際開發(fā)和運(yùn)維了中國爬盟,注冊用戶超過3萬。獲取了2.5億用戶的個(gè)人檔案,8000萬人的關(guān)注關(guān)系,超過200億條微博,滿足了絕大多數(shù)研究者對社交網(wǎng)絡(luò)的數(shù)據(jù)需求。在數(shù)據(jù)索引方面,針對靜態(tài)數(shù)據(jù)的特點(diǎn)和大規(guī)模數(shù)據(jù)索引的需求,提出了一種自底向上的靜態(tài)數(shù)據(jù)構(gòu)建索引的方法。經(jīng)測試,單機(jī)索引達(dá)到100億條記錄、每記錄耗費(fèi)索引1比特、隨機(jī)并發(fā)查詢120萬次每秒,性能指標(biāo)顯著好于開源NoSQL數(shù)據(jù)庫:LevelDB和Tokyo Cabinet。該成果對外開放,并被眾多高科技公司采用。提出了區(qū)分解決社交網(wǎng)絡(luò)用戶標(biāo)簽稀疏的問題:對完全沒有標(biāo)簽的情況,采用標(biāo)簽預(yù)測的方法;對用戶有一些標(biāo)簽的情況下,采用標(biāo)簽擴(kuò)展的方法。標(biāo)簽預(yù)測首先通過邏輯回歸的監(jiān)督學(xué)習(xí)方法計(jì)算用戶的親密好友群,再通過親密好友群的標(biāo)簽來進(jìn)行標(biāo)簽預(yù)測,其結(jié)果比基線方法在P@1、P@5、P@10和R@20上提高超過80%。標(biāo)簽擴(kuò)展通過用戶自標(biāo)簽來構(gòu)造偽標(biāo)注數(shù)據(jù),將標(biāo)簽擴(kuò)展問題轉(zhuǎn)化為監(jiān)督學(xué)習(xí)的問題,測試結(jié)果表明我們的方法好于隨機(jī)游走、生成模型等方法。其中P@1、P@5、P@10和R@10指標(biāo)領(lǐng)先最好的已知方法10%以上。同時(shí)證實(shí)了用戶雙向好友關(guān)系的標(biāo)簽權(quán)重在訓(xùn)練過程中發(fā)揮的影響最大。在人物排序方面,提出了一種改進(jìn)的PageRank方法用于對社交網(wǎng)絡(luò)任務(wù)進(jìn)行排序,實(shí)現(xiàn)社交網(wǎng)絡(luò)人物搜索。對不同類型的人物搜索問題,進(jìn)行了性能評測,發(fā)現(xiàn)學(xué)術(shù)類搜索中基于權(quán)威性的算法,職業(yè)類搜索中基于活躍性的算法,公司類搜索中基于投票數(shù)的算法取得了更好的性能。對通過已知專家找到隱藏專家的方法進(jìn)行了研究,構(gòu)造偽標(biāo)注數(shù)據(jù)來訓(xùn)練監(jiān)督學(xué)習(xí)模型。實(shí)驗(yàn)表明,在nDCG的評價(jià)方法下,通過增加隱藏專家的能提高人物搜索排名的效果。
【關(guān)鍵詞】:社交網(wǎng)絡(luò) 機(jī)器學(xué)習(xí) 人物搜索
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
  • 摘要3-5
  • abstract5-11
  • 第1章 引言11-28
  • 1.1 研究背景與選題意義11-13
  • 1.2 研究現(xiàn)狀13-25
  • 1.2.1 基于社交關(guān)系推薦13-16
  • 1.2.2 基于分組信息的推薦16-18
  • 1.2.3 事件話題專家發(fā)現(xiàn)18-21
  • 1.2.4 聚類話題專家發(fā)現(xiàn)21-22
  • 1.2.5 學(xué)術(shù)專家發(fā)現(xiàn)22-24
  • 1.2.6 存在的問題和不足24-25
  • 1.3 我們的主要工作和創(chuàng)新點(diǎn)25-28
  • 第2章 社交網(wǎng)絡(luò)數(shù)據(jù)的獲取28-43
  • 2.1 引言28
  • 2.2 深度網(wǎng)絡(luò)爬蟲的不足28-31
  • 2.3 眾包爬蟲的需求與原理31-35
  • 2.3.1 眾包爬蟲的需求31-32
  • 2.3.2 眾包爬蟲的原理32-35
  • 2.4 眾包爬蟲的實(shí)現(xiàn)35-41
  • 2.4.1 協(xié)議狀態(tài)機(jī)設(shè)計(jì)35
  • 2.4.2 用戶賬號池管理機(jī)制35-37
  • 2.4.3 擬人化的爬蟲設(shè)計(jì)37-41
  • 2.5 數(shù)據(jù)分配41
  • 2.6 本章小結(jié)41-43
  • 第3章 社交網(wǎng)絡(luò)數(shù)據(jù)的宏觀特點(diǎn)43-51
  • 3.1 整體情況43
  • 3.2 關(guān)注數(shù)分布43-45
  • 3.3 粉絲數(shù)分布45-48
  • 3.4 微博數(shù)分布48-49
  • 3.5 用戶標(biāo)簽數(shù)分布49-50
  • 3.6 本章小結(jié)50-51
  • 第4章 社交網(wǎng)絡(luò)數(shù)據(jù)的索引系統(tǒng)51-82
  • 4.1 引言51-52
  • 4.2 相關(guān)工作52-56
  • 4.2.1 NoSQL與KV Store52-53
  • 4.2.2 緩存感知機(jī)制53-56
  • 4.3 THUIRDB的簡介56-59
  • 4.4 THUIRDB的實(shí)現(xiàn)59-69
  • 4.4.1 預(yù)處理59-61
  • 4.4.2 存儲結(jié)構(gòu)61-62
  • 4.4.3 搜索結(jié)構(gòu)62-68
  • 4.4.4 時(shí)間和空間復(fù)雜度分析68-69
  • 4.5 實(shí)驗(yàn)與評價(jià)69-79
  • 4.5.1 實(shí)驗(yàn)準(zhǔn)備69-71
  • 4.5.2 實(shí)驗(yàn)和評價(jià)方法71-77
  • 4.5.3 討論77-79
  • 4.6 本章小結(jié)79-82
  • 第5章 社交網(wǎng)絡(luò)用戶的標(biāo)簽擴(kuò)展82-103
  • 5.1 引言82-83
  • 5.2 相關(guān)工作83-84
  • 5.3 問題定義和調(diào)研84-88
  • 5.4 我們的方法88-91
  • 5.5 實(shí)驗(yàn)91-99
  • 5.5.1 數(shù)據(jù)集和工具91
  • 5.5.2 研究問題91
  • 5.5.3 訓(xùn)練過程91-92
  • 5.5.4 基線方法92
  • 5.5.5 評價(jià)和分析92-99
  • 5.6 討論99-102
  • 5.7 本章小結(jié)102-103
  • 第6章 社交網(wǎng)絡(luò)用戶的標(biāo)簽預(yù)測103-119
  • 6.1 概述103-104
  • 6.2 邏輯回歸方法的回顧104-106
  • 6.3 兩階段標(biāo)簽預(yù)測106-111
  • 6.3.1 親密好友預(yù)測106-110
  • 6.3.2 標(biāo)簽預(yù)測110-111
  • 6.4 實(shí)驗(yàn)111-118
  • 6.4.1 實(shí)驗(yàn)準(zhǔn)備111-112
  • 6.4.2 實(shí)驗(yàn)結(jié)果112-118
  • 6.5 本章小結(jié)118-119
  • 第7章 社交網(wǎng)絡(luò)上的人物排序119-135
  • 7.1 引言119-120
  • 7.2 問題定義120-121
  • 7.3 排序121-124
  • 7.3.1 標(biāo)準(zhǔn)PageRank算法的問題122-123
  • 7.3.2 PageRank算法的改進(jìn)123-124
  • 7.4 實(shí)驗(yàn)124-134
  • 7.4.1 實(shí)驗(yàn)數(shù)據(jù)124-125
  • 7.4.2 實(shí)驗(yàn)評價(jià)125-134
  • 7.5 本章小結(jié)134-135
  • 第8章 社交網(wǎng)絡(luò)隱藏專家的挖掘135-158
  • 8.1 引言135-140
  • 8.2 假設(shè)檢驗(yàn)140-145
  • 8.2.1 問題1-專家之間的關(guān)注142-144
  • 8.2.2 問題2-專家之間的互動(dòng)144
  • 8.2.3 問題3-專家和興趣用戶的關(guān)系144-145
  • 8.3 尋找隱藏專家145-148
  • 8.3.1 偽標(biāo)注訓(xùn)練語料146
  • 8.3.2 神經(jīng)網(wǎng)絡(luò)146-148
  • 8.4 實(shí)驗(yàn)148-155
  • 8.4.1 實(shí)驗(yàn)的主要目的148
  • 8.4.2 實(shí)驗(yàn)設(shè)置148-149
  • 8.4.3 實(shí)驗(yàn)評價(jià)149-155
  • 8.5 樣例分析155-157
  • 8.5.1 極端的例子155-156
  • 8.5.2 不好的樣例156
  • 8.5.3 正面的樣例156-157
  • 8.6 本章小結(jié)157-158
  • 第9章 總結(jié)與展望158-161
  • 參考文獻(xiàn)161-167
  • 致謝167-168
  • 個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果168-169

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 ;基于位置的手機(jī)社交網(wǎng)絡(luò)“貝多”正式發(fā)布[J];中國新通信;2008年06期

2 曹增輝;;社交網(wǎng)絡(luò)更偏向于用戶工具[J];信息網(wǎng)絡(luò);2009年11期

3 ;美國:印刷企業(yè)青睞社交網(wǎng)絡(luò)營銷新方式[J];中國包裝工業(yè);2010年Z1期

4 李智惠;柳承燁;;韓國移動(dòng)社交網(wǎng)絡(luò)服務(wù)的類型分析與促進(jìn)方案[J];現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào));2010年08期

5 賈富;;改變一切的社交網(wǎng)絡(luò)[J];互聯(lián)網(wǎng)天地;2011年04期

6 譚拯;;社交網(wǎng)絡(luò):連接與發(fā)現(xiàn)[J];廣東通信技術(shù);2011年07期

7 陳一舟;;社交網(wǎng)絡(luò)的發(fā)展趨勢[J];傳媒;2011年12期

8 殷樂;;全球社交網(wǎng)絡(luò)新態(tài)勢及文化影響[J];新聞與寫作;2012年01期

9 許麗;;社交網(wǎng)絡(luò):孤獨(dú)年代的集體狂歡[J];上海信息化;2012年09期

10 李玲麗;吳新年;;科研社交網(wǎng)絡(luò)的發(fā)展現(xiàn)狀及趨勢分析[J];圖書館學(xué)研究;2013年01期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測與關(guān)系強(qiáng)度研究[A];第七屆(2012)中國管理學(xué)年會(huì)商務(wù)智能分會(huì)場論文集(選編)[C];2012年

2 宮廣宇;李開軍;;對社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎(jiǎng)?wù)撐腫C];2010年

3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會(huì)議論文集[C];2013年

4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國體育科學(xué)大會(huì)論文摘要匯編(4)[C];2011年

5 杜p,

本文編號:379811


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/379811.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶00db5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com