多語言社會化標簽聚類及可視化研究
發(fā)布時間:2017-05-02 21:07
本文關鍵詞:多語言社會化標簽聚類及可視化研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:協(xié)同標注系統(tǒng)(folksonomy)是Web2.0網(wǎng)站中由相互關聯(lián)的用戶、資源和標簽組成的注釋結果的一個集合,其重要基礎是:一個用戶可以自定義多個用戶標簽來描述網(wǎng)絡資源。通常的社會化標簽系統(tǒng)中標簽是用戶標注的結果,也有一些網(wǎng)站提供抽取標簽的自動推薦功能(本文定義為機器生成標簽)。當前的標簽生成研究對其內(nèi)容與社會化屬性的結合研究仍不夠深入。標簽的個性化和模糊化特征使得社會化標簽系統(tǒng)中存在大量無用、冗余以及語義不明確的標簽。同時,標簽在Web文本的聚類方面的應用多為單語言Web文本聚類且只把標簽作為聚類的補充。針對以上問題,本文以多語言的社會化標簽聚類及可視化為研究目標,從社會化標簽提取、聚類與可視化以及社會化標簽在文本聚類中的應用等幾個方面進行了研究。具體研究內(nèi)容包括如下三個方面:首先,在社會化標簽屬性的研究中,本文將標簽分為兩類,用戶標注標簽和機器抽取標簽,并分別對結合內(nèi)容屬性與社會化屬性的兩類標簽的聚類結果進行分析與討論。實驗結果表明內(nèi)容與用戶特征的結合能夠在用戶分類的情況下能夠提高標簽聚類結果,滿足對用戶的個性化標簽聚類結果的需要!浯,在多語言標簽聚類與可視化研究中,本文采用更全面的標簽特征抽取方法,即通過內(nèi)容與社會化屬性的結合來提高抽取標簽的質量,結合用戶標注標簽,優(yōu)化最終的標簽聚類效果,并對網(wǎng)絡資源進行多語言標簽映射,并實現(xiàn)其可視化。實驗結果表明對于平行語料的兩種多語言標簽聚類方法,單語言二次聚類結果優(yōu)于混合標簽的一次聚類結果。平行語料的多語言標簽聚類結果優(yōu)于可比語料基于雙語詞典映射的多語言標簽聚類結果。最后,在社會化標簽的應用研究中,本文針對傳統(tǒng)文本聚類的不足,將社會化標簽引入到文本聚類中。比較基于文本內(nèi)容、基于用戶標簽及不同的加權算法的結合,分析不同語言文本聚類結果的差異,實驗結果表明選用不同的特征抽取方法和不同的加權方法中的文本聚類結果表現(xiàn)不同。在Web文本聚類中,內(nèi)容特征與社會化特征的結合能夠對文本聚類起到改善作用,應重視社會化特征在Web文本聚類中的作用和意義。另外通過機器翻譯和二次聚類的方法,得到多語言文本的聚類結果。通過以上三個方面的研究,本文基本實現(xiàn)了多語言社會化標簽聚類及可視化,該研究對在多語言網(wǎng)站上的標簽聚類及應用研究具有參考價值。
【關鍵詞】:社會化標簽 標簽抽取 標簽聚類 聚類結果可視化 Web文本聚類
【學位授予單位】:南京理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;G252.7
【目錄】:
- 摘要5-6
- Abstract6-13
- 1 緒論13-20
- 1.1 研究背景與意義13-17
- 1.2 本文主要研究內(nèi)容17-19
- 1.3 本文創(chuàng)新點19
- 1.4 本文組織結構19-20
- 2 相關文獻綜述20-31
- 2.1 關鍵詞與標簽自動抽取研究概述20-23
- 2.1.1 關鍵詞自動抽取研究概述20-22
- 2.1.2 標簽自動抽取研究概述22-23
- 2.2 標簽相似度研究概述23-24
- 2.2.1 基于標簽與外部資源的相似度23
- 2.2.2 基于標簽所標注資源的相似度23-24
- 2.2.3 標簽和資源構成的關系圖24
- 2.3 聚類分析研究概述24-26
- 2.3.1 聚類方法概述24-26
- 2.3.2 標簽聚類概述26
- 2.4 標簽云圖生成研究概述26-29
- 2.4.1 標簽云圖的表現(xiàn)方法26-27
- 2.4.2 標簽云圖的表現(xiàn)形式27-29
- 2.5 標簽在文本聚類中的應用研究概述29-30
- 2.5.1 基于用戶標簽的文本聚類方法29-30
- 2.5.2 基于內(nèi)容和標簽的文本聚類方法30
- 2.6 本章小結30-31
- 3 標簽屬性對標簽聚類的影響研究31-43
- 3.1 用戶標注標簽的特征研究31-39
- 3.1.1 研究流程圖31-32
- 3.1.2 關鍵技術說明32-34
- 3.1.3 實驗結果與分析34-39
- 3.2 機器抽取標簽的特征研究39-42
- 3.2.1 研究流程圖39-40
- 3.2.2 關鍵技術說明40
- 3.2.3 實驗結果與分析40-42
- 3.3 本章小結42-43
- 4 中英文標簽聚類及標簽云圖生成研究43-55
- 4.1 研究流程圖43-44
- 4.2 關鍵技術說明44-46
- 4.2.1 數(shù)據(jù)預處理44
- 4.2.2 標簽特征選擇44
- 4.2.3 中英文標簽聚類及映射44-45
- 4.2.4 標簽云圖生成45-46
- 4.3 實驗結果與分析46-53
- 4.3.1 實驗數(shù)據(jù)概述46-47
- 4.3.2 實驗結果分析47-49
- 4.3.3 標簽云圖展示49-53
- 4.4 本章小節(jié)53-55
- 5 標簽在中英文文本聚類中的應用研究55-61
- 5.1 研究流程圖55-56
- 5.2 關鍵技術說明56-58
- 5.2.1 數(shù)據(jù)預處理56-57
- 5.2.2 文本表達和特征抽取57
- 5.2.3 文本相似度計算與加權及聚類實現(xiàn)57-58
- 5.3 實驗結果與評測58-60
- 5.3.1 實驗數(shù)據(jù)58
- 5.3.2 實驗結果與分析58-60
- 5.4 本章小結60-61
- 6 結論與展望61-63
- 6.1 研究總結61-62
- 6.2 研究展望62-63
- 致謝63-64
- 參考文獻64-71
- 附錄A:個人簡介71-72
- 附錄B:平行語料多語言標簽聚類結果72-78
- 附錄C:可比語料多語言標簽聚類結果78-82
- 附錄D:多語言文檔聚類結果82-88
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 徐少同;;網(wǎng)絡信息自組織視角下的Folksonomy優(yōu)化[J];圖書情報工作;2009年10期
2 鐘青燕;蘇一丹;梁勝勇;;基于層次聚類和語義的標簽推薦研究[J];微計算機信息;2010年36期
3 周津;陳超;俞能海;;采用對象特征向量表示法的標簽聚類算法[J];小型微型計算機系統(tǒng);2012年03期
本文關鍵詞:多語言社會化標簽聚類及可視化研究,由筆耕文化傳播整理發(fā)布。
本文編號:341685
本文鏈接:http://sikaile.net/tushudanganlunwen/341685.html
教材專著