社交網(wǎng)絡(luò)短文本的分類方法研究
發(fā)布時間:2024-04-08 04:06
社交網(wǎng)絡(luò)中的豐富信息,使之成為數(shù)據(jù)挖掘技術(shù)的研究熱點。通過數(shù)據(jù)挖掘技術(shù)可以對災(zāi)害事件、民眾輿情、可疑用戶賬號等進行監(jiān)控,從而提升相關(guān)機構(gòu)的災(zāi)害防御和救援能力,實現(xiàn)更智能的政治決策等。但社交網(wǎng)絡(luò)數(shù)據(jù)的低信噪比等特點,并且現(xiàn)有的數(shù)據(jù)挖掘技術(shù)中較少考慮噪聲的影響,價值信息被垃圾信息所掩蓋,影響數(shù)據(jù)挖掘的效果。通過對社交網(wǎng)絡(luò)短文本數(shù)據(jù)進行分類,過濾垃圾數(shù)據(jù),保留價值數(shù)據(jù),可以為數(shù)據(jù)挖掘提供更干凈的輸入數(shù)據(jù),從而提升數(shù)據(jù)挖掘的效果。社交網(wǎng)絡(luò)數(shù)據(jù)具有長度短、內(nèi)容少、特征選擇單一且特征表達能力弱等特點,因此傳統(tǒng)的文本分類方法在社交文本分類應(yīng)用中效果不好。并且現(xiàn)有文本分類方法多采用有監(jiān)督學習的方法來實現(xiàn),但有監(jiān)督方法為構(gòu)建良好的分類模型,對標注數(shù)據(jù)集的大小和質(zhì)量有很高的依賴性,但實際工作中往往存在標注數(shù)據(jù)不足、標注困難、標注代價高昂等問題,這導致現(xiàn)有方法很難獲得社交網(wǎng)絡(luò)短文本的準確分類結(jié)果。本文針對上述二個問題開展研究,主要貢獻概括如下:1.提出基于多屬性特征的社交網(wǎng)絡(luò)短文本分類方法。在特征抽取階段,在傳統(tǒng)的文本語義特征基礎(chǔ)上,通過分析數(shù)據(jù)的特點,抽取了社交屬性和結(jié)構(gòu)屬性作為語義屬性的重要補充特征,解...
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3948466
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
圖3前沿領(lǐng)域系統(tǒng)化工程訓練體系
表2人工智能領(lǐng)域案例知庫企業(yè)學校案例開發(fā)實踐——美食分類智能小車遠程監(jiān)控系統(tǒng)設(shè)計案例開發(fā)實踐——垃圾分類智能小車系統(tǒng)避障系統(tǒng)設(shè)計案例開發(fā)實踐——口罩檢測基于深度強化學習的任務(wù)調(diào)度案例開發(fā)實踐——安全帽檢測基于TSN的智能小車傳感器和作動器實驗板設(shè)計案例開....
本文編號:3948466
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3948466.html
最近更新
教材專著