天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語言特征的中文微博自殺意念檢測方法研究

發(fā)布時間:2024-02-19 23:02
  自殺是導致當近人類死亡的三大因素之一。因此,自殺意念識別已刻不容緩。而傳統(tǒng)的自殺意念檢測方法大都基于n-gram特征,此后為提升模型檢測的準確率,在原輸入特征中加入了基于訓練數(shù)據(jù)的自殺詞典,但其所得模型的準確率仍不理想。針對自殺意念識別準確率不理想的狀況,建立一個可遷移性強的自殺詞典,以該自殺詞典與詞性特征組成的語言特征為新式特征加入模型,以期提高模型的識別準確率。采用對比試驗與控制變量的形式,將n-gram特征、語言特征作為模型輸入,以隨機森林、邏輯回歸、支持向量機和樸素貝葉斯算法構(gòu)建分類模型,重點研究語言特征對原模型性能的影響。通過比較發(fā)現(xiàn):語言特征對原模型性能的提升是顯著的,在隨機森林算法下,這種提升達到了20%左右。貢獻:(1)本論文提供了一個領(lǐng)域內(nèi)的、且可遷移性強的自殺詞典;(2)提出了語言特征,并證明了語言特征對基于n-gram特征與基于n-gram特征和詞典模型的性能有所提高;(3)試驗了不同分類算法在n-gram特征、詞典特征、語言特征下的模型性能,為特征與算法的選擇提供了一定的依據(jù)。

【文章頁數(shù)】:79 頁

【學位級別】:碩士

【部分圖文】:

圖2-1.Logisticdistribution的密度函數(shù)與分布函數(shù)圖形

圖2-1.Logisticdistribution的密度函數(shù)與分布函數(shù)圖形

歸又被稱為對率回歸、邏輯斯蒂回歸,是一種經(jīng)典的機器學習分類算法介紹該分類算法的數(shù)學原理、特點及其優(yōu)缺點。ticDistribution1(LogisticDistribution)設(shè)X是連續(xù)隨機變量,X服從邏輯斯蒂分布是布函數(shù)和密度函數(shù):1exp(()/)1()()....


圖2-2.支持向量與間隔(1)學習策略

圖2-2.支持向量與間隔(1)學習策略

ii)0,then按如下規(guī)則更新參數(shù)iiwyx,ibby;直至訓練集中沒有誤分類點.量機分支持向量機)給定線性可分的訓練數(shù)據(jù)集二次規(guī)劃問題學習得到的分離超平面為0**wxb函數(shù)為()()**fxsigwnxb向量機[44]。


圖4-1正樣例“文心”語言分析結(jié)果

圖4-1正樣例“文心”語言分析結(jié)果

中北大學學位論文LinguisticInquiryandWordCount)的語言分析軟件。它可分析出包含表4-1的詞性在內(nèi)的102項特征,可對句子中的詞性成分進行分析,計算出其在句子中所占的比圖4-1、4-2為正負樣本使用“文心”軟件進行語言分析的結(jié)果。具體的....


圖4-2負樣例“文心”語言分析結(jié)果

圖4-2負樣例“文心”語言分析結(jié)果

Step1將數(shù)據(jù)輸入“文心”軟件中,選擇LTP模式,輸出分析結(jié)果;Step2從Step1的結(jié)果中選取實驗所需的詞性特征,記錄該值;Step3使用式(3.4)對數(shù)值進行歸一化處理;Step4對詞性特征中的句子長度(詞數(shù))根據(jù)所有數(shù)據(jù)的長度做歸一化處理。圖....



本文編號:3903458

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3903458.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17435***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com