天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 法律論文 > 訴訟法論文 >

利用Doc2Vec及改進(jìn)K-means聚類實(shí)現(xiàn)文本取證分析

發(fā)布時間:2021-09-01 05:25
  為了提升文本取證過程的智能化和便利性,提出一種基于Doc2Vec和改進(jìn)K-means聚類算法的文本取證方法。首先提取并轉(zhuǎn)化待取證計(jì)算機(jī)中的文本文件,利用深度神經(jīng)網(wǎng)絡(luò)模型Doc2Vec將文本內(nèi)容映射為文本向量,進(jìn)而利用改進(jìn)的K-means聚類算法對文本向量進(jìn)行劃分,使目標(biāo)證據(jù)文件與無關(guān)文件分離,最后通過文本間的相似度計(jì)算,按照相似程度輸出目標(biāo)證據(jù)文件。結(jié)果顯示,改進(jìn)的K-means算法可穩(wěn)定劃分文本且保證目標(biāo)證據(jù)文件被檢索;同時還可關(guān)聯(lián)出部分未掌握線索的證據(jù)文件,為下一步檢索提供方向,擴(kuò)大取證檢索的收獲。該方法避免了傳統(tǒng)取證軟件基于字符匹配的不足,實(shí)現(xiàn)取證效率的提高與結(jié)果完整性的提升。 

【文章來源】:中國刑警學(xué)院學(xué)報(bào). 2020,(04)

【文章頁數(shù)】:7 頁

【部分圖文】:

利用Doc2Vec及改進(jìn)K-means聚類實(shí)現(xiàn)文本取證分析


格式轉(zhuǎn)換流程圖

處理流程圖,處理流程圖,內(nèi)容,文本文件


經(jīng)文本文件格式轉(zhuǎn)換,得到原始TXT文本文件集“Orig_txt”。為了便于分詞及去停用詞處理,現(xiàn)將原始TXT文本文件中的空格、空行去除,并將文本內(nèi)容轉(zhuǎn)化為一行顯示,最終處理結(jié)果保存至文件夾“Result_txt”,流程如圖2所示。2.3 分詞及去停用詞

流程圖,流程圖,文本,詞匯


對文本進(jìn)行向量化前,通過分詞提取文本的所有詞匯,經(jīng)去停用詞操作去除文本多余詞匯,凸顯有價值的文本信息。本文選用結(jié)巴分詞,去停用詞表則選擇常用的1208中文停用詞表“stop_words.txt”,流程如圖3所示。3 基于Doc2Vec文本向量化

【參考文獻(xiàn)】:
期刊論文
[1]基于密度峰值的改進(jìn)K-Means文本聚類算法及其并行化[J]. 袁逸銘,劉宏志,李海生.  武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2019(05)
[2]文本向量化表示方法的總結(jié)與分析[J]. 冀宇軒.  電子世界. 2018(22)
[3]SVD優(yōu)化初始簇中心的K-means中文文本聚類算法[J]. 戴月明,王明慧,張明,王艷.  系統(tǒng)仿真學(xué)報(bào). 2018(10)
[4]基于LDA改進(jìn)的K-means算法在短文本聚類中的研究[J]. 馮靖,莫秀良,王春東.  天津理工大學(xué)學(xué)報(bào). 2018(03)
[5]基于PV-DM模型的多文檔摘要方法[J]. 劉欣,王波,毛二松.  計(jì)算機(jī)應(yīng)用與軟件. 2016(10)



本文編號:3376348

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/falvlunwen/susongfa/3376348.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e8c93***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com