智能手機(jī)電子取證中文本分析的研究
本文關(guān)鍵詞: 短文本分類 手機(jī)取證 特征權(quán)重 特征擴(kuò)展 出處:《武漢郵電科學(xué)研究院》2014年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著移動(dòng)電話的迅速普及和手機(jī)容量的增大,處理手機(jī)大批量短信數(shù)據(jù)的挑戰(zhàn)也與日俱增。如何從手機(jī)中快速提取執(zhí)法人員感興趣的證據(jù)成為手機(jī)取證技術(shù)面臨的問題之一,短文本自動(dòng)分類技術(shù)可以一定程度上解決該難題。雖然傳統(tǒng)的文本分類技術(shù)已經(jīng)相對(duì)成熟,但短文本的格式不規(guī)范且文本信息稀疏,導(dǎo)致適用于長(zhǎng)文本的分類方法不能直接應(yīng)用于短文本領(lǐng)域;谶@樣的背景,本文對(duì)手機(jī)取證中短文本分類方法進(jìn)行相應(yīng)的探索和對(duì)比。本文首先概述了手機(jī)取證的取證源、取證原則和取證過程,并以手機(jī)中短信信息為例分析手機(jī)取證系統(tǒng)提取電子證據(jù)的基本過程。接著重點(diǎn)針對(duì)手機(jī)取證系統(tǒng)中的短信自動(dòng)分類子系統(tǒng)進(jìn)行探討。討論了長(zhǎng)文本和短文本存在的基本區(qū)別,分析傳統(tǒng)分類方法中幾種常使用的特征權(quán)值算法,并提出一種針對(duì)短文本特點(diǎn)的權(quán)重值改進(jìn)算法。同時(shí)為了彌補(bǔ)短文本信息量稀少的劣勢(shì),提出引入維基百科數(shù)據(jù)庫(kù)作為知識(shí)庫(kù)對(duì)短文本的特征進(jìn)行擴(kuò)展的方法。本文最后詳細(xì)介紹了短信信息分類子系統(tǒng)中的各個(gè)模塊設(shè)計(jì)過程和實(shí)現(xiàn)過程,并對(duì)本文中提到的兩種改進(jìn)方法先后用六組試驗(yàn)進(jìn)行分類效果對(duì)比。六組實(shí)驗(yàn)結(jié)果表明,基于傳統(tǒng)分類方法上的兩種改進(jìn)方法均能一定程度上提高中文短文本分類的性能。同時(shí)也發(fā)現(xiàn),若在建立知識(shí)庫(kù)之初噪聲沒有被清理干凈,會(huì)影響基于特征擴(kuò)展的分類方法的分類效果。
[Abstract]:With the rapid popularization of mobile phones and the increase of mobile phone capacity, the challenge of dealing with mass SMS data is also increasing. How to quickly extract evidence of interest to law enforcement officials from mobile phones has become one of the problems faced by mobile phone forensics technology. Although the traditional text classification technology is relatively mature, the format of short text is not standardized and the text information is sparse. As a result, the classification method suitable for long text can not be directly applied to the field of short text. Based on this background, this paper explores and compares the classification methods of short text book in mobile phone forensics. Firstly, this paper summarizes the evidential source of mobile phone forensics. Principles and procedures for obtaining evidence, Taking short message information in mobile phone as an example, this paper analyzes the basic process of extracting electronic evidence from mobile phone forensics system. Then, it focuses on the automatic classification subsystem of short message in mobile phone forensics system, and discusses the basic differences between long text and short text. This paper analyzes several feature weight algorithms that are often used in traditional classification methods, and proposes an improved algorithm of weight value for the characteristics of short text books, in order to make up for the shortage of short text information. This paper proposes a method to extend the features of short text by using Wikipedia database as a knowledge base. Finally, the design process and implementation process of each module in the short message classification subsystem are introduced in detail. The two improved methods mentioned in this paper are compared with each other by six groups of experiments. The results of the six groups of experiments show that, The two improved methods based on the traditional classification method can improve the performance of the Chinese text classification to some extent. It is also found that the noise is not cleaned up at the beginning of building the knowledge base. It will affect the classification effect of the classification method based on feature expansion.
【學(xué)位授予單位】:武漢郵電科學(xué)研究院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TN929.53;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 唐亮;段建國(guó);許洪波;梁玲;;基于信息論的文本分類模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年24期
2 施化吉;王賢川;李星毅;;基于規(guī)則重構(gòu)的關(guān)聯(lián)文本分類[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年03期
3 劉伍穎;王挺;;適于垃圾文本流過濾的條件概率集成方法[J];計(jì)算機(jī)科學(xué)與探索;2010年05期
4 張征杰;王自強(qiáng);;文本分類及算法綜述[J];電腦知識(shí)與技術(shù);2012年04期
5 彭其華;;關(guān)聯(lián)挖掘下的海量文本信息深入挖掘?qū)崿F(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2013年10期
6 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期
7 王東興,冷惠文;大量編程用文本數(shù)據(jù)的統(tǒng)一處理[J];鞍山鋼鐵學(xué)院學(xué)報(bào);1997年06期
8 周鵬;數(shù)據(jù)庫(kù)中不規(guī)范文本文件的數(shù)據(jù)轉(zhuǎn)換[J];電腦編程技巧與維護(hù);2005年05期
9 谷峰;吳揚(yáng)揚(yáng);;文本分類關(guān)鍵技術(shù)[J];福建電腦;2006年09期
10 宋東風(fēng);張志浩;;短文本數(shù)據(jù)的自動(dòng)分類[J];電腦與信息技術(shù);2007年01期
相關(guān)會(huì)議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前2條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年
2 山東 黃家貞;網(wǎng)頁保存工具——網(wǎng)頁快拷[N];電腦報(bào);2001年
,本文編號(hào):1507755
本文鏈接:http://sikaile.net/kejilunwen/wltx/1507755.html