一種基于本體的敏感詞過濾方法研究
本文關鍵詞:一種基于本體的敏感詞過濾方法研究
【摘要】:錫林郭勒職業(yè)學院是位于內蒙古錫林浩特的一所公辦職業(yè)學校,2003年九所職業(yè)學校合并而成的錫林郭勒職業(yè)學院擁有在校生一萬八千余人,教職員工近九百人。隨著網絡科技的飛速發(fā)展,為了順應網絡信息時代的浪潮,學院網上辦公系統(tǒng)和學生論壇等網絡平臺也在逐步的建立當中。然而,在信息公開的同時,也帶來不少現(xiàn)實問題,例如虛假廣告信息、學生不良言論、反動分子的蓄意破壞等都給網絡平臺的發(fā)展提出了現(xiàn)實的挑戰(zhàn)。針對錫林郭勒職業(yè)學院網絡信息化的實際需求,本文擬設計一套敏感詞過濾方法。通過對廣告、不良言論、不和諧詞匯的過濾,實現(xiàn)靈活準確網絡信息管理。 本文的主要工作包括如下幾個方面。 首先,通過對現(xiàn)有的經典敏感詞過濾方法進行全面調研,分析比較現(xiàn)有方法的特點,發(fā)現(xiàn)現(xiàn)有經典算法和擴展算法更多的注重過濾的效率而忽視了準確度指標。針對這一薄弱環(huán)節(jié),本文提出了一種基于本體的敏感詞過濾方法。其核心是對敏感詞進行分類,對敏感詞之間可能的語義關聯(lián)進行發(fā)掘并加以利用,從而達到縮小過濾范圍,提高過濾準確度的目的。 其次,為了支撐有效的精確的敏感詞過濾,我們建立了高校學生論壇敏感詞過濾領域本體,對于學生信息、敏感詞詞條和管理規(guī)范三類信息進行了梳理,對學生屬性、敏感詞語法語義信息以及管理規(guī)范等進行了形式化建模。通過OWL語言和Protégé工具,對于形式化模型進行了描述。建立了包括21個類,15個屬性和303個個體實例的本體。 再次,依據學院網絡信息平臺的實際需求,對本文提出的敏感詞過濾算法進行了設計與實現(xiàn)。通過分析總體需求和詳細需求,對算法進行了總體設計和詳細設計,進而使用OWL API和Swing等java程序包,對算法進行了實現(xiàn)。 最后,通過系統(tǒng)集成,,在學院網絡信息平臺上驗證了方法的可行性和運行效率,從實際用力方面驗證了方法在敏感詞過濾準確度方面的提高。 本項目的順利完成,為敏感詞過濾提出了一種新的思路。將語義關聯(lián)應用在敏感詞過濾范圍的動態(tài)確定角度,達到了提升準確度的目的。本文提出的方法是本體工程技術在實際領域現(xiàn)實問題的解決中又一次有益的嘗試。
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【參考文獻】
中國期刊全文數據庫 前10條
1 陳麗萍;趙利平;陳新敏;;基于自學習規(guī)避庫的短消息過濾系統(tǒng)的設計與實現(xiàn)[J];電腦知識與技術;2011年31期
2 鄒嵐;徐芳;;文本內容信息過濾系統(tǒng)的研究與設計[J];電腦知識與技術;2012年34期
3 陳欣;張菁;李曉光;卓力;;一種面向中文敏感網頁識別的文本分類方法[J];測控技術;2011年05期
4 張長利,赫楓齡,左萬利;一種基于后綴數組的無詞典分詞方法[J];吉林大學學報(理學版);2004年04期
5 秦浩偉,步豐林;一個中文新詞識別特征的研究[J];計算機工程;2004年S1期
6 邵忻;徐倩漪;;網絡偽裝不良信息檢測方法的研究與仿真[J];計算機仿真;2012年02期
7 侯永帥;張耀允;王曉龍;陳清財;王宇亮;戶保田;;中文問答系統(tǒng)中時間敏感問句的識別和檢索[J];計算機研究與發(fā)展;2013年12期
8 劉霽;周亞東;高峰;趙俊舟;薛峰;;一種基于文本語義的網絡敏感話題識別方法[J];深圳信息職業(yè)技術學院學報;2011年03期
9 劉耕;方勇;劉嘉勇;;基于關聯(lián)詞和擴展規(guī)則的敏感詞庫設計[J];四川大學學報(自然科學版);2009年03期
10 靳文靜;;“學生論壇”:增強思品課教學的實效性[J];上海教育科研;2013年03期
中國博士學位論文全文數據庫 前1條
1 劉玉國;基于內容的互聯(lián)網輿情信息挖掘關鍵技術研究[D];山東大學;2011年
本文編號:1204477
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1204477.html