框架匹配導(dǎo)向下的網(wǎng)絡(luò)文本分析過(guò)濾算法研究
【摘要】 隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息過(guò)濾已成為信息系統(tǒng)科學(xué)領(lǐng)域的技術(shù)焦點(diǎn)。從過(guò)濾技術(shù)角度來(lái)看,傳統(tǒng)文本過(guò)濾技術(shù)絕大多數(shù)是基于關(guān)鍵字的過(guò)濾技術(shù)和基于詞頻統(tǒng)計(jì)方法的過(guò)濾技術(shù)。這兩種過(guò)濾方法比較簡(jiǎn)單實(shí)用,但僅僅停留在文本結(jié)構(gòu)層次上而無(wú)法體現(xiàn)文本語(yǔ)義,故過(guò)濾效果很難實(shí)現(xiàn)智能化。為解決上述問(wèn)題,本文提出一種基于語(yǔ)義框架匹配的文本過(guò)濾算法。該算法的核心內(nèi)容包括:對(duì)目標(biāo)文本進(jìn)行分詞、詞性標(biāo)注、特征提取、語(yǔ)義框架提取和語(yǔ)義框架問(wèn)的相似度計(jì)算。在提取關(guān)鍵文本階段,根據(jù)網(wǎng)頁(yè)元素對(duì)正文主題支撐程度的不同,本文將網(wǎng)頁(yè)分為兩層,其中標(biāo)題作為第一層,正文作為第二層,層次較高的元素權(quán)重也相對(duì)較大。在進(jìn)行文本處理階段,首先對(duì)語(yǔ)句進(jìn)行分詞及詞性標(biāo)注。然后,借助語(yǔ)法規(guī)則庫(kù)與分詞結(jié)果中存儲(chǔ)的詞性和詞在句子中的位置信息,區(qū)分出關(guān)鍵詞(主謂賓)并填充語(yǔ)義框架,最后將待過(guò)濾文本的語(yǔ)義框架同樣本的語(yǔ)義框架進(jìn)行相似度計(jì)算。其中,在進(jìn)行相似度計(jì)算時(shí),該算法對(duì)權(quán)重計(jì)算策略進(jìn)行了改進(jìn)和優(yōu)化,主要綜合考慮三種因素,即框架元素與行為動(dòng)詞之間的語(yǔ)義距離、框架元素的相關(guān)度與層級(jí)結(jié)構(gòu)。試驗(yàn)結(jié)果表明,與傳統(tǒng)算法相比較,該算法在對(duì)文本進(jìn)行有效的降維處理基礎(chǔ)之上,使文本的查全率和查準(zhǔn)率得到有效的提高。基于上述文本過(guò)濾算法,本文設(shè)計(jì)實(shí)現(xiàn)了基于語(yǔ)義框架匹配的短文本過(guò)濾系統(tǒng)。試驗(yàn)表明,本系統(tǒng)的性能和過(guò)濾效果得到有效的提高。
1緒論
1.1研究背景和意義
在我們受益于信息化給我們帶來(lái)的種種好處之時(shí),由于全社會(huì)對(duì)于信息化技術(shù)的過(guò)度依賴(lài),導(dǎo)致信息安全問(wèn)題層出不窮。一方面,面對(duì)龐大的信息世界與雜亂無(wú)序的超級(jí)鏈接,用戶(hù)在搜索查找目標(biāo)信息時(shí)感到非常困難并花費(fèi)大量時(shí)間;另一方面,用戶(hù)通過(guò)各種渠道獲取或分享網(wǎng)絡(luò)資源的同時(shí)也不可避免地使大量的網(wǎng)絡(luò)“垃圾”如不良信息、病毒郵件等侵入他們的生活,造成極其嚴(yán)重的后果。據(jù)有關(guān)機(jī)構(gòu)調(diào)查,青少年訪(fǎng)問(wèn)過(guò)不良網(wǎng)站,其中少部分頻繁瀏覽該類(lèi)網(wǎng)頁(yè),嚴(yán)重影響青少年的健康發(fā)展。所以,目前的關(guān)鍵工作就是要對(duì)互聯(lián)網(wǎng)進(jìn)行合理管理,去其糟粕取其精華,將信息資源中的無(wú)用或不良信息過(guò)濾掉,給用戶(hù)一個(gè)綠色的網(wǎng)絡(luò)空間。為了實(shí)現(xiàn)這一目標(biāo),信息過(guò)濾技術(shù)應(yīng)運(yùn)而生。
1.2研究現(xiàn)狀
文本過(guò)濾技術(shù)源自在面向圖書(shū)館的用戶(hù)需求管理工作時(shí)提出的“商業(yè)智能機(jī)器”設(shè)想,該設(shè)想為文本過(guò)濾的發(fā)展奠定了一定基礎(chǔ);诖,首次以電子郵件系統(tǒng)為例對(duì)信息過(guò)濾進(jìn)行描述,通過(guò)“內(nèi)容過(guò)濾器”實(shí)現(xiàn)過(guò)濾機(jī)制;等人設(shè)計(jì)出該系統(tǒng),并建立信息選擇模式;而后的階段,信息過(guò)濾得到該領(lǐng)域的普遍關(guān)注,第一屆會(huì)議就提出在信息選擇過(guò)程中采用信息抽取技術(shù),積極發(fā)揮自然語(yǔ)言處理技術(shù)在文本過(guò)濾領(lǐng)域中的強(qiáng)大作用。提出一種語(yǔ)義傾向性方法,使用一個(gè)詞和強(qiáng)烈表示正面傾向信息,減去它和強(qiáng)烈表示負(fù)面信息,計(jì)算這個(gè)詞的語(yǔ)義傾向。如果一篇評(píng)論中所有詞的語(yǔ)義傾向值之和為正,那么判斷評(píng)論為正面的,否則判斷為反面的。等人提出了一個(gè)情感分析器主要對(duì)句子進(jìn)行語(yǔ)法分析,然后利用情感詞匯表和情感模式庫(kù)分析句子的語(yǔ)義關(guān)系,主要是針對(duì)結(jié)構(gòu)簡(jiǎn)單的文檔進(jìn)行過(guò)濾。
...............
2信息過(guò)濾技術(shù)
2.1信息過(guò)濾理論基礎(chǔ)
信息過(guò)濾是信息檢索的一個(gè)重要分支學(xué)科。美國(guó)計(jì)算機(jī)科學(xué)家認(rèn)為信息過(guò)濾是建立在檢索的基礎(chǔ)之上,以滿(mǎn)足用戶(hù)信息需求為目的,在動(dòng)態(tài)文本流中主動(dòng)副除其他不良信息,搜索有效信息的過(guò)程等學(xué)者認(rèn)為信息過(guò)濾用于管理大批信息流,旨在為用戶(hù)提供需求信息。經(jīng)過(guò)研究分析,信息過(guò)濾的實(shí)質(zhì)是將用戶(hù)需求模板與動(dòng)態(tài)信息流進(jìn)行匹配計(jì)算,并抽取有用信息傳送給用戶(hù)。信息過(guò)濾可描述為一個(gè)二值分類(lèi)問(wèn)題。即設(shè)待過(guò)濾文本內(nèi)容為存在兩個(gè)文檔類(lèi):不良信息類(lèi)與其他信息類(lèi),信息過(guò)濾的實(shí)質(zhì)是將待過(guò)濾文本集合歸劃到類(lèi)或者類(lèi)中,然后將劃到不良信息類(lèi)的文檔過(guò)濾掉。
2.2信息過(guò)濾技術(shù)
關(guān)鍵字匹配過(guò)濾技術(shù)是一種基礎(chǔ)的文本過(guò)濾技術(shù),因其方便、快捷的特點(diǎn),國(guó)內(nèi)普遍采用關(guān)鍵詞技術(shù)過(guò)濾網(wǎng)絡(luò)不良信息〗。其主要思想是對(duì)待分析過(guò)濾文本內(nèi)容進(jìn)行預(yù)處理,同用戶(hù)詞庫(kù)進(jìn)行比對(duì)并統(tǒng)計(jì)結(jié)果,如果結(jié)果超過(guò)設(shè)定的閾值,那么說(shuō)明文本內(nèi)容屬于不良內(nèi)容信息,則要被過(guò)濾,反之則放行。該技術(shù)的基礎(chǔ)是創(chuàng)建一個(gè)龐大的關(guān)鍵詞列表,并保證不斷更新。關(guān)鍵詞匹配算法中常用布爾模型和向量空間模型。布爾模型的主要思想是抓取特征詞匯對(duì)其進(jìn)行邏輯運(yùn)算,最后進(jìn)行相應(yīng)的文本處理。其中,一般要找最能體現(xiàn)該文本的關(guān)鍵詞或特征項(xiàng)來(lái)作為特征詞匯。向量空間模型將文本和用戶(hù)需求轉(zhuǎn)換為向量形式后判斷待過(guò)濾文本與用戶(hù)需求模板之間的相似度同設(shè)定的閾值的大小,按照結(jié)果執(zhí)行過(guò)濾或放行指令。這種模型體系簡(jiǎn)單且較好實(shí)現(xiàn)用戶(hù)需求,但沒(méi)有添加權(quán)重計(jì)算,不能加入人工調(diào)節(jié),所以導(dǎo)致過(guò)濾效果不容易在控制范圍內(nèi)。

3基于框架匹配的文本分析....................10
3.1中文分詞.......................10
3.2幾種常用的分詞方法.................11
4網(wǎng)絡(luò)文本過(guò)濾系統(tǒng)系統(tǒng)........................22
4.1設(shè)計(jì)方案.......22
4.2系統(tǒng)的功能設(shè)計(jì)....22
5總結(jié)與展望............45
5.1工作總結(jié).......................45
5.2工作展望.....................45
4網(wǎng)絡(luò)文本過(guò)濾系統(tǒng)系統(tǒng)
4.1設(shè)計(jì)方案
在代理服務(wù)器轉(zhuǎn)發(fā)網(wǎng)絡(luò)數(shù)據(jù)包時(shí),可從語(yǔ)義的角度出發(fā),對(duì)目標(biāo)文本進(jìn)行過(guò)濾。基于這種思想建立的相關(guān)系統(tǒng)首先從自然語(yǔ)言學(xué)的角度出發(fā),對(duì)樣本文本與待過(guò)濾文本分別進(jìn)行分詞、詞性標(biāo)注以及特征提取。其次,依據(jù)格語(yǔ)法知識(shí)構(gòu)建樣本文本與待過(guò)濾文本的語(yǔ)義框架,使之充分體現(xiàn)原始文本的語(yǔ)義關(guān)系。再次,按照漢語(yǔ)的語(yǔ)法知識(shí),采用語(yǔ)義距離函數(shù)及框架相似度計(jì)算公式。最后,基于給定的樣本訓(xùn)練與人為的調(diào)整,找到合適的參數(shù)和閾值,從而判斷文本是否被過(guò)濾,達(dá)到高查準(zhǔn)率、高查全率。
4.2系統(tǒng)的功能設(shè)計(jì)
如上圖所示,本系統(tǒng)主要分為兩大部分:網(wǎng)絡(luò)監(jiān)控和文本過(guò)濾。這兩大部分都由系統(tǒng)控制模塊控制、協(xié)調(diào)并對(duì)整個(gè)運(yùn)行進(jìn)行管理。系統(tǒng)控制模塊主要對(duì)系統(tǒng)進(jìn)行初始化設(shè)置,并為各模塊分配系統(tǒng)需求的資源。其工作流程為:首先,連接數(shù)據(jù)庫(kù),然后讀取網(wǎng)絡(luò)訪(fǎng)問(wèn)記錄日志表中過(guò)濾規(guī)則表的歷史記錄。最后,創(chuàng)建內(nèi)存映射文件,以便在系統(tǒng)的各個(gè)模塊間共享數(shù)據(jù)。其中,網(wǎng)絡(luò)監(jiān)控部分主要針對(duì)網(wǎng)絡(luò)訪(fǎng)問(wèn)權(quán)限及內(nèi)容進(jìn)行有效的管理控制。代理模塊的主要功能是轉(zhuǎn)發(fā)建立客戶(hù)機(jī)與目標(biāo)服務(wù)器之間頁(yè)請(qǐng)求和應(yīng)答信息,并提供內(nèi)部子網(wǎng)和的實(shí)際網(wǎng)絡(luò)通訊。網(wǎng)絡(luò)數(shù)據(jù)包過(guò)濾模塊的主要功能是過(guò)濾禁用的地址與網(wǎng)絡(luò)數(shù)據(jù)包。內(nèi)容重現(xiàn)模塊的主要功能是存儲(chǔ)和重現(xiàn)己訪(fǎng)問(wèn)的網(wǎng)頁(yè)內(nèi)容。
............
5總結(jié)與展望
5.1工作總結(jié)
在基于框架匹配實(shí)現(xiàn)網(wǎng)絡(luò)文本過(guò)濾系統(tǒng)的過(guò)程中,本文基于代理服務(wù)器實(shí)現(xiàn)一個(gè)頁(yè)文本語(yǔ)義過(guò)濾系統(tǒng),系統(tǒng)能夠?qū)崿F(xiàn)網(wǎng)絡(luò)監(jiān)測(cè)與文本過(guò)濾。其中,網(wǎng)絡(luò)監(jiān)測(cè)過(guò)程中,主要采用應(yīng)用代理技術(shù)實(shí)現(xiàn)網(wǎng)頁(yè)訪(fǎng)問(wèn)代理,使用技術(shù)從網(wǎng)絡(luò)層抓取數(shù)據(jù)包,根據(jù)用戶(hù)的設(shè)置并依托于網(wǎng)絡(luò)層,分別從地址、協(xié)議與端口號(hào)的角度出發(fā),對(duì)數(shù)據(jù)包進(jìn)行過(guò)濾。在這一過(guò)程中,文本過(guò)濾系統(tǒng)通過(guò)代理服務(wù)器對(duì)客戶(hù)機(jī)頁(yè)面的訪(fǎng)問(wèn)請(qǐng)求進(jìn)行攔截,并對(duì)放行后存儲(chǔ)訪(fǎng)問(wèn)過(guò)的頁(yè)面進(jìn)行判斷,最終可以實(shí)現(xiàn)內(nèi)容重現(xiàn);在文本過(guò)濾過(guò)程中,文中釆用多級(jí)過(guò)濾機(jī)制,依托于網(wǎng)絡(luò)層對(duì)數(shù)據(jù)包進(jìn)行過(guò)濾,并且對(duì)于截獲后的數(shù)據(jù)包基于地址、端口等途徑進(jìn)行控制訪(fǎng)問(wèn)。與此同時(shí),依托于應(yīng)用層,文中采用代理技術(shù)對(duì)目標(biāo)服務(wù)器頁(yè)中關(guān)鍵字進(jìn)行過(guò)濾,并基于語(yǔ)義的文本過(guò)濾對(duì)只包含關(guān)鍵字的文本進(jìn)行過(guò)濾。實(shí)驗(yàn)結(jié)果表明文本過(guò)濾過(guò)程中的查準(zhǔn)率和查全率得到了提高。
5.2工作展望
所創(chuàng)建的相關(guān)算法和系統(tǒng)中,對(duì)于精確分詞具有一定的局限性,對(duì)于未登錄詞以及停用詞都有一定的障礙,未來(lái)可以在行為主體、中心動(dòng)詞以及行為客體的基礎(chǔ)之上,進(jìn)一步提取行為情境、行為時(shí)間等框架角色,創(chuàng)建精確度高及多元化的語(yǔ)義框架提取方法;本文所采用的相關(guān)實(shí)例是針對(duì)一部分領(lǐng)域(包括政治、經(jīng)濟(jì)等)中的相對(duì)簡(jiǎn)單的短文本進(jìn)行取樣驗(yàn)證,而網(wǎng)絡(luò)信息所覆蓋的領(lǐng)域廣泛,為了使得文章所提出的相關(guān)方法和理論能夠適用于更多的對(duì)象,未來(lái)需對(duì)復(fù)雜文本進(jìn)行算法分析。
.................
參考文獻(xiàn):
- [1] 王景中,郭兆亮. 基于分層的中文Web文本內(nèi)容過(guò)濾研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2012(11)
- [2] 桑書(shū)娟,王敏. 一種結(jié)合文檔頻率和互信息的特征項(xiàng)提取方法[J]. 電腦知識(shí)與技術(shù). 2012(11)
- [3] 彭昱忠,元昌安,王艷,覃曉. 基于內(nèi)容理解的不良信息過(guò)濾技術(shù)研究[J]. 計(jì)算機(jī)應(yīng)用研究. 2009(02)
- [4] 陶明忠,馬玉蕾. 框架網(wǎng)絡(luò)與漢語(yǔ)信息處理[J]. 語(yǔ)言文字應(yīng)用. 2007(04)
- [5] 唐堅(jiān)剛,熊?chē)?guó)萍. 基于語(yǔ)義的關(guān)鍵詞過(guò)濾權(quán)重算法[J]. 微計(jì)算機(jī)信息. 2007(27)
- [6] 彭作民. 一個(gè)基于語(yǔ)義分析的文本過(guò)濾方法[J]. 計(jì)算機(jī)與信息技術(shù). 2007(09)
- [7] 馮志偉. 從格語(yǔ)法到框架網(wǎng)絡(luò)[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào). 2006(03)
- [8] 周彬,伍忠東,喻建平. 基于語(yǔ)義鏈的色情網(wǎng)頁(yè)過(guò)濾系統(tǒng)[J]. 蘭州交通大學(xué)學(xué)報(bào). 2006(01)
- [9] 沈麗虹,周昌樂(lè). 基于語(yǔ)義空間的支持向量機(jī)的文本過(guò)濾[J]. 計(jì)算機(jī)應(yīng)用. 2005(03)
- [10] 江寶林,劉永丹,金峰,葛家翔,胡運(yùn)發(fā). 一個(gè)基于語(yǔ)義分析的傾向性文檔過(guò)濾系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用與軟件. 2005(01)
本文編號(hào):9231
本文鏈接:http://sikaile.net/shoufeilunwen/shuoshibiyelunwen/9231.html