一種中文領(lǐng)域網(wǎng)頁(yè)過(guò)濾方法
本文選題:網(wǎng)頁(yè)過(guò)濾 + 網(wǎng)頁(yè)屏蔽 ; 參考:《北京理工大學(xué)學(xué)報(bào)》2014年05期
【摘要】:鑒于互聯(lián)網(wǎng)上各種不良網(wǎng)頁(yè)的影響,提出了一種使用貝葉斯分類算法和領(lǐng)域本體過(guò)濾中文網(wǎng)頁(yè)的方法.該方法根據(jù)正反例領(lǐng)域網(wǎng)頁(yè)計(jì)算領(lǐng)域特征詞的權(quán)重,建立領(lǐng)域特征詞庫(kù)并制作領(lǐng)域本體,根據(jù)正例領(lǐng)域網(wǎng)頁(yè)得到本體元素權(quán)重庫(kù);使用貝葉斯分類算法得到候選網(wǎng)頁(yè);根據(jù)領(lǐng)域本體對(duì)候選網(wǎng)頁(yè)進(jìn)行語(yǔ)義相關(guān)度計(jì)算并進(jìn)行網(wǎng)頁(yè)過(guò)濾.該方法可以區(qū)分相同領(lǐng)域網(wǎng)頁(yè)中的正反例網(wǎng)頁(yè)并可兼顧網(wǎng)頁(yè)過(guò)濾的實(shí)時(shí)性.通過(guò)游戲領(lǐng)域網(wǎng)頁(yè)的測(cè)試,準(zhǔn)確率和召回率均在98%以上,語(yǔ)義分析游戲相關(guān)網(wǎng)頁(yè)的平均時(shí)間為1~2s,對(duì)用戶瀏覽網(wǎng)頁(yè)速度的影響較小,效果令人滿意.
[Abstract]:In view of the influence of various bad web pages on the Internet, a method of filtering Chinese web pages using Bayesian classification algorithm and domain ontology is proposed. This method calculates the weight of domain feature words according to positive and negative domain web pages, establishes domain feature lexicon and makes domain ontology, obtains ontology element weight database according to positive domain web pages, and obtains candidate web pages by Bayesian classification algorithm. According to domain ontology, the semantic relevance of candidate pages is calculated and the web pages are filtered. This method can distinguish the positive and negative web pages in the same domain and can take into account the real time of web page filtering. The test results show that the accuracy rate and recall rate are above 98%. The average time of semantic analysis of game related pages is 1 / 2 s, which has little effect on the speed of browsing web pages, and the results are satisfactory.
【作者單位】: 首都師范大學(xué)信息工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61371194)
【分類號(hào)】:TP391.1;TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許云,樊孝忠,張鋒;一種不需分詞的中文文本分類方法[J];北京理工大學(xué)學(xué)報(bào);2005年09期
2 鄧擘;樊孝忠;楊立公;;基于統(tǒng)計(jì)分布與集合論的文本分類方法[J];北京理工大學(xué)學(xué)報(bào);2006年07期
3 宋華,戴一奇;一種用于內(nèi)容過(guò)濾和檢測(cè)的快速多關(guān)鍵詞識(shí)別算法[J];計(jì)算機(jī)研究與發(fā)展;2004年06期
4 晉耀紅;基于語(yǔ)義的文本過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期
5 李強(qiáng);李建華;;基于向量空間模型的過(guò)濾不良文本方法[J];計(jì)算機(jī)工程;2006年10期
6 李振星,陸大玨,任繼成,唐衛(wèi)清,唐榮錫;基于潛在語(yǔ)義索引的Web信息預(yù)測(cè)采集過(guò)濾方法[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2004年01期
7 樊興華;孫茂松;;一種高性能的兩類中文文本分類方法[J];計(jì)算機(jī)學(xué)報(bào);2006年01期
8 袁興宇;王挺;周會(huì)平;肖君;;以本體構(gòu)造中文信息過(guò)濾中的需求模型[J];中文信息學(xué)報(bào);2006年03期
9 孫艷;周學(xué)廣;;基于粗糙集與貝葉斯決策的不良網(wǎng)頁(yè)過(guò)濾研究[J];中文信息學(xué)報(bào);2012年01期
10 曾春,邢春曉,周立柱;基于內(nèi)容過(guò)濾的個(gè)性化搜索算法[J];軟件學(xué)報(bào);2003年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 汪潔;朱軍;;基于Linux的中文垃圾郵件過(guò)濾系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];安徽農(nóng)業(yè)大學(xué)學(xué)報(bào);2011年02期
2 姚克娟,李晉宏;應(yīng)用Agent技術(shù)實(shí)現(xiàn)個(gè)性化信息服務(wù)[J];北方工業(yè)大學(xué)學(xué)報(bào);2004年03期
3 李偉;黃穎;;基于HtmlParser的網(wǎng)頁(yè)信息提取[J];兵工自動(dòng)化;2007年07期
4 李文斌;劉椿年;鐘寧;;基于兩階段集成學(xué)習(xí)的分類器集成[J];北京工業(yè)大學(xué)學(xué)報(bào);2010年03期
5 李愛(ài)明;張帆;;一種基于向量空間模型的信息過(guò)濾系統(tǒng)用戶建模研究[J];圖書(shū)與情報(bào);2007年04期
6 趙軍;胡栓柱;樊興華;;一種新的詞語(yǔ)相似度計(jì)算方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
7 曾立梅;;基于文本數(shù)據(jù)挖掘的碩士論文分類技術(shù)[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
8 楊鳳霞;;基于特征選擇的垃圾短信過(guò)濾研究[J];滄州師范專科學(xué)校學(xué)報(bào);2011年03期
9 孫鐵利;趙雋;楊鳳芹;吳迪;;一種基于相對(duì)特征的文本分類算法[J];東北師大學(xué)報(bào)(自然科學(xué)版);2010年01期
10 王冬青;;遠(yuǎn)程教育個(gè)性化學(xué)習(xí)支持服務(wù)研究[J];中國(guó)遠(yuǎn)程教育;2008年08期
相關(guān)會(huì)議論文 前7條
1 馬后鋒;樊興華;;一種改進(jìn)的增量貝葉斯分類算法[A];2007'儀表,自動(dòng)化及先進(jìn)集成技術(shù)大會(huì)論文集(一)[C];2007年
2 劉萍;劉燕兵;譚建龍;郭莉;;對(duì)多模式串匹配算法性能評(píng)測(cè)方法的探討[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
3 袁興宇;王挺;周會(huì)平;肖君;;以本體構(gòu)造中文信息過(guò)濾中的需求模型[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
4 于靜;趙燕平;;基于社會(huì)網(wǎng)絡(luò)分析的BBS內(nèi)容安全動(dòng)態(tài)監(jiān)測(cè)模型[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
5 趙紀(jì)元;羅霄;;面向中圖法的學(xué)術(shù)文獻(xiàn)自動(dòng)分類研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
6 劉勘;尹承明;陳凡;;圖書(shū)借閱信息的分析與挖掘[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
7 袁曉潔;竇志成;劉芳;張路;;一種基于動(dòng)態(tài)用戶模型的個(gè)性化Web搜索算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
相關(guān)博士學(xué)位論文 前10條
1 劉玉國(guó);基于內(nèi)容的互聯(lián)網(wǎng)輿情信息挖掘關(guān)鍵技術(shù)研究[D];山東大學(xué);2011年
2 楊瑞龍;基于短語(yǔ)特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年
3 劉伍穎;面向垃圾信息過(guò)濾的主動(dòng)多域?qū)W習(xí)文本分類方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
4 張樹(shù)壯;面向網(wǎng)絡(luò)安全的高性能特征匹配技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
5 朱振方;基于微粒群和遺傳優(yōu)化的文本過(guò)濾關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2012年
6 張曉剛;面向軟件過(guò)程改進(jìn)的知識(shí)管理技術(shù)研究[D];中國(guó)科學(xué)院研究生院(軟件研究所);2004年
7 張樹(shù)人;從社會(huì)性軟件、Web2.0到復(fù)雜適應(yīng)信息系統(tǒng)研究[D];中國(guó)人民大學(xué);2006年
8 潘旭偉;集成情境知識(shí)管理中幾個(gè)關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2005年
9 張丙奇;個(gè)性化需求的描述、獲取與推斷—案例研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
10 趙鵬;復(fù)雜網(wǎng)絡(luò)與互聯(lián)網(wǎng)個(gè)性化信息服務(wù)的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 吳則則;支持動(dòng)態(tài)演進(jìn)的用戶興趣模型挖掘方法研究[D];山東科技大學(xué);2010年
2 于洪霞;基于SVM的中文垃圾郵件過(guò)濾[D];哈爾濱工程大學(xué);2009年
3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 孟慶海;基于社會(huì)書(shū)簽的個(gè)性化查詢?cè)~擴(kuò)展技術(shù)研究[D];哈爾濱工程大學(xué);2010年
5 韓兆國(guó);電信計(jì)費(fèi)帳務(wù)系統(tǒng)核心模塊的設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
6 唐微;網(wǎng)絡(luò)信息提取系統(tǒng)關(guān)鍵技術(shù)研究[D];大連理工大學(xué);2009年
7 閆兆法;基于多模態(tài)粒子群優(yōu)化的社會(huì)網(wǎng)絡(luò)分析研究[D];大連理工大學(xué);2010年
8 張囡囡;面向教育碩士培養(yǎng)的個(gè)性化教育資源平臺(tái)的研究[D];遼寧師范大學(xué);2010年
9 姜倫;模糊聚類算法及其在中文文本聚類中的研究與實(shí)現(xiàn)[D];哈爾濱理工大學(xué);2010年
10 李哲;工行產(chǎn)品創(chuàng)新采編系統(tǒng)研究與實(shí)現(xiàn)[D];長(zhǎng)春工業(yè)大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王洪偉,吳家春,蔣馥;基于描述邏輯的本體模型研究[J];系統(tǒng)工程;2003年03期
2 陳曉明,王虹,張仰森;“知網(wǎng)”的知識(shí)擴(kuò)展和推理研究[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年02期
3 張衛(wèi)豐,徐寶文;Web搜索引擎框架研究[J];計(jì)算機(jī)研究與發(fā)展;2000年03期
4 林鴻飛,李業(yè)麗,姚天順;中文文本過(guò)濾的信息分流機(jī)制[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
5 王永成,沈州,許一震;改進(jìn)的多模式匹配算法[J];計(jì)算機(jī)研究與發(fā)展;2002年01期
6 晉耀紅;基于語(yǔ)義的文本過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期
7 朱華宇,孫正興,張福炎;一個(gè)基于向量空間模型的中文文本自動(dòng)分類系統(tǒng)[J];計(jì)算機(jī)工程;2001年02期
8 馮是聰,張志剛,李曉明;一種中文網(wǎng)頁(yè)自動(dòng)分類方法的實(shí)現(xiàn)及應(yīng)用[J];計(jì)算機(jī)工程;2004年05期
9 胡吉祥;許洪波;劉悅;程學(xué)旗;;重復(fù)串特征提取算法及其在文本聚類中的應(yīng)用[J];計(jì)算機(jī)工程;2007年02期
10 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期
相關(guān)碩士學(xué)位論文 前1條
1 李東艷;互聯(lián)網(wǎng)信息內(nèi)容安全過(guò)濾方法研究[D];山西大學(xué);2004年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李景,蘇曉鷺,錢平;構(gòu)建領(lǐng)域本體的方法[J];計(jì)算機(jī)與農(nóng)業(yè);2003年07期
2 陳堅(jiān);何潔月;;RDF可信度擴(kuò)展在領(lǐng)域本體構(gòu)建中的應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年01期
3 肖敏;;領(lǐng)域本體的構(gòu)建方法研究[J];情報(bào)雜志;2006年02期
4 李衍淼;霍常青;;本體論在企業(yè)信息檢索中的應(yīng)用[J];福建電腦;2006年08期
5 楊建學(xué);楊貫中;楊俊柯;;領(lǐng)域本體在學(xué)習(xí)資源管理系統(tǒng)中的應(yīng)用[J];科學(xué)技術(shù)與工程;2006年17期
6 張哲;;基于領(lǐng)域本體的XML模式元素的相似性[J];微電子學(xué)與計(jì)算機(jī);2007年04期
7 劉燕玲;華慶一;郭曉娟;;基于領(lǐng)域本體面向問(wèn)題的需求分析與領(lǐng)域建模[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年08期
8 牟冬梅;范軼;;數(shù)字圖書(shū)館領(lǐng)域本體的構(gòu)建與推理——以醫(yī)學(xué)領(lǐng)域本體為例[J];圖書(shū)情報(bào)工作;2007年08期
9 李曙光;王俊彪;蔣建軍;王百靈;;基于本體理論的企業(yè)信息分類編碼方法研究[J];計(jì)算機(jī)應(yīng)用研究;2007年12期
10 唐曉波;韋貞;徐蕾;;基于本體的信息系統(tǒng)建模方法[J];情報(bào)科學(xué);2008年03期
相關(guān)會(huì)議論文 前10條
1 張曉瑩;張桂平;王裴巖;;領(lǐng)域本體構(gòu)建中關(guān)系輔助判斷技術(shù)研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 葉瓊;李紹穩(wěn);張友華;劉愷;;農(nóng)業(yè)領(lǐng)域本體知識(shí)的云化方法研究[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
3 李貴;張兆鑫;李征宇;韓子洋;;WEB環(huán)境下基于領(lǐng)域本體的語(yǔ)義匹配技術(shù)研究[A];科學(xué)發(fā)展與社會(huì)責(zé)任(A卷)——第五屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)文集[C];2008年
4 程曉;鄭德權(quán);楊宇航;邵國(guó)軍;;面向半結(jié)構(gòu)化文本的領(lǐng)域本體關(guān)系抽取[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
5 許國(guó)艷;王志堅(jiān);;基于主動(dòng)服務(wù)的領(lǐng)域數(shù)據(jù)集成研究[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2008年
6 王茹;邢毓華;;古建筑領(lǐng)域本體構(gòu)建研究[A];首屆工程設(shè)計(jì)高性能計(jì)算(HPC)技術(shù)應(yīng)用論壇論文集[C];2007年
7 丁晟春;劉逶迤;熊霞;梅健;;基于領(lǐng)域本體和語(yǔ)塊分析的信息抽取的研究與實(shí)現(xiàn)[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 劉新華;劉文劍;;基于領(lǐng)域本體的技術(shù)準(zhǔn)備信息集成技術(shù)研究[A];全國(guó)先進(jìn)制造技術(shù)高層論壇暨第七屆制造業(yè)自動(dòng)化與信息化技術(shù)研討會(huì)論文集[C];2008年
9 諶貽榮;陸勤;李文捷;崔高穎;;一種基于共享后綴術(shù)語(yǔ)集改進(jìn)中文核心領(lǐng)域本體構(gòu)建的方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 高俊杰;李茹;李雙紅;;基于領(lǐng)域本體的自動(dòng)問(wèn)答系統(tǒng)關(guān)鍵技術(shù)研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
相關(guān)博士學(xué)位論文 前10條
1 歐陽(yáng)柳波;領(lǐng)域本體覆蓋度評(píng)價(jià)關(guān)鍵技術(shù)研究[D];中南大學(xué);2012年
2 董俊;基于KDD的領(lǐng)域本體構(gòu)建若干關(guān)鍵問(wèn)題研究[D];南京郵電大學(xué);2011年
3 顏端武;面向知識(shí)服務(wù)的智能推薦系統(tǒng)研究[D];南京理工大學(xué);2007年
4 田萱;基于上下文的信息檢索關(guān)鍵技術(shù)研究[D];中國(guó)人民大學(xué);2007年
5 史樹(shù)敏;基于領(lǐng)域本體的漢語(yǔ)共指消解及相關(guān)技術(shù)研究[D];南京理工大學(xué);2008年
6 肖敏;基于領(lǐng)域本體的電子商務(wù)推薦技術(shù)研究[D];武漢理工大學(xué);2009年
7 李麗雙;領(lǐng)域本體學(xué)習(xí)中術(shù)語(yǔ)及關(guān)系抽取方法的研究[D];大連理工大學(xué);2013年
8 王曉東;基于Ontology知識(shí)庫(kù)系統(tǒng)建模與應(yīng)用研究[D];華東師范大學(xué);2003年
9 彭鑫;基于本體、特征驅(qū)動(dòng)的產(chǎn)品線開(kāi)發(fā)方法[D];復(fù)旦大學(xué);2006年
10 董寶力;Web制造資源的語(yǔ)義發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 馮艷華;基于語(yǔ)義的構(gòu)件描述和檢索方法的研究[D];西北大學(xué);2005年
2 葉劍;基于領(lǐng)域本體的E-Learning系統(tǒng)研究[D];華中師范大學(xué);2011年
3 袁占花;基于本體論的應(yīng)急系統(tǒng)知識(shí)庫(kù)建模的研究[D];太原理工大學(xué);2005年
4 李雪瑞;基于語(yǔ)義網(wǎng)的空間信息共享研究[D];中國(guó)人民解放軍信息工程大學(xué);2005年
5 尹亮;基于本體的信息系統(tǒng)建模理論研究[D];吉林大學(xué);2006年
6 郭成棟;面向e-learning的個(gè)性化測(cè)試評(píng)估建模[D];湖南大學(xué);2006年
7 楊小佳;基于本體的公共交通領(lǐng)域智能信息檢索研究[D];大連海事大學(xué);2007年
8 郭嘉琦;領(lǐng)域本體的構(gòu)建及其在信息檢索中的應(yīng)用研究[D];北京郵電大學(xué);2007年
9 孫倩;基于敘詞表的領(lǐng)域本體建模方法研究[D];山東大學(xué);2007年
10 張囡囡;面向語(yǔ)義網(wǎng)的領(lǐng)域本體半自動(dòng)構(gòu)建方法的研究[D];大連海事大學(xué);2008年
,本文編號(hào):1778687
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1778687.html