基于概念融合的網(wǎng)頁篩選技術(shù)研究
發(fā)布時間:2021-05-17 17:36
隨著網(wǎng)絡的迅速發(fā)展,互聯(lián)網(wǎng)在人們?nèi)粘P畔⒔涣髦姓紦?jù)越來越重要的地位,網(wǎng)頁資源日益豐富,給用戶獲取信息帶來便捷,但同時也帶來一些對社會有害的敏感信息。為了給用戶提供健康、安全的信息,就有必要對敏感網(wǎng)頁進行篩選處理。網(wǎng)頁內(nèi)容安全篩選是通過智能分析網(wǎng)頁內(nèi)容,研究高效分類技術(shù)以達到準確篩選網(wǎng)頁內(nèi)容的目的,主流技術(shù)包括基于文本內(nèi)容的網(wǎng)頁篩選(TBIF)和基于圖像內(nèi)容的網(wǎng)頁篩選(IBIF)。網(wǎng)頁通常具有多模態(tài)特性,不僅包含圖像信息還包含用來描述圖像的文本信息,顯然,要滿足網(wǎng)頁篩選的準確性和完整性,在技術(shù)設計方案上必須同時考慮兩種模態(tài)信息的融合處理。融合處理過程中,網(wǎng)頁內(nèi)容特征表示的有效性,多模態(tài)數(shù)據(jù)之間的異構(gòu)性以及篩選時判定數(shù)據(jù)所需滿足的實時性,都是影響網(wǎng)頁內(nèi)容篩選精度和速度的重要因素。為了提高網(wǎng)頁篩選的精度和速度,本文針對網(wǎng)頁內(nèi)容安全篩選中網(wǎng)頁表示、異構(gòu)特征融合、高性能內(nèi)容篩選等關鍵問題進行了深入的研究,主要研究內(nèi)容如下:1)基于文本和圖像概念融合的網(wǎng)頁篩選框架網(wǎng)頁中通常包括文本和圖像兩種模態(tài)信息,利用單一模態(tài)信息表示網(wǎng)頁,只能篩選部分敏感信息,因此,文本和圖像融合處理是改善多模態(tài)網(wǎng)頁內(nèi)容篩選準...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:115 頁
【學位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 網(wǎng)頁篩選技術(shù)研究必要性:安全隱患
1.2 網(wǎng)頁篩選技術(shù)研究現(xiàn)狀
1.2.1 基于文本內(nèi)容的網(wǎng)頁篩選方法
1.2.2 基于結(jié)構(gòu)內(nèi)容的網(wǎng)頁篩選
1.2.3 基于可視化內(nèi)容分析的網(wǎng)頁篩選
1.3 網(wǎng)頁概念空間提出
1.4 本課題的主要研究內(nèi)容與組織結(jié)構(gòu)
1.4.1 本課題的研究內(nèi)容
1.4.2 本課題研究內(nèi)容的組織結(jié)構(gòu)
本章參考文獻
第2章 相關理論及關鍵技術(shù)
2.1 信息篩選技術(shù)研究
2.2 安全篩選與信息檢索
2.3 信息篩選模型介紹
2.4 文本內(nèi)容的提取與表示
2.4.1 中文分詞技術(shù)
2.4.2 文本的向量空間表示模型
2.4.3 文本特征選擇與權(quán)重計算方法
2.4.4 有意義串提取方法
2.5 圖像內(nèi)容的提取與表示
2.5.1 圖像底層物理特征提取
2.5.2 圖像局部特征表示(概念表示)
2.6 信息融合技術(shù)
2.6.1 信息融合的基本概念
2.6.2 信息融合的方法
2.7 信息篩選算法設計
2.7.1 基于統(tǒng)計的篩選方法
2.7.2 相似性計算的索引方法
2.7.3 評價指標
2.8 本章小結(jié)
本章參考文獻
第3章 面向文本和圖像概念空間的有意義串提取算法
3.1 引言
3.2 算法框架描述
3.3 預處理:網(wǎng)頁候選串生成
3.3.1 文本內(nèi)容候選串生成
3.3.2 圖像內(nèi)容候選串生成
3.4 基于聚類的有意義串提。焊拍羁臻g生成
3.4.1 聚類方法描述
3.4.2 基于文檔聚類的有意義串提取
3.4.3 基于詞聚類的有意義串提取
3.5 實驗結(jié)果與分析
3.5.1 實驗數(shù)據(jù)集與實驗設置
3.5.2 章回小說語料實驗結(jié)果
3.5.3 敏感數(shù)據(jù)集實驗結(jié)果
3.5.4 網(wǎng)頁分類實驗結(jié)果
3.6 本章小結(jié)
本章參考文獻
第4章 基于高斯局部多核權(quán)重模型的多特征概念融合算法
4.1 引言
4.2 基于高斯局部多核權(quán)重模型的概念融合算法
4.2.1 多核學習理論框架
4.2.2 局部多核學習
4.2.3 多特征高斯權(quán)重函數(shù)模型
4.2.4 迭代優(yōu)化的訓練模式
4.2.5 算法描述
4.3 實驗結(jié)果與分析
4.3.1 實驗設置
4.3.2 實驗結(jié)果
4.3.3 實驗結(jié)果分析
4.4 本章小結(jié)
本章參考文獻
第5章 基于最小圓覆蓋區(qū)域劃分的索引篩選算法
5.1 篩選索引樹結(jié)構(gòu)特點
5.2 問題描述
5.3 基于最小圓覆蓋區(qū)域劃分的篩選索引方法
5.3.1 最小圓覆蓋算法
5.3.2 F-tree索引生成算法
5.3.3 F-tree的相似性查詢算法
5.4 實驗結(jié)果與分析
5.4.1 實驗設置
5.4.2 實驗結(jié)果
5.4.3 實驗結(jié)果分析
5.5 本章小結(jié)
本章參考文獻
第6章 結(jié)束語
6.1 本文工作總結(jié)
6.2 進一步的工作
致謝
參加的科研工作
附錄:在攻讀博士期間發(fā)表的文章
【參考文獻】:
期刊論文
[1]稀疏保持典型相關分析及在特征融合中的應用[J]. 侯書東,孫權(quán)森. 自動化學報. 2012(04)
[2]多核學習方法[J]. 汪洪橋,孫富春,蔡艷寧,陳寧,丁林閣. 自動化學報. 2010(08)
[3]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學報. 2008(01)
[4]一種高性能的兩類中文文本分類方法[J]. 樊興華,孫茂松. 計算機學報. 2006(01)
[5]基于結(jié)構(gòu)特征的nBayes雙層過濾模型[J]. 王斌,許洪波,王申. 計算機應用. 2006(01)
[6]一種基于詞聚類的中文文本主題抽取方法[J]. 陳炯,張永奎. 計算機應用. 2005(04)
[7]基于關鍵維的高維空間劃分策略[J]. 周項敏,王國仁. 軟件學報. 2004(09)
[8]基于人工神經(jīng)網(wǎng)絡的有害信息過濾智能決策系統(tǒng)[J]. 任家東,黃輝宇. 計算機工程. 2004(16)
[9]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學報. 2004(01)
[10]度量空間中高維索引結(jié)構(gòu)回顧[J]. 劉芳潔,董道國,薛向陽. 計算機科學. 2003(07)
本文編號:3192162
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:115 頁
【學位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 網(wǎng)頁篩選技術(shù)研究必要性:安全隱患
1.2 網(wǎng)頁篩選技術(shù)研究現(xiàn)狀
1.2.1 基于文本內(nèi)容的網(wǎng)頁篩選方法
1.2.2 基于結(jié)構(gòu)內(nèi)容的網(wǎng)頁篩選
1.2.3 基于可視化內(nèi)容分析的網(wǎng)頁篩選
1.3 網(wǎng)頁概念空間提出
1.4 本課題的主要研究內(nèi)容與組織結(jié)構(gòu)
1.4.1 本課題的研究內(nèi)容
1.4.2 本課題研究內(nèi)容的組織結(jié)構(gòu)
本章參考文獻
第2章 相關理論及關鍵技術(shù)
2.1 信息篩選技術(shù)研究
2.2 安全篩選與信息檢索
2.3 信息篩選模型介紹
2.4 文本內(nèi)容的提取與表示
2.4.1 中文分詞技術(shù)
2.4.2 文本的向量空間表示模型
2.4.3 文本特征選擇與權(quán)重計算方法
2.4.4 有意義串提取方法
2.5 圖像內(nèi)容的提取與表示
2.5.1 圖像底層物理特征提取
2.5.2 圖像局部特征表示(概念表示)
2.6 信息融合技術(shù)
2.6.1 信息融合的基本概念
2.6.2 信息融合的方法
2.7 信息篩選算法設計
2.7.1 基于統(tǒng)計的篩選方法
2.7.2 相似性計算的索引方法
2.7.3 評價指標
2.8 本章小結(jié)
本章參考文獻
第3章 面向文本和圖像概念空間的有意義串提取算法
3.1 引言
3.2 算法框架描述
3.3 預處理:網(wǎng)頁候選串生成
3.3.1 文本內(nèi)容候選串生成
3.3.2 圖像內(nèi)容候選串生成
3.4 基于聚類的有意義串提。焊拍羁臻g生成
3.4.1 聚類方法描述
3.4.2 基于文檔聚類的有意義串提取
3.4.3 基于詞聚類的有意義串提取
3.5 實驗結(jié)果與分析
3.5.1 實驗數(shù)據(jù)集與實驗設置
3.5.2 章回小說語料實驗結(jié)果
3.5.3 敏感數(shù)據(jù)集實驗結(jié)果
3.5.4 網(wǎng)頁分類實驗結(jié)果
3.6 本章小結(jié)
本章參考文獻
第4章 基于高斯局部多核權(quán)重模型的多特征概念融合算法
4.1 引言
4.2 基于高斯局部多核權(quán)重模型的概念融合算法
4.2.1 多核學習理論框架
4.2.2 局部多核學習
4.2.3 多特征高斯權(quán)重函數(shù)模型
4.2.4 迭代優(yōu)化的訓練模式
4.2.5 算法描述
4.3 實驗結(jié)果與分析
4.3.1 實驗設置
4.3.2 實驗結(jié)果
4.3.3 實驗結(jié)果分析
4.4 本章小結(jié)
本章參考文獻
第5章 基于最小圓覆蓋區(qū)域劃分的索引篩選算法
5.1 篩選索引樹結(jié)構(gòu)特點
5.2 問題描述
5.3 基于最小圓覆蓋區(qū)域劃分的篩選索引方法
5.3.1 最小圓覆蓋算法
5.3.2 F-tree索引生成算法
5.3.3 F-tree的相似性查詢算法
5.4 實驗結(jié)果與分析
5.4.1 實驗設置
5.4.2 實驗結(jié)果
5.4.3 實驗結(jié)果分析
5.5 本章小結(jié)
本章參考文獻
第6章 結(jié)束語
6.1 本文工作總結(jié)
6.2 進一步的工作
致謝
參加的科研工作
附錄:在攻讀博士期間發(fā)表的文章
【參考文獻】:
期刊論文
[1]稀疏保持典型相關分析及在特征融合中的應用[J]. 侯書東,孫權(quán)森. 自動化學報. 2012(04)
[2]多核學習方法[J]. 汪洪橋,孫富春,蔡艷寧,陳寧,丁林閣. 自動化學報. 2010(08)
[3]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學報. 2008(01)
[4]一種高性能的兩類中文文本分類方法[J]. 樊興華,孫茂松. 計算機學報. 2006(01)
[5]基于結(jié)構(gòu)特征的nBayes雙層過濾模型[J]. 王斌,許洪波,王申. 計算機應用. 2006(01)
[6]一種基于詞聚類的中文文本主題抽取方法[J]. 陳炯,張永奎. 計算機應用. 2005(04)
[7]基于關鍵維的高維空間劃分策略[J]. 周項敏,王國仁. 軟件學報. 2004(09)
[8]基于人工神經(jīng)網(wǎng)絡的有害信息過濾智能決策系統(tǒng)[J]. 任家東,黃輝宇. 計算機工程. 2004(16)
[9]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學報. 2004(01)
[10]度量空間中高維索引結(jié)構(gòu)回顧[J]. 劉芳潔,董道國,薛向陽. 計算機科學. 2003(07)
本文編號:3192162
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3192162.html
最近更新
教材專著