大數(shù)據(jù)相關關系挖掘的若干關鍵問題研究
發(fā)布時間:2020-12-11 10:35
隨著信息系統(tǒng)計算能力和存儲能力的提升,大數(shù)據(jù)正源源不斷地產(chǎn)生,各行各業(yè)收集了琳瑯滿目的大數(shù)據(jù),這些數(shù)據(jù)中蘊藏著巨大的價值,已經(jīng)引起全球各界的廣泛關注。我國疆域遼闊、人口眾多,無時無刻不在產(chǎn)生巨量的數(shù)據(jù),這些數(shù)據(jù)已經(jīng)成為我國重要的戰(zhàn)略資源。大數(shù)據(jù)往往具有極高的維度和海量的數(shù)據(jù),這為大數(shù)據(jù)分析帶來了巨大的機遇與挑戰(zhàn)。一方面,海量的數(shù)據(jù)為大數(shù)據(jù)分析方法提供全體數(shù)據(jù),而不僅僅是數(shù)據(jù)樣本,這能顯著提高概率估計算法的精度。另一方面,極高的維度使得傳統(tǒng)的機器學習與數(shù)據(jù)挖掘算法變得不可用,加劇了維數(shù)災難問題,使得因果關系分析變得十分困難。由于相關關系分析具有可解釋性強、效率高等優(yōu)勢,受到了越來越多的關注。本文以大數(shù)據(jù)相關關系挖掘為研究課題,重點研究了目標變量與特征和交互作用之間的相關關系。在機器學習與數(shù)據(jù)挖掘領域,特征選擇被廣泛應用于分析特征與目標之間的相關關系,該方法能夠得到與目標變量相關的關鍵特征。因此,本文提出使用特征選擇方法分析特征和交互作用與目標變量之間的相關關系,重點研究了大數(shù)據(jù)相關關系挖掘中的四個關鍵問題:因子交互作用挖掘問題;因子排序和顯著性分析問題;大數(shù)據(jù)相關關系挖掘方法的效率問題;...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:112 頁
【學位級別】:博士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 研究意義
1.2.1 大數(shù)據(jù)降維
1.2.2 相關關系挖掘
1.2.3 交互作用挖掘
1.2.4 文本分類特征選擇
1.3 研究現(xiàn)狀
1.3.1 相關關系分析
1.3.2 特征選擇與維數(shù)約簡
1.3.3 試驗設計
1.3.4 量子機器學習
1.4 主要內(nèi)容與創(chuàng)新
1.5 本文的組織結構
第二章 面向因子交互作用挖掘的信息論特征選擇方法
2.1 引言
2.2 信息論背景知識
2.2.1 互信息
2.2.2 交互作用信息
2.3 特征選擇算法框架
2.3.1 基于交互作用的特征選擇框架
2.3.2 特征選擇框架與現(xiàn)有方法之間的聯(lián)系
2.4 基于信息論的特征選擇方法
2.4.1 交互作用信息最大化算法
2.4.2 聯(lián)合互信息最大化算法
2.5 實驗分析
2.5.1 總體性能對比
2.5.2 特征選擇性能隨特征數(shù)量的變化
2.5.3 運行時間對比
2.6 本章小結
第三章 面向因子排序和顯著性分析的試驗設計特征選擇方法
3.1 引言
3.2 試驗設計背景知識
3.2.1 試驗設計
3.2.2 析因設計
3.2.3 部分析因設計
3.2.4 Taguchi方法
3.3 基于試驗設計的特征選擇方法
3.3.1 基于析因設計的特征選擇方法
3.3.2 基于析因設計的大數(shù)據(jù)相關關系挖掘算法
3.3.3 基于部分析因設計的特征選擇方法
3.3.4 基于Taguchi方法的自動調參方法
3.3.5 多分類問題的解決方案
3.4 實驗分析
3.4.1 IMFS的實驗結果
3.4.2 IMFS-FDFS的實驗結果
3.4.3 交互作用的效果
3.4.4 PM2.5數(shù)據(jù)上的應用
3.5 本章小結
第四章 面向大數(shù)據(jù)相關關系挖掘效率的量子加速算法
4.1 引言
4.2 量子計算
4.2.1 量子態(tài)與量子門
4.2.2 量子相位估計算法
4.2.3 量子搜索算法
4.2.4 量子計數(shù)算法
4.3 量子計算加速過濾式特征選擇算法
4.3.1 信息測度
4.3.2 特征選擇
4.3.3 量子計算加速概率分布估計
4.3.4 量子算法加速計算最大值
4.3.5 量子搜索算法加速求解變量的值域
4.3.6 復雜度分析
4.4 量子計算加速嵌入式特征選擇選算法
4.4.1 嵌入式特征選擇算法的矩陣運算
4.4.2 量子計算加速逆矩陣運算
4.4.3 量子計算加速矩陣乘積運算
4.5 本章小結
第五章 相關關系挖掘方法在文本數(shù)據(jù)上的應用
5.1 引言
5.2 文本特征提取
5.2.1 向量空間模型
5.2.2 N元模型
5.3 文本分類特征選擇方法
5.3.1 文檔頻率法
5.3.2 互信息法
5.3.3 信息增益法
5.3.4 卡方統(tǒng)計法
5.3.5 最大判別法
5.4 實驗分析
5.4.1 實驗配置
5.4.2 Max-Interaction算法的實驗結果
5.4.3 FJMI算法的實驗結果
5.5 本章小結
第六章 全文總結與展望
6.1 全文總結
6.2 后續(xù)工作展望
致謝
參考文獻
攻讀博士學位期間取得的成果
【參考文獻】:
期刊論文
[1]量子機器學習算法綜述[J]. 黃一鳴,雷航,李曉瑜. 計算機學報. 2018(01)
[2]大數(shù)據(jù)相關分析綜述[J]. 梁吉業(yè),馮晨嬌,宋鵬. 計算機學報. 2016(01)
[3]大數(shù)據(jù)與量子計算[J]. 王書浩,龍桂魯. 科學通報. 2015(Z1)
[4]大數(shù)據(jù)系統(tǒng)和分析技術綜述[J]. 程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰. 軟件學報. 2014(09)
[5]Challenges of Big Data analysis[J]. Jianqing Fan,Fang Han,Han Liu. National Science Review. 2014(02)
[6]大數(shù)據(jù)應用的現(xiàn)狀與展望[J]. 張引,陳敏,廖小飛. 計算機研究與發(fā)展. 2013(S2)
[7]大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J]. 李國杰,程學旗. 中國科學院院刊. 2012(06)
[8]自動文本分類特征選擇方法研究[J]. 張海龍,王蓮芝. 計算機工程與設計. 2006(20)
本文編號:2910385
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:112 頁
【學位級別】:博士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 研究意義
1.2.1 大數(shù)據(jù)降維
1.2.2 相關關系挖掘
1.2.3 交互作用挖掘
1.2.4 文本分類特征選擇
1.3 研究現(xiàn)狀
1.3.1 相關關系分析
1.3.2 特征選擇與維數(shù)約簡
1.3.3 試驗設計
1.3.4 量子機器學習
1.4 主要內(nèi)容與創(chuàng)新
1.5 本文的組織結構
第二章 面向因子交互作用挖掘的信息論特征選擇方法
2.1 引言
2.2 信息論背景知識
2.2.1 互信息
2.2.2 交互作用信息
2.3 特征選擇算法框架
2.3.1 基于交互作用的特征選擇框架
2.3.2 特征選擇框架與現(xiàn)有方法之間的聯(lián)系
2.4 基于信息論的特征選擇方法
2.4.1 交互作用信息最大化算法
2.4.2 聯(lián)合互信息最大化算法
2.5 實驗分析
2.5.1 總體性能對比
2.5.2 特征選擇性能隨特征數(shù)量的變化
2.5.3 運行時間對比
2.6 本章小結
第三章 面向因子排序和顯著性分析的試驗設計特征選擇方法
3.1 引言
3.2 試驗設計背景知識
3.2.1 試驗設計
3.2.2 析因設計
3.2.3 部分析因設計
3.2.4 Taguchi方法
3.3 基于試驗設計的特征選擇方法
3.3.1 基于析因設計的特征選擇方法
3.3.2 基于析因設計的大數(shù)據(jù)相關關系挖掘算法
3.3.3 基于部分析因設計的特征選擇方法
3.3.4 基于Taguchi方法的自動調參方法
3.3.5 多分類問題的解決方案
3.4 實驗分析
3.4.1 IMFS的實驗結果
3.4.2 IMFS-FDFS的實驗結果
3.4.3 交互作用的效果
3.4.4 PM2.5數(shù)據(jù)上的應用
3.5 本章小結
第四章 面向大數(shù)據(jù)相關關系挖掘效率的量子加速算法
4.1 引言
4.2 量子計算
4.2.1 量子態(tài)與量子門
4.2.2 量子相位估計算法
4.2.3 量子搜索算法
4.2.4 量子計數(shù)算法
4.3 量子計算加速過濾式特征選擇算法
4.3.1 信息測度
4.3.2 特征選擇
4.3.3 量子計算加速概率分布估計
4.3.4 量子算法加速計算最大值
4.3.5 量子搜索算法加速求解變量的值域
4.3.6 復雜度分析
4.4 量子計算加速嵌入式特征選擇選算法
4.4.1 嵌入式特征選擇算法的矩陣運算
4.4.2 量子計算加速逆矩陣運算
4.4.3 量子計算加速矩陣乘積運算
4.5 本章小結
第五章 相關關系挖掘方法在文本數(shù)據(jù)上的應用
5.1 引言
5.2 文本特征提取
5.2.1 向量空間模型
5.2.2 N元模型
5.3 文本分類特征選擇方法
5.3.1 文檔頻率法
5.3.2 互信息法
5.3.3 信息增益法
5.3.4 卡方統(tǒng)計法
5.3.5 最大判別法
5.4 實驗分析
5.4.1 實驗配置
5.4.2 Max-Interaction算法的實驗結果
5.4.3 FJMI算法的實驗結果
5.5 本章小結
第六章 全文總結與展望
6.1 全文總結
6.2 后續(xù)工作展望
致謝
參考文獻
攻讀博士學位期間取得的成果
【參考文獻】:
期刊論文
[1]量子機器學習算法綜述[J]. 黃一鳴,雷航,李曉瑜. 計算機學報. 2018(01)
[2]大數(shù)據(jù)相關分析綜述[J]. 梁吉業(yè),馮晨嬌,宋鵬. 計算機學報. 2016(01)
[3]大數(shù)據(jù)與量子計算[J]. 王書浩,龍桂魯. 科學通報. 2015(Z1)
[4]大數(shù)據(jù)系統(tǒng)和分析技術綜述[J]. 程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰. 軟件學報. 2014(09)
[5]Challenges of Big Data analysis[J]. Jianqing Fan,Fang Han,Han Liu. National Science Review. 2014(02)
[6]大數(shù)據(jù)應用的現(xiàn)狀與展望[J]. 張引,陳敏,廖小飛. 計算機研究與發(fā)展. 2013(S2)
[7]大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J]. 李國杰,程學旗. 中國科學院院刊. 2012(06)
[8]自動文本分類特征選擇方法研究[J]. 張海龍,王蓮芝. 計算機工程與設計. 2006(20)
本文編號:2910385
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2910385.html
最近更新
教材專著