社交網(wǎng)絡(luò)關(guān)聯(lián)分析技術(shù)及應(yīng)用研究
發(fā)布時間:2020-05-26 22:36
【摘要】:在互聯(lián)網(wǎng)高速發(fā)展和大數(shù)據(jù)時代背景下,企業(yè)和用戶對于獲取數(shù)據(jù)背后潛在知識的要求更加迫切,數(shù)據(jù)挖掘正是發(fā)現(xiàn)潛在知識的重要途徑。但在面向社交網(wǎng)絡(luò)的數(shù)據(jù)挖掘中,社交網(wǎng)絡(luò)數(shù)據(jù)復(fù)雜性對挖掘算法的準(zhǔn)確性和執(zhí)行效率提出了嚴(yán)峻挑戰(zhàn),如何提高算法效率成為了研究的核心問題。本文針對關(guān)聯(lián)規(guī)則挖掘方法進(jìn)行深入研究,對于挖掘社交網(wǎng)絡(luò)數(shù)據(jù)間關(guān)聯(lián)關(guān)系具有一定的理論和實際意義。本文首先詳細(xì)闡述數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則挖掘基本理論,分析社交網(wǎng)絡(luò)數(shù)據(jù)除具備傳統(tǒng)互聯(lián)網(wǎng)大數(shù)據(jù)特點外自身獨有特征,并研究了社交網(wǎng)絡(luò)數(shù)據(jù)特征對于關(guān)聯(lián)分析算法的實際需求,在明確社交網(wǎng)絡(luò)數(shù)據(jù)分析重點基礎(chǔ)上,提出適用于社交網(wǎng)絡(luò)數(shù)據(jù)分析流程。其次,針對經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法Apriori進(jìn)行深入研究,分析對于社交網(wǎng)絡(luò)數(shù)據(jù)關(guān)聯(lián)分析,Apriori還面臨著多次迭代掃描數(shù)據(jù)庫、產(chǎn)生候選項集過程中“連接”動作時間復(fù)雜度較高的問題。針對這些問題,本文利用Apriori頻繁項集產(chǎn)生階段從全局事務(wù)集中發(fā)現(xiàn)高階頻繁項集的特征,引入全局優(yōu)化搜索算法遺傳禁忌搜索產(chǎn)生頻繁項集,提出基于遺傳禁忌搜索的關(guān)聯(lián)規(guī)則挖掘算法,經(jīng)過實驗評估,驗證了算法的準(zhǔn)確性和有效性,能夠解決好上述問題。再次,分析遺傳禁忌搜索在關(guān)聯(lián)規(guī)則挖掘中的可行性與優(yōu)勢,設(shè)計關(guān)聯(lián)規(guī)則編碼方式,結(jié)合關(guān)聯(lián)規(guī)則衡量標(biāo)準(zhǔn)構(gòu)建為選擇算子提供主要依據(jù)的適應(yīng)度函數(shù),針對遺傳禁忌搜索中模擬染色體交叉、變異操作,設(shè)計關(guān)聯(lián)規(guī)則挖掘相關(guān)遺傳算子,使算法能夠在全局事務(wù)集中快速發(fā)現(xiàn)高階頻繁項集,大幅度提升了關(guān)聯(lián)規(guī)則挖掘效率,保證了挖掘結(jié)果準(zhǔn)確性。最后,將上述研究成果應(yīng)用于面向社交網(wǎng)絡(luò)的實際場景中,設(shè)計并實現(xiàn)了在線教育學(xué)習(xí)平臺“學(xué)習(xí)支持”系統(tǒng),針對在線教育學(xué)習(xí)平臺用戶在社交網(wǎng)絡(luò)發(fā)布微博內(nèi)容與其在學(xué)習(xí)平臺近期學(xué)習(xí)狀態(tài)數(shù)據(jù)關(guān)聯(lián)關(guān)系進(jìn)行挖掘,并對系統(tǒng)數(shù)據(jù)采集和預(yù)處理模塊進(jìn)行詳細(xì)設(shè)計。應(yīng)用結(jié)果表明系統(tǒng)能夠很好地運行于面向社交網(wǎng)絡(luò)的實際場景。系統(tǒng)應(yīng)用部分既是理論研究與實際相結(jié)合,同時為在線教育平臺學(xué)生培養(yǎng)和成績預(yù)警提供了一種新思路。
【圖文】:
有其他一些常見的數(shù)據(jù)類型例如半結(jié)構(gòu)化數(shù)據(jù)、時間數(shù)據(jù)、實時數(shù)據(jù)、Web 數(shù)據(jù)等均可應(yīng)用于數(shù)據(jù)挖掘中,如圖 2.2 所示。圖2.2 數(shù)據(jù)挖掘數(shù)據(jù)類型關(guān)系數(shù)據(jù)庫由多個規(guī)范化的數(shù)據(jù)表組成,這些數(shù)據(jù)表規(guī)范化后降低了冗余數(shù)據(jù)的可能性,,加快了數(shù)據(jù)訪問時間,表中記錄著多個元組,每個元組可以認(rèn)為是一個數(shù)據(jù)對象,被唯一主鍵標(biāo)識,通過數(shù)據(jù)庫查詢語言 SQL 獲取表中數(shù)據(jù)子集,構(gòu)建適合應(yīng)用于數(shù)據(jù)挖掘的表。關(guān)系數(shù)據(jù)庫數(shù)據(jù)在數(shù)據(jù)挖掘中同樣以表格的形式或單個關(guān)系展示,表格的每一列代表數(shù)據(jù)對象所具有的各特征,而每一行則代表在指定特征下的特征值。
法的有效性和準(zhǔn)確性。本文用于評估的真實數(shù)據(jù)集來自于 UCI 的事務(wù)數(shù)據(jù),共有103582 條事務(wù),數(shù)據(jù)集大小 15116KB,圖 4.6 展示了部分?jǐn)?shù)據(jù)集數(shù)據(jù)。圖4.6 數(shù)據(jù)集部分?jǐn)?shù)據(jù)數(shù)據(jù)集中第一列標(biāo)明各事務(wù)的編號,后續(xù)數(shù)據(jù)列表示每一事務(wù)中所有的購買物品,具體以物品編號顯示。4.4.1 評分函數(shù)評價評分函數(shù)是對算法和模型有效性量化表示的一種評估方法,關(guān)聯(lián)分析是描述性分析問題,故本文采用最大似然思想的評分函數(shù)對提出算法進(jìn)行評估。評分函數(shù)設(shè)計定義為: 1, , ,NiEva s c p rule i s c (4-5)其中 p rule i , s ,c 為具體關(guān)聯(lián)規(guī)則 rule(i)在支持度 s 和置信度 c 下的評分函數(shù),本文將該函數(shù)定義為上文設(shè)計的具體關(guān)聯(lián)規(guī)則的適應(yīng)度函數(shù): , , fitp rule i s c F (4-6)為了使評分函數(shù)值便于反應(yīng)評估結(jié)果,需將評分函數(shù)值限定在[0,1]區(qū)間內(nèi),因此對式 4-5 取對數(shù)及取反
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13;TP393.09
【圖文】:
有其他一些常見的數(shù)據(jù)類型例如半結(jié)構(gòu)化數(shù)據(jù)、時間數(shù)據(jù)、實時數(shù)據(jù)、Web 數(shù)據(jù)等均可應(yīng)用于數(shù)據(jù)挖掘中,如圖 2.2 所示。圖2.2 數(shù)據(jù)挖掘數(shù)據(jù)類型關(guān)系數(shù)據(jù)庫由多個規(guī)范化的數(shù)據(jù)表組成,這些數(shù)據(jù)表規(guī)范化后降低了冗余數(shù)據(jù)的可能性,,加快了數(shù)據(jù)訪問時間,表中記錄著多個元組,每個元組可以認(rèn)為是一個數(shù)據(jù)對象,被唯一主鍵標(biāo)識,通過數(shù)據(jù)庫查詢語言 SQL 獲取表中數(shù)據(jù)子集,構(gòu)建適合應(yīng)用于數(shù)據(jù)挖掘的表。關(guān)系數(shù)據(jù)庫數(shù)據(jù)在數(shù)據(jù)挖掘中同樣以表格的形式或單個關(guān)系展示,表格的每一列代表數(shù)據(jù)對象所具有的各特征,而每一行則代表在指定特征下的特征值。
法的有效性和準(zhǔn)確性。本文用于評估的真實數(shù)據(jù)集來自于 UCI 的事務(wù)數(shù)據(jù),共有103582 條事務(wù),數(shù)據(jù)集大小 15116KB,圖 4.6 展示了部分?jǐn)?shù)據(jù)集數(shù)據(jù)。圖4.6 數(shù)據(jù)集部分?jǐn)?shù)據(jù)數(shù)據(jù)集中第一列標(biāo)明各事務(wù)的編號,后續(xù)數(shù)據(jù)列表示每一事務(wù)中所有的購買物品,具體以物品編號顯示。4.4.1 評分函數(shù)評價評分函數(shù)是對算法和模型有效性量化表示的一種評估方法,關(guān)聯(lián)分析是描述性分析問題,故本文采用最大似然思想的評分函數(shù)對提出算法進(jìn)行評估。評分函數(shù)設(shè)計定義為: 1, , ,NiEva s c p rule i s c (4-5)其中 p rule i , s ,c 為具體關(guān)聯(lián)規(guī)則 rule(i)在支持度 s 和置信度 c 下的評分函數(shù),本文將該函數(shù)定義為上文設(shè)計的具體關(guān)聯(lián)規(guī)則的適應(yīng)度函數(shù): , , fitp rule i s c F (4-6)為了使評分函數(shù)值便于反應(yīng)評估結(jié)果,需將評分函數(shù)值限定在[0,1]區(qū)間內(nèi),因此對式 4-5 取對數(shù)及取反
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13;TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 呂鐵;韓娜;;智能制造:全球趨勢與中國戰(zhàn)略[J];人民論壇·學(xué)術(shù)前沿;2015年11期
2 程學(xué)旗;靳小龍;王元卓;郭嘉豐;張鐵贏;李國杰;;大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J];軟件學(xué)報;2014年09期
3 孫大為;張廣艷;鄭緯民;;大數(shù)據(jù)流式計算:關(guān)鍵技術(shù)及系統(tǒng)實例[J];軟件學(xué)報;2014年04期
4 陳申燕;曹e
本文編號:2682502
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2682502.html
最近更新
教材專著