天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于模糊邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)及文本挖掘的方法研究

發(fā)布時(shí)間:2020-04-14 12:57
【摘要】: 數(shù)據(jù)挖掘和文本挖掘是當(dāng)前信息技術(shù)中的一個(gè)重要研究領(lǐng)域;將模糊邏輯理論應(yīng)用于數(shù)據(jù)及文本挖掘方法研究,具有較大的理論意義和實(shí)用價(jià)值。本文研究了基于模糊邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘和文本挖掘方法,所做主要工作內(nèi)容包括: 采用自組織特征映射(SOFM)網(wǎng)絡(luò)來(lái)自動(dòng)確定樣本數(shù)據(jù)隸屬函數(shù),并根據(jù)相似性的概念,給出了相似度的計(jì)算公式,結(jié)合Apriori算法,提出了一種挖掘模糊相似關(guān)聯(lián)規(guī)則的新算法。 針對(duì)傳統(tǒng)的模糊聚類需要預(yù)先確定聚類數(shù)的問題,提出一種新的動(dòng)態(tài)模糊聚類的方法。該方法采用動(dòng)態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)來(lái)確定聚類數(shù),并通過(guò)文本向量空間模型和TF?IDF方法來(lái)確定文本的特征向量,再將動(dòng)態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)得到的聚類數(shù),用模糊C均值算法(FCM)函數(shù)處理,得到聚類的結(jié)果。本算法具有聚類精度高的優(yōu)點(diǎn),模糊聚類更適合處理語(yǔ)義的多樣性和文本歸屬的模糊性的問題。 提出了一種新的動(dòng)態(tài)模糊自組織神經(jīng)網(wǎng)絡(luò)模型(DFKCN),并將其用于文本聚類中。針對(duì)傳統(tǒng)模糊自組織神經(jīng)網(wǎng)絡(luò)需要預(yù)先確定聚類數(shù)的問題,DFKCN采用了可自動(dòng)確定聚類數(shù)的動(dòng)態(tài)自組織神經(jīng)網(wǎng)絡(luò)(TGSOM)的結(jié)構(gòu),在DFKCN網(wǎng)絡(luò)結(jié)構(gòu)中提出新的學(xué)習(xí)率計(jì)算公式,并以模糊聚類中心作為DFKCN網(wǎng)絡(luò)中對(duì)應(yīng)的神經(jīng)元的權(quán)值,從而提高了聚類的精度,并可提高收斂速度。將DFKCN模型應(yīng)用到中文文本聚類中,文本的特征向量的表示采用隱含語(yǔ)義分析理論,以體現(xiàn)特征詞的語(yǔ)義關(guān)系并實(shí)現(xiàn)特征詞的降維。 提出了一種新的模糊競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)聚類模型(NFCNNC),并將其應(yīng)用到文本聚類中。NFCNNC將模糊中心聚類(FCC)算法得到的模糊聚類中心向量作為神經(jīng)網(wǎng)絡(luò)的權(quán)值,獲勝神經(jīng)元通過(guò)比較隸屬度值得到。按照FCC算法調(diào)整模糊聚類中心向量值(即權(quán)值)和神經(jīng)元的隸屬度,當(dāng)網(wǎng)絡(luò)穩(wěn)定時(shí),即可確定聚類數(shù)。NFCNNC具有結(jié)構(gòu)簡(jiǎn)單,運(yùn)行效率高,聚類精度高的優(yōu)點(diǎn),同時(shí)克服了傳統(tǒng)算法需預(yù)先指定聚類數(shù)的局限性。 提出一種新的模糊文本關(guān)聯(lián)規(guī)則挖掘算法(NFAR)和文本關(guān)鍵字的獲得方法,當(dāng)文本集中存在大量文本,傳統(tǒng)的模糊關(guān)聯(lián)規(guī)則中的支持度的計(jì)算公式不再適用,因而提出新的支持度計(jì)算公式。通常用的關(guān)聯(lián)規(guī)則在涉及語(yǔ)義問題時(shí),會(huì)有冗余規(guī)則,隸屬函數(shù)是預(yù)先指定的,引入模糊聚類可克服上述問題;根據(jù)TF·IDF首先計(jì)算文本特征詞的權(quán)重,然后計(jì)算文本的平均權(quán)重作為閾值,權(quán)重大于閾值的特征詞作為該文本的關(guān)鍵字,將關(guān)鍵字的權(quán)重劃分成三個(gè)屬性:高、中、低。利用模糊c均值對(duì)關(guān)鍵詞的權(quán)重進(jìn)行聚類。再由NFAR算法抽取出文本關(guān)聯(lián)規(guī)則。NFAR算法具有運(yùn)算效率高,規(guī)則的精度高的優(yōu)點(diǎn)。
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2005
【分類號(hào)】:F224

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉永山,湯毅,陳雯柏,曾昭天;數(shù)據(jù)挖掘技術(shù)的研究[J];重慶工業(yè)高等?茖W(xué)校學(xué)報(bào);2003年02期

2 王莉,王正歐;TGSOM:一種用于數(shù)據(jù)聚類的動(dòng)態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)[J];電子與信息學(xué)報(bào);2003年03期

3 陸建江,劉海峰;數(shù)據(jù)庫(kù)中廣義模糊關(guān)聯(lián)規(guī)則的挖掘[J];工程數(shù)學(xué)學(xué)報(bào);2000年01期

4 高法欽;運(yùn)用哈希技術(shù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘[J];河北建筑科技學(xué)院學(xué)報(bào);2002年04期

5 杜孝平;羅憲;唐世渭;;頻繁項(xiàng)集挖掘中的兩種哈希樹構(gòu)建方法[J];計(jì)算機(jī)科學(xué);2002年12期

6 陸建江;;加權(quán)模糊關(guān)聯(lián)規(guī)則的研究[J];計(jì)算機(jī)科學(xué);2003年05期

7 李家福,陸建江,張亞非;模糊聚類算法在漢語(yǔ)文本聚類中的應(yīng)用[J];計(jì)算機(jī)工程;2002年04期

8 黃傳明;一種基于散列技術(shù)和事務(wù)壓縮的關(guān)聯(lián)規(guī)則挖掘算法[J];計(jì)算機(jī)工程;2003年22期

9 梅馨,邢桂芬;文本挖掘技術(shù)綜述[J];江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年05期

10 黃解軍,潘和平,萬(wàn)幼川;數(shù)據(jù)挖掘的體系框架研究[J];計(jì)算機(jī)應(yīng)用研究;2003年05期



本文編號(hào):2627321

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjifazhanlunwen/2627321.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3bc6e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com