文本挖掘算法及其在知識(shí)管理中的應(yīng)用研究
發(fā)布時(shí)間:2020-06-08 06:31
【摘要】: 隨著知識(shí)經(jīng)濟(jì)的到來,知識(shí)管理在社會(huì)經(jīng)濟(jì)中的作用日益重要。大多數(shù)的知識(shí)管理研究是為企業(yè)服務(wù)的,針對(duì)科研管理部門的知識(shí)管理研究非常少,本文對(duì)我國科研管理部門的知識(shí)管理問題進(jìn)行研究。與其他領(lǐng)域相比,科研管理部門的知識(shí)管理有一定的特殊性。比如,科研管理部門管理著蘊(yùn)含大量知識(shí)的立項(xiàng)建議申請(qǐng)書。挖掘并利用申請(qǐng)書中的知識(shí),能夠在從科學(xué)研究整體層面、學(xué)科領(lǐng)域?qū)用婧晚?xiàng)目管理層面對(duì)科研管理工作提供決策支持。 申請(qǐng)書中的知識(shí)隱含在申請(qǐng)書內(nèi)容之中,從申請(qǐng)書中挖掘知識(shí)會(huì)面臨如下問題:申請(qǐng)書的知識(shí)表示不能完全依賴于詞典;申請(qǐng)書研究內(nèi)容與申報(bào)學(xué)科領(lǐng)域不能完全吻合;學(xué)科代碼體系結(jié)構(gòu)與實(shí)際研究領(lǐng)域的體系結(jié)構(gòu)不能完全一致。針對(duì)上述問題,本文在以下幾個(gè)方面進(jìn)行了研究: 第一,提出一種不依賴于詞典抽取高頻詞的橋接模式濾除算法(BPFA)。首先基于N-gram技術(shù)獲取文本中的漢字結(jié)合模式及出現(xiàn)頻率,然后通過消除橋接頻率得到模式的支持頻率,并依此來判斷和提取正確詞語。實(shí)驗(yàn)結(jié)果顯示,BPFA能夠有效提高分詞結(jié)果的查準(zhǔn)率和查全率。該算法適用于對(duì)詞語頻率敏感的中文信息處理。本文應(yīng)用該算法,抽取申請(qǐng)書中出現(xiàn)的新術(shù)語,補(bǔ)充到系統(tǒng)詞表中。 第二,粗分類數(shù)據(jù)中包含有文本內(nèi)容與類別標(biāo)記不符的噪聲數(shù)據(jù),這些噪聲數(shù)據(jù)會(huì)對(duì)文本分類結(jié)果的精度產(chǎn)生不良影響。本文提出一種針對(duì)粗分類數(shù)據(jù)的噪音修正算法。首先建立文檔關(guān)聯(lián)網(wǎng)絡(luò),把文檔上標(biāo)記的類別作為原始的社團(tuán)結(jié)構(gòu),并用模塊度衡量社團(tuán)結(jié)構(gòu)的質(zhì)量,通過優(yōu)化模塊度指標(biāo)把噪聲數(shù)據(jù)調(diào)整到正確的類別中,從而提高數(shù)據(jù)質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文所提算法能夠有效修正粗分類數(shù)據(jù)中的噪聲,具有較高的有效性和魯棒性。該算法可以用于文本分類訓(xùn)練數(shù)據(jù)的預(yù)處理,或作為輔助技術(shù)用于文獻(xiàn)庫建設(shè)等工作。本文把申報(bào)到各個(gè)學(xué)科代碼下的申請(qǐng)書作為粗分類數(shù)據(jù),應(yīng)用該算法把與代碼不符的申請(qǐng)書調(diào)整到正確的代碼中。并根據(jù)調(diào)整后的數(shù)據(jù)建立代碼模型,分析代碼所代表研究領(lǐng)域的內(nèi)涵和外延、代碼之間的交叉關(guān)系。 第三,提出基于公共連接強(qiáng)度的快速聚類算法。利用社團(tuán)成員之間的相似關(guān)系定義了社團(tuán)連接強(qiáng)度,根據(jù)社團(tuán)的公共連接強(qiáng)度定義了一種新的相似度計(jì)算方法,并應(yīng)用該相似度計(jì)算方法提出一種凝聚聚類算法。在相似度計(jì)算中,綜合考慮了社團(tuán)內(nèi)部和外部結(jié)構(gòu)關(guān)系,因此能夠避免其他算法在聚類初期容易出現(xiàn)的聚類錯(cuò)誤。分別對(duì)拓?fù)浜图訖?quán)的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行聚類,實(shí)驗(yàn)結(jié)果證明了所提算法比其他算法更為有效。本文應(yīng)用該算法對(duì)申請(qǐng)書進(jìn)行聚類分析,形成了項(xiàng)目類,并對(duì)項(xiàng)目類和學(xué)科代碼之間的關(guān)系進(jìn)行了分析。 本文在理論方法研究的基礎(chǔ)上,對(duì)國家自然科學(xué)基金委員會(huì)的基金管理工作進(jìn)行了應(yīng)用研究,分析了我國基礎(chǔ)科學(xué)研究的整體發(fā)展?fàn)顩r和發(fā)展規(guī)律、各個(gè)學(xué)科領(lǐng)域的研究狀況及其關(guān)系等,為制定發(fā)展規(guī)劃、發(fā)展戰(zhàn)略、學(xué)科代碼體系調(diào)整以及項(xiàng)目管理提供決策支持。
【圖文】:
>555312592193淤648311272019于出現(xiàn)頻率的分詞算法和本節(jié)提出的BPFA算法對(duì)的分詞結(jié)果分別記為AFSA和BPEA。比照手工分查準(zhǔn)率,查準(zhǔn)率為只二從/雙,其中乞?yàn)橹С侄乳u表示識(shí)別結(jié)果中正確詞條數(shù);查全率為凡二從數(shù)。在支持度為4、置信度為0.9的閩值下,把識(shí)別,各自分成10個(gè)等份,,比較手工分詞結(jié)果,構(gòu)成測(cè)試點(diǎn)處的召回率和精確率分別定義為”識(shí)別結(jié)詞得到的詞條數(shù)”和”識(shí)別結(jié)果中前i個(gè)等份中正詞條總數(shù)”。實(shí)驗(yàn)結(jié)果如圖2.2一2.4所示:明,改進(jìn)后的算法在各個(gè)頻率段上,召回率和精大,效果越明顯。
圖2.3S400’,召回率一精確率’,曲線Fig.2.3TheCurveof”Reeail.Precision,’of5400100
本文編號(hào):2702684
【圖文】:
>555312592193淤648311272019于出現(xiàn)頻率的分詞算法和本節(jié)提出的BPFA算法對(duì)的分詞結(jié)果分別記為AFSA和BPEA。比照手工分查準(zhǔn)率,查準(zhǔn)率為只二從/雙,其中乞?yàn)橹С侄乳u表示識(shí)別結(jié)果中正確詞條數(shù);查全率為凡二從數(shù)。在支持度為4、置信度為0.9的閩值下,把識(shí)別,各自分成10個(gè)等份,,比較手工分詞結(jié)果,構(gòu)成測(cè)試點(diǎn)處的召回率和精確率分別定義為”識(shí)別結(jié)詞得到的詞條數(shù)”和”識(shí)別結(jié)果中前i個(gè)等份中正詞條總數(shù)”。實(shí)驗(yàn)結(jié)果如圖2.2一2.4所示:明,改進(jìn)后的算法在各個(gè)頻率段上,召回率和精大,效果越明顯。
圖2.3S400’,召回率一精確率’,曲線Fig.2.3TheCurveof”Reeail.Precision,’of5400100
本文編號(hào):2702684
本文鏈接:http://sikaile.net/jingjifazhanlunwen/2702684.html
最近更新
教材專著