共現(xiàn)分析在文本知識(shí)挖掘中的應(yīng)用研究
發(fā)布時(shí)間:2020-10-31 18:35
隨著各種文本數(shù)據(jù)源的激增和用戶(hù)對(duì)知識(shí)內(nèi)容深層挖掘的需求,文本知識(shí)挖掘的研究正在興起。由于文本具有區(qū)別于一般數(shù)據(jù)庫(kù)信息資源的半結(jié)構(gòu)化特性,計(jì)算機(jī)很難理解和處理,必須利用與傳統(tǒng)數(shù)據(jù)挖掘方法相異、有針對(duì)性的分析方法以獲得對(duì)文獻(xiàn)內(nèi)容的全面而深入的理解。因此,探討共現(xiàn)分析的理論及其在文本知識(shí)挖掘中的具體應(yīng)用有著極其重要的理論和實(shí)踐意義。 首先,本文論述了文本知識(shí)挖掘的定義、一般過(guò)程、主要任務(wù)、基本方法和主要研究課題。并從理論上深入探討了共現(xiàn)分析方法,系統(tǒng)地總結(jié)了該方法的定義、類(lèi)型、方法論基礎(chǔ)及一般研究流程。在此基礎(chǔ)上,提出了共現(xiàn)分析將對(duì)文本知識(shí)挖掘所起的三方面作用:為文本知識(shí)挖掘的一般處理過(guò)程提供語(yǔ)義支持、從詞匯關(guān)聯(lián)角度發(fā)現(xiàn)有趣的知識(shí)模式、作為挖掘文本知識(shí)的有效手段;然后,從作為文本知識(shí)挖掘有效手段的角度出發(fā),本文研究了共現(xiàn)分析在基于空間分布、時(shí)間分布和內(nèi)外關(guān)聯(lián)映射的文本知識(shí)挖掘中應(yīng)用的思路和典型案例;提出了利用共現(xiàn)分析挖掘文本知識(shí)的適用范圍及一般操作流程,并對(duì)操作流程中影響分析結(jié)果的主要問(wèn)題進(jìn)行了深入分析;再次,以上述研究成果為方法論,以相關(guān)期刊論文中“航空發(fā)動(dòng)機(jī)”(2001—2005年)類(lèi)目下的1273篇學(xué)術(shù)期刊為實(shí)例,進(jìn)行了文本知識(shí)挖掘的應(yīng)用探索。經(jīng)研究發(fā)現(xiàn):在空間分布上,航空發(fā)動(dòng)機(jī)領(lǐng)域的研究主要集中在燃燒系統(tǒng)、控制、壓氣機(jī)、噴管、渦輪幾大知識(shí)熱點(diǎn),其中燃燒系統(tǒng)始終處于該領(lǐng)域的核心;在時(shí)間分布上,通過(guò)五年的分析數(shù)據(jù)比較得知,除燃燒系統(tǒng)之外的其它研究問(wèn)題通過(guò)拓寬研究范疇、增強(qiáng)研究深度,都有向領(lǐng)域中心靠近的趨勢(shì)。另外,航空發(fā)動(dòng)機(jī)領(lǐng)域的知識(shí)結(jié)構(gòu)相對(duì)固定,在短期時(shí)間內(nèi)不太可能發(fā)生太大的變化,可能出現(xiàn)的是研究側(cè)重點(diǎn)的微調(diào);最后,本文總結(jié)了利用共現(xiàn)分析挖掘文本知識(shí)的新趨勢(shì),并指出了發(fā)展的方向。
【學(xué)位單位】:南京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2006
【中圖分類(lèi)】:G353.1
【部分圖文】:
圖1.2..22不同類(lèi)別文獻(xiàn)篇數(shù)與年份的關(guān)系圖從圖中可以很明顯地觀察出國(guó)內(nèi)研究人員的研究重點(diǎn):對(duì)共現(xiàn)分析的應(yīng)用研究?梢詫⒅饕难芯砍晒鋈缦職w納。中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)系的崔雷教授自1995年開(kāi)始,陸續(xù)發(fā)表了一系列利用共現(xiàn)析分析醫(yī)學(xué)文獻(xiàn)的學(xué)科結(jié)構(gòu)、追蹤研究熱點(diǎn)的文章,主要包括《專(zhuān)題文獻(xiàn)高被引論的時(shí)間分布與同被引聚類(lèi)分析》、《專(zhuān)題文獻(xiàn)高頻主題詞的共詞聚類(lèi)分析》、《關(guān)于MEDLNIE數(shù)據(jù)庫(kù)中進(jìn)行知識(shí)抽取和挖掘的研究進(jìn)展》、《文獻(xiàn)計(jì)量學(xué)共引分析系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)》、《生物信息學(xué)的共詞分析研究》、《運(yùn)用共詞聚類(lèi)分析法研究生物信息的學(xué)科熱點(diǎn)》、《有關(guān)分子生物學(xué)的知識(shí)發(fā)現(xiàn)研究進(jìn)展》、《醫(yī)學(xué)信息存儲(chǔ)與檢索研究點(diǎn)的共詞聚類(lèi)分析》等。從這一系列文獻(xiàn)中可以明顯地看出崔雷教授探討這一問(wèn)題思路:從引入該分析方法到選擇研究對(duì)象加以簡(jiǎn)單應(yīng)用,再到將該方法作為醫(yī)藥領(lǐng)知識(shí)發(fā)現(xiàn)的重要工具,始終從如何有效利用共現(xiàn)分析這一應(yīng)用角度上,逐級(jí)深入、斷擴(kuò)展研究的深度和廣度13’韶l。較早開(kāi)始對(duì)共現(xiàn)分析進(jìn)行研究的還有國(guó)家漢語(yǔ)水平考試委員會(huì)辦公室的柴省在1997年發(fā)表的《內(nèi)容詞一共引聚類(lèi)分析及其在科學(xué)結(jié)構(gòu)研究中的應(yīng)用》,該文在
為進(jìn)一步細(xì)化信息檢索領(lǐng)域的知識(shí)構(gòu)成,深入理解各類(lèi)內(nèi)部的知識(shí)結(jié)構(gòu),作者再次深入這5個(gè)大類(lèi)的具體內(nèi)容,利用多元標(biāo)度技術(shù)分別進(jìn)行分析。其中對(duì)Clusetrl的分析結(jié)果如圖.42.1.6所示。該思路由于實(shí)現(xiàn)方法易于理解、可以借助現(xiàn)有軟件進(jìn)行分析等優(yōu)點(diǎn),成為基于空間文本知識(shí)關(guān)聯(lián)研究的主流方法。除YingDing外,Drexel大學(xué)的TheodoreAllanMorriS基于該思路對(duì)醫(yī)藥情報(bào)學(xué)的學(xué)科結(jié)構(gòu)進(jìn)行了考察[’7],Royalsehool。fLibra仃andnIofmrationSceince的IerneW6rmen等對(duì)福利理論的發(fā)展和在現(xiàn)代福利國(guó)家中福
圖4.2.3.1燃料領(lǐng)域的主要研究機(jī)構(gòu)映射圖方式可以將作者的網(wǎng)絡(luò)關(guān)聯(lián)展現(xiàn)出來(lái)。作者網(wǎng)絡(luò)關(guān)聯(lián)的典型示,其中存在孤立作者(IA)和作者團(tuán)隊(duì)(Temas),以及連接不作者(Li吐)。
【引證文獻(xiàn)】
本文編號(hào):2864341
【學(xué)位單位】:南京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2006
【中圖分類(lèi)】:G353.1
【部分圖文】:
圖1.2..22不同類(lèi)別文獻(xiàn)篇數(shù)與年份的關(guān)系圖從圖中可以很明顯地觀察出國(guó)內(nèi)研究人員的研究重點(diǎn):對(duì)共現(xiàn)分析的應(yīng)用研究?梢詫⒅饕难芯砍晒鋈缦職w納。中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)系的崔雷教授自1995年開(kāi)始,陸續(xù)發(fā)表了一系列利用共現(xiàn)析分析醫(yī)學(xué)文獻(xiàn)的學(xué)科結(jié)構(gòu)、追蹤研究熱點(diǎn)的文章,主要包括《專(zhuān)題文獻(xiàn)高被引論的時(shí)間分布與同被引聚類(lèi)分析》、《專(zhuān)題文獻(xiàn)高頻主題詞的共詞聚類(lèi)分析》、《關(guān)于MEDLNIE數(shù)據(jù)庫(kù)中進(jìn)行知識(shí)抽取和挖掘的研究進(jìn)展》、《文獻(xiàn)計(jì)量學(xué)共引分析系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)》、《生物信息學(xué)的共詞分析研究》、《運(yùn)用共詞聚類(lèi)分析法研究生物信息的學(xué)科熱點(diǎn)》、《有關(guān)分子生物學(xué)的知識(shí)發(fā)現(xiàn)研究進(jìn)展》、《醫(yī)學(xué)信息存儲(chǔ)與檢索研究點(diǎn)的共詞聚類(lèi)分析》等。從這一系列文獻(xiàn)中可以明顯地看出崔雷教授探討這一問(wèn)題思路:從引入該分析方法到選擇研究對(duì)象加以簡(jiǎn)單應(yīng)用,再到將該方法作為醫(yī)藥領(lǐng)知識(shí)發(fā)現(xiàn)的重要工具,始終從如何有效利用共現(xiàn)分析這一應(yīng)用角度上,逐級(jí)深入、斷擴(kuò)展研究的深度和廣度13’韶l。較早開(kāi)始對(duì)共現(xiàn)分析進(jìn)行研究的還有國(guó)家漢語(yǔ)水平考試委員會(huì)辦公室的柴省在1997年發(fā)表的《內(nèi)容詞一共引聚類(lèi)分析及其在科學(xué)結(jié)構(gòu)研究中的應(yīng)用》,該文在
為進(jìn)一步細(xì)化信息檢索領(lǐng)域的知識(shí)構(gòu)成,深入理解各類(lèi)內(nèi)部的知識(shí)結(jié)構(gòu),作者再次深入這5個(gè)大類(lèi)的具體內(nèi)容,利用多元標(biāo)度技術(shù)分別進(jìn)行分析。其中對(duì)Clusetrl的分析結(jié)果如圖.42.1.6所示。該思路由于實(shí)現(xiàn)方法易于理解、可以借助現(xiàn)有軟件進(jìn)行分析等優(yōu)點(diǎn),成為基于空間文本知識(shí)關(guān)聯(lián)研究的主流方法。除YingDing外,Drexel大學(xué)的TheodoreAllanMorriS基于該思路對(duì)醫(yī)藥情報(bào)學(xué)的學(xué)科結(jié)構(gòu)進(jìn)行了考察[’7],Royalsehool。fLibra仃andnIofmrationSceince的IerneW6rmen等對(duì)福利理論的發(fā)展和在現(xiàn)代福利國(guó)家中福
圖4.2.3.1燃料領(lǐng)域的主要研究機(jī)構(gòu)映射圖方式可以將作者的網(wǎng)絡(luò)關(guān)聯(lián)展現(xiàn)出來(lái)。作者網(wǎng)絡(luò)關(guān)聯(lián)的典型示,其中存在孤立作者(IA)和作者團(tuán)隊(duì)(Temas),以及連接不作者(Li吐)。
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前2條
1 盧寧;面向知識(shí)發(fā)現(xiàn)的知識(shí)關(guān)聯(lián)揭示及其應(yīng)用研究[D];南京理工大學(xué);2007年
2 闞洳沂;基于詞語(yǔ)網(wǎng)絡(luò)的關(guān)鍵字提取策略研究[D];西南大學(xué);2008年
本文編號(hào):2864341
本文鏈接:http://sikaile.net/tushudanganlunwen/2864341.html
最近更新
教材專(zhuān)著