科研項目管理中的文本挖掘方法研究及應(yīng)用
發(fā)布時間:2021-03-13 16:43
在基礎(chǔ)研究的科研項目管理中,項目的相似性分析是一個基本的管理問題,依據(jù)相似性可以對項目進行分類,避免重復(fù)申報、重復(fù)立項,還可以為相似項目的評審選擇合適的同行專家。項目的相似性分析一般是根據(jù)項目建議書的標(biāo)題、摘要和關(guān)鍵詞并結(jié)合項目管理人員的經(jīng)驗進行。但是由于一方面項目數(shù)量逐年快速增加,另一方面基礎(chǔ)研究具有創(chuàng)新性、不確定性、學(xué)科交叉融合及新觀點、新概念和新的知識點不斷涌現(xiàn)等特點,科研項目管理人員很難根據(jù)基礎(chǔ)研究項目的真正內(nèi)涵進行相似性分析,從而給管理工作帶來了極大的挑戰(zhàn)。因此,從項目的知識內(nèi)涵中進行相似性分析就成為現(xiàn)實的需求,這就需要對項目進行知識挖掘,并從知識管理的角度探討項目管理問題。 科研項目建議書是由自然語言撰寫的文本,特別是我國基礎(chǔ)研究的建議書絕大部分是中文文本。因此對項目進行知識挖掘就轉(zhuǎn)變?yōu)閷椖拷ㄗh書的文本挖掘。本文針對基礎(chǔ)研究項目建設(shè)書的特點,研究了文本挖掘中的基本方法。本文的主要工作如下: 1.提出了符合中文科研項目文本特點的長度優(yōu)先的無詞典切分思路。與英文相比,文本切分是中文文本挖掘中的基本問題。科研項目文本中包含大量的語義不可分割的專業(yè)術(shù)語,并且不斷涌現(xiàn)新...
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:115 頁
【學(xué)位級別】:博士
【部分圖文】:
不同詞頻的平均切分準(zhǔn)確率曲線
姜韶華:種研項目管理中的文本挖掘方法研究及應(yīng)用逆向匹配結(jié)果不同詞的頻率分布配方向的不同對切分結(jié)果產(chǎn)生的差異,本文對規(guī)則篩選后正向、逆數(shù)量在不同頻率的分布作了研究,采用正向、逆向不同詞數(shù)量占不來描述分布情況,由于頻率大于等于4時差異很少因此合并到4中為2、3和大于等于4時不同詞的數(shù)量分別為371、30和2。結(jié)果,頻率為2、3和大于等于4時的不同匹配方向產(chǎn)生的切分結(jié)果差、.74%和.05%。由此得出結(jié)論:由于匹配方向不同而產(chǎn)生的切分結(jié)率為2時,頻率為3次之,而頻率為4及以上則很少。
為考察經(jīng)過規(guī)則篩選后雙向匹配產(chǎn)生的不正確詞隨頻率的分布規(guī)律,采用不同頻率不正確詞數(shù)量占不正確詞總數(shù)的百分比來描述。頻率為2、3和大于等于4時不正確詞數(shù)量分別為1648、197和108。如圖2.7所示。由圖可見,不正確的詞主要發(fā)生在詞頻為2時,占總數(shù)的84.4%,隨著頻率的增加,不正確的詞數(shù)量逐漸減少,頻率為大于等于4時,不正確詞占總數(shù)的.55%。表明支持度閩值取值越高就會獲得更準(zhǔn)確的切分結(jié)果。
【參考文獻】:
期刊論文
[1]基礎(chǔ)研究學(xué)科發(fā)展的宏觀知識挖掘[J]. 黨延忠. 管理工程學(xué)報. 2006(02)
[2]科研項目管理的成功標(biāo)準(zhǔn)和風(fēng)險分析[J]. 王悅,孫樹棟. 中國科技論壇. 2005(04)
[3]基于多策略的專業(yè)領(lǐng)域術(shù)語抽取器的設(shè)計[J]. 杜波,田懷鳳,王立,陸汝占. 計算機工程. 2005(14)
[4]一種基于生語料的領(lǐng)域詞典生成方法[J]. 孫霞,鄭慶華,王朝靜,張素娟. 小型微型計算機系統(tǒng). 2005(06)
[5]基于語料庫的字母詞語自動提取研究[J]. 鄭澤之,張普,楊建國. 中文信息學(xué)報. 2005(02)
[6]漢語自動分詞的研究現(xiàn)狀與困難[J]. 張春霞,郝天永. 系統(tǒng)仿真學(xué)報. 2005(01)
[7]一種建立中文概念分類關(guān)系的新算法[J]. 裴炳鎮(zhèn),陳曉明,胡熠,陸汝占. 計算機工程與應(yīng)用. 2004(36)
[8]面向Internet的中文新詞語檢測[J]. 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇. 中文信息學(xué)報. 2004(06)
[9]圖書館知識管理的基本理念與策略[J]. 李海鷹. 圖書與情報. 2004(04)
[10]中文信息檢索引擎中的分詞與檢索技術(shù)[J]. 吳棟,滕育平. 計算機應(yīng)用. 2004(07)
博士論文
[1]科學(xué)研究活動中的知識管理研究[D]. 李丹.武漢大學(xué) 2005
[2]文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D]. 周雪忠.浙江大學(xué) 2004
[3]知識管理和文本挖掘的若干問題研究[D]. 徐建鎖.天津大學(xué) 2004
[4]面向軟件過程改進的知識管理技術(shù)研究[D]. 張曉剛.中國科學(xué)院研究生院(軟件研究所) 2004
本文編號:3080569
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:115 頁
【學(xué)位級別】:博士
【部分圖文】:
不同詞頻的平均切分準(zhǔn)確率曲線
姜韶華:種研項目管理中的文本挖掘方法研究及應(yīng)用逆向匹配結(jié)果不同詞的頻率分布配方向的不同對切分結(jié)果產(chǎn)生的差異,本文對規(guī)則篩選后正向、逆數(shù)量在不同頻率的分布作了研究,采用正向、逆向不同詞數(shù)量占不來描述分布情況,由于頻率大于等于4時差異很少因此合并到4中為2、3和大于等于4時不同詞的數(shù)量分別為371、30和2。結(jié)果,頻率為2、3和大于等于4時的不同匹配方向產(chǎn)生的切分結(jié)果差、.74%和.05%。由此得出結(jié)論:由于匹配方向不同而產(chǎn)生的切分結(jié)率為2時,頻率為3次之,而頻率為4及以上則很少。
為考察經(jīng)過規(guī)則篩選后雙向匹配產(chǎn)生的不正確詞隨頻率的分布規(guī)律,采用不同頻率不正確詞數(shù)量占不正確詞總數(shù)的百分比來描述。頻率為2、3和大于等于4時不正確詞數(shù)量分別為1648、197和108。如圖2.7所示。由圖可見,不正確的詞主要發(fā)生在詞頻為2時,占總數(shù)的84.4%,隨著頻率的增加,不正確的詞數(shù)量逐漸減少,頻率為大于等于4時,不正確詞占總數(shù)的.55%。表明支持度閩值取值越高就會獲得更準(zhǔn)確的切分結(jié)果。
【參考文獻】:
期刊論文
[1]基礎(chǔ)研究學(xué)科發(fā)展的宏觀知識挖掘[J]. 黨延忠. 管理工程學(xué)報. 2006(02)
[2]科研項目管理的成功標(biāo)準(zhǔn)和風(fēng)險分析[J]. 王悅,孫樹棟. 中國科技論壇. 2005(04)
[3]基于多策略的專業(yè)領(lǐng)域術(shù)語抽取器的設(shè)計[J]. 杜波,田懷鳳,王立,陸汝占. 計算機工程. 2005(14)
[4]一種基于生語料的領(lǐng)域詞典生成方法[J]. 孫霞,鄭慶華,王朝靜,張素娟. 小型微型計算機系統(tǒng). 2005(06)
[5]基于語料庫的字母詞語自動提取研究[J]. 鄭澤之,張普,楊建國. 中文信息學(xué)報. 2005(02)
[6]漢語自動分詞的研究現(xiàn)狀與困難[J]. 張春霞,郝天永. 系統(tǒng)仿真學(xué)報. 2005(01)
[7]一種建立中文概念分類關(guān)系的新算法[J]. 裴炳鎮(zhèn),陳曉明,胡熠,陸汝占. 計算機工程與應(yīng)用. 2004(36)
[8]面向Internet的中文新詞語檢測[J]. 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇. 中文信息學(xué)報. 2004(06)
[9]圖書館知識管理的基本理念與策略[J]. 李海鷹. 圖書與情報. 2004(04)
[10]中文信息檢索引擎中的分詞與檢索技術(shù)[J]. 吳棟,滕育平. 計算機應(yīng)用. 2004(07)
博士論文
[1]科學(xué)研究活動中的知識管理研究[D]. 李丹.武漢大學(xué) 2005
[2]文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D]. 周雪忠.浙江大學(xué) 2004
[3]知識管理和文本挖掘的若干問題研究[D]. 徐建鎖.天津大學(xué) 2004
[4]面向軟件過程改進的知識管理技術(shù)研究[D]. 張曉剛.中國科學(xué)院研究生院(軟件研究所) 2004
本文編號:3080569
本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/3080569.html
最近更新
教材專著