科技文檔的分類與查重
發(fā)布時間:2024-02-01 12:17
科技活動具有不同的活動形式與內(nèi)容,科技活動的目的也具有多樣性。為了能夠?qū)崿F(xiàn)科學(xué)的評價科技項目的科技、社會、經(jīng)濟(jì)價值,本文提出了對科技項目分類與查重的相關(guān)模型和處理方法。 本文采用基于關(guān)鍵詞匹配的一種改進(jìn)的最大匹配分詞算法,在對科技文檔分詞得到的詞頻統(tǒng)計結(jié)果的基礎(chǔ)上,利用漢明碼集模板構(gòu)造了科技文檔的漢明碼集。在領(lǐng)域劃分模型的支持下,在基于漢明距離計算的文本相似度的基礎(chǔ)上將科技文檔劃分到其相應(yīng)的應(yīng)用領(lǐng)域。并基于歷史科技文檔的漢明碼集,利用改進(jìn)的誤差反傳算法對三層前饋人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練后可實現(xiàn)對科技文檔的自動聚類,為實現(xiàn)科技項目同類可比性提供了支持。同時,為了實現(xiàn)一份科技文檔的相似文檔快速查找功能,本文將已有的科技文檔按照層次聚類法構(gòu)造成樹形知識結(jié)構(gòu),可以極大的提高相似項目查找的速度和效率。
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
第1章 緒論
1.1 本文研究的目的
1.1.1 本文研究的目的
1.1.2 本文研究的意義
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 科技文檔分類
1.2.2 文本相似度計算
1.2.3 中文分詞技術(shù)
1.3 本文的創(chuàng)新之處及內(nèi)容安排
1.3.1 本文的創(chuàng)新之處
1.3.2 本文的內(nèi)容安排
第2章 對項目申報書的分詞
2.1 對申報書分詞前的預(yù)處理
2.2 具體分詞算法與消歧處理
2.2.1 分詞詞典存儲格式
2.2.2 改進(jìn)的MM 方法
2.2.3 歧義詞處理
2.2.4 多義字處理
2.2.5 未登錄詞的處理
第3章 中文文本相似度計算
3.1 中文文本相似度計算模型
3.1.1 相似度
3.1.2 相似算法
3.2 中文文本相似度計算的主要方法
3.2.1 隱性語義標(biāo)引
3.2.2 基于向量空間模型的TF-IDF 方法
3.2.3 基于語義理解的相似度計算方法
3.2.4 基于屬性論的文本相似度計算方法
3.2.5 基于漢明距離的文本相似度計算方法
3.3 文本相似度計算方法的選擇
3.4 存在問題及發(fā)展方向
3.4.1 存在的問題
3.4.2 未來的發(fā)展方向
第4章 科技項目的計算機(jī)表示與分類、查重
4.1 知識表示的相關(guān)方法
4.1.1 產(chǎn)生式規(guī)則表示
4.1.2 語義網(wǎng)絡(luò)表示
4.1.3 框架表示
4.1.4 面向?qū)ο蟊硎?br> 4.2 科技項目的計算機(jī)表示
4.3 科技項目的分類規(guī)則與特點
4.3.1 項目分類的必要性
4.3.2 科技項目分類評價原則
4.3.3 本文所采用的分類標(biāo)準(zhǔn)
4.3.4 基于計算機(jī)表示的項目分類
4.4 基于計算機(jī)表示的項目聚類方法
4.4.1 基于誤差反傳算法的前饋神經(jīng)網(wǎng)絡(luò)
4.4.2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與申報書聚類的實現(xiàn)
4.5 項目申報書在計算機(jī)內(nèi)的組織方式與知識表示
4.6 項目申報書的查重處理
第5章 系統(tǒng)設(shè)計與實施
5.1 系統(tǒng)組成與設(shè)計
5.1.1 分詞詞典
5.1.2 文本分詞模塊
5.1.3 漢明碼字庫集
5.1.4 領(lǐng)域劃分模塊
5.1.5 申報書聚類模塊
5.1.6 申報書查重模塊
5.2 系統(tǒng)實施
5.3 待解決的問題
結(jié)論
參考文獻(xiàn)
后記
本文編號:3892101
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
第1章 緒論
1.1 本文研究的目的
1.1.1 本文研究的目的
1.1.2 本文研究的意義
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 科技文檔分類
1.2.2 文本相似度計算
1.2.3 中文分詞技術(shù)
1.3 本文的創(chuàng)新之處及內(nèi)容安排
1.3.1 本文的創(chuàng)新之處
1.3.2 本文的內(nèi)容安排
第2章 對項目申報書的分詞
2.1 對申報書分詞前的預(yù)處理
2.2 具體分詞算法與消歧處理
2.2.1 分詞詞典存儲格式
2.2.2 改進(jìn)的MM 方法
2.2.3 歧義詞處理
2.2.4 多義字處理
2.2.5 未登錄詞的處理
第3章 中文文本相似度計算
3.1 中文文本相似度計算模型
3.1.1 相似度
3.1.2 相似算法
3.2 中文文本相似度計算的主要方法
3.2.1 隱性語義標(biāo)引
3.2.2 基于向量空間模型的TF-IDF 方法
3.2.3 基于語義理解的相似度計算方法
3.2.4 基于屬性論的文本相似度計算方法
3.2.5 基于漢明距離的文本相似度計算方法
3.3 文本相似度計算方法的選擇
3.4 存在問題及發(fā)展方向
3.4.1 存在的問題
3.4.2 未來的發(fā)展方向
第4章 科技項目的計算機(jī)表示與分類、查重
4.1 知識表示的相關(guān)方法
4.1.1 產(chǎn)生式規(guī)則表示
4.1.2 語義網(wǎng)絡(luò)表示
4.1.3 框架表示
4.1.4 面向?qū)ο蟊硎?br> 4.2 科技項目的計算機(jī)表示
4.3 科技項目的分類規(guī)則與特點
4.3.1 項目分類的必要性
4.3.2 科技項目分類評價原則
4.3.3 本文所采用的分類標(biāo)準(zhǔn)
4.3.4 基于計算機(jī)表示的項目分類
4.4 基于計算機(jī)表示的項目聚類方法
4.4.1 基于誤差反傳算法的前饋神經(jīng)網(wǎng)絡(luò)
4.4.2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與申報書聚類的實現(xiàn)
4.5 項目申報書在計算機(jī)內(nèi)的組織方式與知識表示
4.6 項目申報書的查重處理
第5章 系統(tǒng)設(shè)計與實施
5.1 系統(tǒng)組成與設(shè)計
5.1.1 分詞詞典
5.1.2 文本分詞模塊
5.1.3 漢明碼字庫集
5.1.4 領(lǐng)域劃分模塊
5.1.5 申報書聚類模塊
5.1.6 申報書查重模塊
5.2 系統(tǒng)實施
5.3 待解決的問題
結(jié)論
參考文獻(xiàn)
后記
本文編號:3892101
本文鏈接:http://sikaile.net/tushudanganlunwen/3892101.html
最近更新
教材專著