數(shù)字圖書(shū)館中基于統(tǒng)計(jì)的自動(dòng)文本分類(lèi)方法研究
發(fā)布時(shí)間:2020-12-19 16:27
數(shù)字圖書(shū)館是保存大量信息和知識(shí)的數(shù)字化資源庫(kù),自動(dòng)文本分類(lèi)是數(shù)字圖書(shū)館中進(jìn)行信息組織和管理的核心技術(shù)。自動(dòng)文本分類(lèi)是在給定的分類(lèi)體系下,讓計(jì)算機(jī)根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類(lèi)別。本文在國(guó)家科學(xué)數(shù)字圖書(shū)館的應(yīng)用背景下,研究基于統(tǒng)計(jì)的自動(dòng)文本分類(lèi)方法。 為了對(duì)文檔進(jìn)行充分表達(dá),本文提出了中文文本多層次特征表示方法。多層次特征表示方法在漢字、常用詞表和專(zhuān)業(yè)詞表三個(gè)層次上提取文檔的統(tǒng)計(jì)特征,能夠更好地反映文檔的統(tǒng)計(jì)分布,提高分類(lèi)性能。 針對(duì)標(biāo)準(zhǔn)KNN算法的不足,本文提出了基于核的距離加權(quán)KNN算法,能夠解決樣本的多峰分布、邊界重疊問(wèn)題和分類(lèi)器的精確分類(lèi)決策問(wèn)題。 互聯(lián)網(wǎng)和文本庫(kù)中有很多經(jīng)過(guò)粗分類(lèi)的訓(xùn)練文本,但普遍存在樣本內(nèi)容重復(fù)和質(zhì)量過(guò)差的問(wèn)題,這嚴(yán)重影響了文本分類(lèi)器的性能。本文提出基于排序特征的快速冗余文檔檢測(cè)算法,去除樣本中冗余文檔。為了解決訓(xùn)練樣本質(zhì)量過(guò)差的問(wèn)題,本文通過(guò)重要性分析方法進(jìn)行訓(xùn)練文本選擇。 在國(guó)家科學(xué)數(shù)字圖書(shū)館中,學(xué)科主題詞表中包含一些語(yǔ)義映射關(guān)系。本文使用互信息度量不同主題詞對(duì)不同類(lèi)別的區(qū)分度,同時(shí)利用主題詞表中的語(yǔ)義映射關(guān)系,這種方法混合使用了...
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院計(jì)算技術(shù)研究所)北京市
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同詞特征權(quán)重下的分類(lèi)準(zhǔn)確率
【參考文獻(xiàn)】:
期刊論文
[1]近似鏡像網(wǎng)頁(yè)檢測(cè)算法的研究與評(píng)價(jià)[J]. 王建勇,謝正茂,雷鳴,李曉明. 電子學(xué)報(bào). 2000(S1)
[2]關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工. 自動(dòng)化學(xué)報(bào). 2000(01)
[3]中文文檔自動(dòng)分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎. 中文信息學(xué)報(bào). 1999(03)
[4]基于向量空間模型的文檔分類(lèi)系統(tǒng)[J]. 黃萱菁,吳立德. 模式識(shí)別與人工智能. 1998(02)
[5]漢語(yǔ)語(yǔ)料的自動(dòng)分類(lèi)[J]. 吳軍,王作英,禹鋒,王俠. 中文信息學(xué)報(bào). 1995(04)
本文編號(hào):2926216
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院計(jì)算技術(shù)研究所)北京市
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同詞特征權(quán)重下的分類(lèi)準(zhǔn)確率
【參考文獻(xiàn)】:
期刊論文
[1]近似鏡像網(wǎng)頁(yè)檢測(cè)算法的研究與評(píng)價(jià)[J]. 王建勇,謝正茂,雷鳴,李曉明. 電子學(xué)報(bào). 2000(S1)
[2]關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工. 自動(dòng)化學(xué)報(bào). 2000(01)
[3]中文文檔自動(dòng)分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎. 中文信息學(xué)報(bào). 1999(03)
[4]基于向量空間模型的文檔分類(lèi)系統(tǒng)[J]. 黃萱菁,吳立德. 模式識(shí)別與人工智能. 1998(02)
[5]漢語(yǔ)語(yǔ)料的自動(dòng)分類(lèi)[J]. 吳軍,王作英,禹鋒,王俠. 中文信息學(xué)報(bào). 1995(04)
本文編號(hào):2926216
本文鏈接:http://sikaile.net/tushudanganlunwen/2926216.html
最近更新
教材專(zhuān)著