維基百科在多種類型數(shù)字文本資源自動(dòng)分類中的應(yīng)用
本文關(guān)鍵詞: 書目信息 新聞網(wǎng)頁 自動(dòng)分類 維基百科 特征擴(kuò)展 出處:《情報(bào)科學(xué)》2017年02期 論文類型:期刊論文
【摘要】:【目的/意義】書目信息和網(wǎng)頁等不同類型文獻(xiàn)之間存在特征詞不匹配等語義差異問題,使得將書目信息作為訓(xùn)練集來對(duì)網(wǎng)絡(luò)信息資源進(jìn)行自動(dòng)分類時(shí),現(xiàn)有分類方法的分類性能不佳!痉椒/過程】文章提出使用維基百科開展語義特征擴(kuò)展,解決語義差異問題的自動(dòng)文本分類方法。使用數(shù)字圖書館中容易獲取類別標(biāo)識(shí)及摘要等文本內(nèi)容的書目信息作為訓(xùn)練集,引入第三方資源的維基百科對(duì)其進(jìn)行語義特征擴(kuò)展,縮小作為訓(xùn)練集的書目信息與作為待分類文本的網(wǎng)頁之間的語義差異,對(duì)屬于不同文獻(xiàn)類型的網(wǎng)頁進(jìn)行分類!窘Y(jié)果/結(jié)論】實(shí)驗(yàn)表明與未經(jīng)過擴(kuò)展的分類方法相比,分類準(zhǔn)確率分別提高5.5%至8.4%,證明該方法能夠有效提高文本自動(dòng)分類的分類效果。
[Abstract]:[feature words do not match the semantic differences between bibliographic information and web pages to different types of literature / significance], the bibliographic information as the training set for automatic classification of network information resources, the classification performance of the existing classification methods are poor. [method] / process is proposed in this paper using Wikipedia to carry out semantic extension, automatic text classification method to solve the problem of semantic difference. Category identification and abstract text content accessible using the digital library bibliographic information as the training set, the introduction of third party resources Wikipedia semantic features of its expansion, narrowing as bibliographic information and semantic differences between the text to be classified as "the training set, the classification of belong to different types of literature". [Conclusion] the results / experiments show that compared with the classification method has not been extended, classification The accuracy rate is increased by 5.5% to 8.4% respectively, which proves that the method can effectively improve the classification effect of automatic text classification.
【作者單位】: 武漢大學(xué)信息管理學(xué)院;武漢大學(xué)信息資源研究中心;
【基金】:國家社會(huì)科學(xué)基金項(xiàng)目(15BTQ066)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃莉;李湘東;;基于《中圖法》的自動(dòng)分類研究現(xiàn)狀與展望[J];圖書情報(bào)知識(shí);2012年04期
2 葉新明;徐進(jìn)鴻;;中文文獻(xiàn)自動(dòng)分類研究[J];情報(bào)科學(xué);1992年05期
3 葉新明;中文文獻(xiàn)自動(dòng)分類研究概述[J];情報(bào)理論與實(shí)踐;1992年05期
4 蔡巍;王英林;尹中航;;基于主題提取與兼類噪聲消除新方法的自動(dòng)分類系統(tǒng)[J];情報(bào)科學(xué);2009年10期
5 肖明,沈英;自動(dòng)分類研究進(jìn)展[J];現(xiàn)代圖書情報(bào)技術(shù);2000年05期
6 倪錦峰,王家楫;硅片工藝缺陷復(fù)檢和自動(dòng)分類系統(tǒng)[J];電子工業(yè)專用設(shè)備;2002年03期
7 王蘭波,張積友,范冰冰;國內(nèi)信息導(dǎo)航系統(tǒng)中的信息自動(dòng)分類子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2002年03期
8 廖勇;;信息處理及文獻(xiàn)自動(dòng)分類的探討[J];西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
9 顧永跟;自動(dòng)分類探討[J];湖州師專學(xué)報(bào);1995年05期
10 成穎,史九林;自動(dòng)分類研究現(xiàn)狀與展望[J];情報(bào)學(xué)報(bào);1999年01期
相關(guān)會(huì)議論文 前3條
1 何琳;侯漢清;;基于標(biāo)引經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)相結(jié)合的多層自動(dòng)分類[A];2005年中國索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年
2 趙朋朋;高嶺;崔志明;;基于查詢接口特征的Deep Web數(shù)據(jù)源自動(dòng)分類[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(二)[C];2006年
3 孫雄勇;羅霄;;中圖分類法體系下的自動(dòng)分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
相關(guān)碩士學(xué)位論文 前10條
1 朱婉瑩;少數(shù)民族文化文本資源自動(dòng)分類研究[D];云南師范大學(xué);2015年
2 田泱;基于深度學(xué)習(xí)的自動(dòng)分類相冊(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中山大學(xué);2015年
3 陳玉芹;多類別科技文獻(xiàn)自動(dòng)分類系統(tǒng)[D];華中科技大學(xué);2008年
4 段曉燕;投訴信息自動(dòng)分類與推送系統(tǒng)的研究與設(shè)計(jì)[D];北京郵電大學(xué);2013年
5 吳娟;軍用信息自動(dòng)分類的研究與實(shí)現(xiàn)[D];南京理工大學(xué);2004年
6 馬芳;基于神經(jīng)網(wǎng)絡(luò)的文本挖掘在專利自動(dòng)分類中的研究與應(yīng)用[D];山東理工大學(xué);2009年
7 趙傳敏;基于多特征選擇的心電信號(hào)自動(dòng)分類算法研究[D];蘇州大學(xué);2012年
8 王爽;基于知識(shí)庫的自動(dòng)分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];廈門大學(xué);2007年
9 葉鵬;基于機(jī)器學(xué)習(xí)的中文期刊論文自動(dòng)分類研究[D];南京大學(xué);2013年
10 李可;文獻(xiàn)自動(dòng)分類的文獻(xiàn)交流平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京化工大學(xué);2013年
,本文編號(hào):1522871
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1522871.html