一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集方法
發(fā)布時(shí)間:2017-09-17 06:21
本文關(guān)鍵詞:一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集方法
更多相關(guān)文章: 搜索引擎 藏文主題爬蟲 向量空間模型 導(dǎo)向詞庫 Heritrix
【摘要】:鑒于目前通用搜索引擎對(duì)藏文網(wǎng)頁主題信息判斷不夠理想的現(xiàn)狀,設(shè)計(jì)了一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集算法。相比傳統(tǒng)方法,該算法考慮了網(wǎng)頁頁面的不同標(biāo)記內(nèi)容對(duì)主題的影響,利用頁面各個(gè)標(biāo)記對(duì)藏文導(dǎo)向詞進(jìn)行分類,并通過實(shí)驗(yàn)確定了算法"導(dǎo)向詞個(gè)數(shù)"和"主題相關(guān)度"的合理閾值,最后,通過運(yùn)算結(jié)果判斷網(wǎng)頁主題的相關(guān)度。通過對(duì)Heritrix爬蟲關(guān)鍵模塊的改進(jìn),以中國西藏網(wǎng)(藏文版)為例對(duì)該算法進(jìn)行測(cè)試,共采集藏文網(wǎng)頁550個(gè),主題相關(guān)準(zhǔn)確度為62%。
【作者單位】: 西藏民族學(xué)院圖書館;西藏民族學(xué)院信息工程學(xué)院;
【關(guān)鍵詞】: 搜索引擎 藏文主題爬蟲 向量空間模型 導(dǎo)向詞庫 Heritrix
【基金】:2014年國家社會(huì)科學(xué)基金西部項(xiàng)目“藏學(xué)文獻(xiàn)數(shù)字化管理與共享服務(wù)策略研究”(項(xiàng)目編號(hào):14xtq001) 2013年教育部人文社科西藏青年基金“網(wǎng)絡(luò)環(huán)境下特定主題的藏文信息發(fā)現(xiàn)與采集方法研究”(項(xiàng)目編號(hào):13XZJC870001) 2012年西藏民族學(xué)院青年基金“網(wǎng)絡(luò)環(huán)境下藏文文獻(xiàn)數(shù)據(jù)搜集方法研究”(項(xiàng)目編號(hào):12myq18)的階段性成果之一
【分類號(hào)】:TP393.092
【正文快照】: 1引言藏學(xué)文獻(xiàn)是中國少數(shù)民族寶貴的文化財(cái)富,是西藏經(jīng)濟(jì)文化建設(shè)不可缺少的重要組成部分[1]。受語言、地理位置等因素的影響,Baidu、Google等通用的搜索引擎對(duì)藏文主題信息判斷并不理想,網(wǎng)絡(luò)上的藏文信息呈現(xiàn)“孤立狀態(tài)”,不利于藏學(xué)文獻(xiàn)的分類加工和信息組織,因此需要開發(fā)分
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 田正軍;張鴻彥;;基于自動(dòng)分類的郵件過濾系統(tǒng)[J];河南科學(xué);2007年02期
2 張薦碩;方鈺;;基于向量空間模型的Web服務(wù)發(fā)現(xiàn)方法[J];計(jì)算機(jī)工程;2011年03期
3 陳鑫;基于VSM的中文網(wǎng)頁自動(dòng)分類模型[J];晉東南師范?茖W(xué)校學(xué)報(bào);2004年02期
4 何靜,劉海燕;基于向量空間模型的實(shí)時(shí)內(nèi)容過濾[J];計(jì)算機(jī)工程;2004年15期
5 張銘鋒,李云春,李巍;垃圾郵件過濾的貝葉斯方法綜述[J];計(jì)算機(jī)應(yīng)用研究;2005年08期
6 李東艷;;基于向量空間的垃圾郵件過濾方法研究[J];儀器儀表用戶;2007年01期
7 康平波,王文杰;基于自動(dòng)分類的搜索引擎過濾系統(tǒng)[J];計(jì)算機(jī)工程;2004年02期
8 肖e,
本文編號(hào):867759
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/867759.html
最近更新
教材專著