天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于改進向量空間模型的藏文主題網(wǎng)頁采集方法

發(fā)布時間:2017-09-17 06:21

  本文關鍵詞:一種基于改進向量空間模型的藏文主題網(wǎng)頁采集方法


  更多相關文章: 搜索引擎 藏文主題爬蟲 向量空間模型 導向詞庫 Heritrix


【摘要】:鑒于目前通用搜索引擎對藏文網(wǎng)頁主題信息判斷不夠理想的現(xiàn)狀,設計了一種基于改進向量空間模型的藏文主題網(wǎng)頁采集算法。相比傳統(tǒng)方法,該算法考慮了網(wǎng)頁頁面的不同標記內(nèi)容對主題的影響,利用頁面各個標記對藏文導向詞進行分類,并通過實驗確定了算法"導向詞個數(shù)"和"主題相關度"的合理閾值,最后,通過運算結果判斷網(wǎng)頁主題的相關度。通過對Heritrix爬蟲關鍵模塊的改進,以中國西藏網(wǎng)(藏文版)為例對該算法進行測試,共采集藏文網(wǎng)頁550個,主題相關準確度為62%。
【作者單位】: 西藏民族學院圖書館;西藏民族學院信息工程學院;
【關鍵詞】搜索引擎 藏文主題爬蟲 向量空間模型 導向詞庫 Heritrix
【基金】:2014年國家社會科學基金西部項目“藏學文獻數(shù)字化管理與共享服務策略研究”(項目編號:14xtq001) 2013年教育部人文社科西藏青年基金“網(wǎng)絡環(huán)境下特定主題的藏文信息發(fā)現(xiàn)與采集方法研究”(項目編號:13XZJC870001) 2012年西藏民族學院青年基金“網(wǎng)絡環(huán)境下藏文文獻數(shù)據(jù)搜集方法研究”(項目編號:12myq18)的階段性成果之一
【分類號】:TP393.092
【正文快照】: 1引言藏學文獻是中國少數(shù)民族寶貴的文化財富,是西藏經(jīng)濟文化建設不可缺少的重要組成部分[1]。受語言、地理位置等因素的影響,Baidu、Google等通用的搜索引擎對藏文主題信息判斷并不理想,網(wǎng)絡上的藏文信息呈現(xiàn)“孤立狀態(tài)”,不利于藏學文獻的分類加工和信息組織,因此需要開發(fā)分

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 田正軍;張鴻彥;;基于自動分類的郵件過濾系統(tǒng)[J];河南科學;2007年02期

2 張薦碩;方鈺;;基于向量空間模型的Web服務發(fā)現(xiàn)方法[J];計算機工程;2011年03期

3 陳鑫;基于VSM的中文網(wǎng)頁自動分類模型[J];晉東南師范?茖W校學報;2004年02期

4 何靜,劉海燕;基于向量空間模型的實時內(nèi)容過濾[J];計算機工程;2004年15期

5 張銘鋒,李云春,李巍;垃圾郵件過濾的貝葉斯方法綜述[J];計算機應用研究;2005年08期

6 李東艷;;基于向量空間的垃圾郵件過濾方法研究[J];儀器儀表用戶;2007年01期

7 康平波,王文杰;基于自動分類的搜索引擎過濾系統(tǒng)[J];計算機工程;2004年02期

8 肖e,

本文編號:867759


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/867759.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶95e28***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com