網(wǎng)頁(yè)體裁自動(dòng)識(shí)別研究
發(fā)布時(shí)間:2017-12-10 22:08
本文關(guān)鍵詞:網(wǎng)頁(yè)體裁自動(dòng)識(shí)別研究
更多相關(guān)文章: 網(wǎng)頁(yè)分類 網(wǎng)頁(yè)體裁 特征選擇 機(jī)器學(xué)習(xí)
【摘要】:隨著網(wǎng)絡(luò)的飛速發(fā)展,網(wǎng)頁(yè)數(shù)量急劇膨脹,近幾年來更是以指數(shù)級(jí)進(jìn)行增長(zhǎng),搜索引擎面臨的挑戰(zhàn)越來越嚴(yán)峻,很難從海量的網(wǎng)頁(yè)中準(zhǔn)確快捷地找到符合用戶需求的網(wǎng)頁(yè)。網(wǎng)頁(yè)分類是解決這個(gè)問題的有效手段之一,基于網(wǎng)頁(yè)主題分類和基于網(wǎng)頁(yè)體裁分類是網(wǎng)頁(yè)分類的兩大主流,二者有效地提高了搜索引擎的檢索效率。網(wǎng)頁(yè)體裁分類是指按照網(wǎng)頁(yè)的表現(xiàn)形式及其用途對(duì)網(wǎng)頁(yè)進(jìn)行分類。介紹了網(wǎng)頁(yè)體裁的定義,網(wǎng)頁(yè)體裁分類研究常用的分類特征,并且介紹了幾種常用特征篩選方法、分類模型以及分類器的評(píng)估方法,為研究者提供了對(duì)網(wǎng)頁(yè)體裁分類的概要性了解。
【作者單位】: 四川大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:TP393.092
【正文快照】: 0引言近年來,互聯(lián)網(wǎng)中網(wǎng)頁(yè)數(shù)量激增,中文網(wǎng)頁(yè)數(shù)量呈指數(shù)級(jí)增長(zhǎng)。龐大的網(wǎng)頁(yè)數(shù)量使得搜索引擎的任務(wù)更加艱巨,很難從網(wǎng)頁(yè)中準(zhǔn)確快捷地篩選出用戶需求的網(wǎng)頁(yè)。人們搜索萬維網(wǎng)通常有一個(gè)明確的概念:他們知道他們正在尋找,他們知道哪種形式[20]。前者涉及到找到文件的內(nèi)容,后者介
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁(yè)分類技術(shù)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年01期
2 周茜,趙明生,扈e,
本文編號(hào):1276056
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1276056.html
最近更新
教材專著