中國少數(shù)民族文字網(wǎng)絡(luò)搜索引擎關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2023-06-08 20:39
中國少數(shù)民族文字信息處理技術(shù)還處于發(fā)展前期,標(biāo)準(zhǔn)化的工作尚未完成,目前許多網(wǎng)站所使用的文字編碼互不相通,各網(wǎng)站之間不能兼容,網(wǎng)站開發(fā)水平參差不齊,頁面代碼不夠規(guī)范等等,都使得少數(shù)民族文字搜索引擎的開發(fā)比漢文搜索引擎的開發(fā)更為困難,開發(fā)一個(gè)檢索結(jié)果準(zhǔn)確、全面的少數(shù)民族文字網(wǎng)絡(luò)搜索引擎對少數(shù)民族文字互聯(lián)網(wǎng)資源的檢索以及民族問題輿情分析等方面的工作都有著重大意義。文章對少數(shù)民族文字網(wǎng)絡(luò)搜索引擎難點(diǎn)問題與關(guān)鍵技術(shù)進(jìn)行了梳理,并提出下一步需要開展的工作。
【文章頁數(shù)】:3 頁
【文章目錄】:
!引言
"搜索器
1.1網(wǎng)站自動發(fā)現(xiàn)與采集技術(shù)
1.2網(wǎng)頁文字識別技術(shù)
#分析器
$索引器
3.1網(wǎng)頁文字編碼識別技術(shù)
(3)基于貝葉斯分類的編碼識別方法:通過計(jì)算網(wǎng)頁中存在的特征字符串編碼概率的大小,對應(yīng)概率越大,就越可能屬于某種編碼類型。
%檢索器
&用戶接口
本文編號:3832455
【文章頁數(shù)】:3 頁
【文章目錄】:
!引言
"搜索器
1.1網(wǎng)站自動發(fā)現(xiàn)與采集技術(shù)
1.2網(wǎng)頁文字識別技術(shù)
#分析器
$索引器
3.1網(wǎng)頁文字編碼識別技術(shù)
(3)基于貝葉斯分類的編碼識別方法:通過計(jì)算網(wǎng)頁中存在的特征字符串編碼概率的大小,對應(yīng)概率越大,就越可能屬于某種編碼類型。
%檢索器
&用戶接口
本文編號:3832455
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3832455.html
最近更新
教材專著