中國少數(shù)民族文字網絡搜索引擎關鍵技術研究
發(fā)布時間:2023-06-08 20:39
中國少數(shù)民族文字信息處理技術還處于發(fā)展前期,標準化的工作尚未完成,目前許多網站所使用的文字編碼互不相通,各網站之間不能兼容,網站開發(fā)水平參差不齊,頁面代碼不夠規(guī)范等等,都使得少數(shù)民族文字搜索引擎的開發(fā)比漢文搜索引擎的開發(fā)更為困難,開發(fā)一個檢索結果準確、全面的少數(shù)民族文字網絡搜索引擎對少數(shù)民族文字互聯(lián)網資源的檢索以及民族問題輿情分析等方面的工作都有著重大意義。文章對少數(shù)民族文字網絡搜索引擎難點問題與關鍵技術進行了梳理,并提出下一步需要開展的工作。
【文章頁數(shù)】:3 頁
【文章目錄】:
!引言
"搜索器
1.1網站自動發(fā)現(xiàn)與采集技術
1.2網頁文字識別技術
#分析器
$索引器
3.1網頁文字編碼識別技術
(3)基于貝葉斯分類的編碼識別方法:通過計算網頁中存在的特征字符串編碼概率的大小,對應概率越大,就越可能屬于某種編碼類型。
%檢索器
&用戶接口
本文編號:3832455
【文章頁數(shù)】:3 頁
【文章目錄】:
!引言
"搜索器
1.1網站自動發(fā)現(xiàn)與采集技術
1.2網頁文字識別技術
#分析器
$索引器
3.1網頁文字編碼識別技術
(3)基于貝葉斯分類的編碼識別方法:通過計算網頁中存在的特征字符串編碼概率的大小,對應概率越大,就越可能屬于某種編碼類型。
%檢索器
&用戶接口
本文編號:3832455
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3832455.html
教材專著