基于互聯(lián)網(wǎng)多語種分布情況研究與分析
發(fā)布時間:2018-06-21 10:01
本文選題:高頻字 + 搜索引擎; 參考:《計算機應(yīng)用與軟件》2007年09期
【摘要】:提出了一種互聯(lián)網(wǎng)上語種識別和多語種分布統(tǒng)計的方法。方法針對各語種文字被使用頻率不同的特點給出高頻字定義,以高頻字作為關(guān)鍵字進行網(wǎng)頁查詢和網(wǎng)頁語種識別,然后引用概率論中加法公式的推廣公式統(tǒng)計互聯(lián)網(wǎng)上各語種網(wǎng)頁分布情況,并結(jié)合高頻字被使用頻率對各語種文字分布情況做出進一步統(tǒng)計。實驗方法和數(shù)據(jù)結(jié)果對計算機工作者全面了解互聯(lián)網(wǎng)特征提供參考。
[Abstract]:A method of language identification and multilingual distribution statistics on the Internet is proposed. The method is used to define the high frequency words for different language characters used in different frequencies. The high frequency words are used as keywords to search for web pages and to identify the language of the web. Then, the extension formula of the addition formula in probability theory is used to count the languages on the Internet. "Distribution, combined with the high frequency words are frequently used to make further statistics for each language text distribution methods and experimental data. Results of computer workers fully understand the characteristics of the Internet to provide reference.
【作者單位】: 上海交通大學(xué)計算機科學(xué)與工程系 上海交通大學(xué)計算機科學(xué)與工程系
【分類號】:TP393.4
【相似文獻】
相關(guān)碩士學(xué)位論文 前1條
1 周煜;南齊書高頻字詞匯研究[D];北京大學(xué);2007年
,本文編號:2048211
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2048211.html
最近更新
教材專著