基于互聯(lián)網(wǎng)多語(yǔ)種分布情況研究與分析
發(fā)布時(shí)間:2018-06-21 10:01
本文選題:高頻字 + 搜索引擎。 參考:《計(jì)算機(jī)應(yīng)用與軟件》2007年09期
【摘要】:提出了一種互聯(lián)網(wǎng)上語(yǔ)種識(shí)別和多語(yǔ)種分布統(tǒng)計(jì)的方法。方法針對(duì)各語(yǔ)種文字被使用頻率不同的特點(diǎn)給出高頻字定義,以高頻字作為關(guān)鍵字進(jìn)行網(wǎng)頁(yè)查詢和網(wǎng)頁(yè)語(yǔ)種識(shí)別,然后引用概率論中加法公式的推廣公式統(tǒng)計(jì)互聯(lián)網(wǎng)上各語(yǔ)種網(wǎng)頁(yè)分布情況,并結(jié)合高頻字被使用頻率對(duì)各語(yǔ)種文字分布情況做出進(jìn)一步統(tǒng)計(jì)。實(shí)驗(yàn)方法和數(shù)據(jù)結(jié)果對(duì)計(jì)算機(jī)工作者全面了解互聯(lián)網(wǎng)特征提供參考。
[Abstract]:A method of language identification and multilingual distribution statistics on the Internet is proposed. The method is used to define the high frequency words for different language characters used in different frequencies. The high frequency words are used as keywords to search for web pages and to identify the language of the web. Then, the extension formula of the addition formula in probability theory is used to count the languages on the Internet. "Distribution, combined with the high frequency words are frequently used to make further statistics for each language text distribution methods and experimental data. Results of computer workers fully understand the characteristics of the Internet to provide reference.
【作者單位】: 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系
【分類號(hào)】:TP393.4
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 周煜;南齊書高頻字詞匯研究[D];北京大學(xué);2007年
,本文編號(hào):2048211
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2048211.html
最近更新
教材專著