天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于互聯(lián)網(wǎng)多語種分布情況研究與分析

發(fā)布時間:2018-06-21 10:01

  本文選題:高頻字 + 搜索引擎; 參考:《計算機應(yīng)用與軟件》2007年09期


【摘要】:提出了一種互聯(lián)網(wǎng)上語種識別和多語種分布統(tǒng)計的方法。方法針對各語種文字被使用頻率不同的特點給出高頻字定義,以高頻字作為關(guān)鍵字進行網(wǎng)頁查詢和網(wǎng)頁語種識別,然后引用概率論中加法公式的推廣公式統(tǒng)計互聯(lián)網(wǎng)上各語種網(wǎng)頁分布情況,并結(jié)合高頻字被使用頻率對各語種文字分布情況做出進一步統(tǒng)計。實驗方法和數(shù)據(jù)結(jié)果對計算機工作者全面了解互聯(lián)網(wǎng)特征提供參考。
[Abstract]:A method of language identification and multilingual distribution statistics on the Internet is proposed. The method is used to define the high frequency words for different language characters used in different frequencies. The high frequency words are used as keywords to search for web pages and to identify the language of the web. Then, the extension formula of the addition formula in probability theory is used to count the languages on the Internet. "Distribution, combined with the high frequency words are frequently used to make further statistics for each language text distribution methods and experimental data. Results of computer workers fully understand the characteristics of the Internet to provide reference.
【作者單位】: 上海交通大學(xué)計算機科學(xué)與工程系 上海交通大學(xué)計算機科學(xué)與工程系
【分類號】:TP393.4

【相似文獻】

相關(guān)碩士學(xué)位論文 前1條

1 周煜;南齊書高頻字詞匯研究[D];北京大學(xué);2007年

,

本文編號:2048211

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2048211.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶37cb9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com