一種自適應(yīng)字長的中文詞庫的構(gòu)建方法
發(fā)布時間:2018-02-05 00:01
本文關(guān)鍵詞: 異或算法 Hash函數(shù) 中文詞庫 自適應(yīng)字長 出處:《計算機(jī)研究與發(fā)展》2011年S1期 論文類型:期刊論文
【摘要】:中文搜索引擎中的詞庫是提高文本信息存儲與查找效率的關(guān)鍵.以異或Hash算法為基礎(chǔ),根據(jù)對不同字長詞出現(xiàn)概率的統(tǒng)計結(jié)果,利用詞條的機(jī)內(nèi)編碼和漢字筆畫數(shù),把不同字長的詞散列到不同的Hash值區(qū)間.實驗結(jié)果表明該算法可以將Hash值的沖突率降低到0.327‰,該方法可用于計算機(jī)語料庫建設(shè)和中文輸入法等自然語言處理過程.
[Abstract]:The lexicon in Chinese search engine is the key to improve the efficiency of text information storage and search. Based on the XOR or Hash algorithm, according to the statistical results of the occurrence probability of different word length words. By using the in-machine coding of entries and the number of strokes in Chinese characters, different word lengths are hashed to different intervals of Hash values. The experimental results show that the collision rate of Hash values can be reduced to 0.327 鈥,
本文編號:1491533
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1491533.html
最近更新
教材專著