基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究.doc 全文免費(fèi)在線閱讀
本文關(guān)鍵詞:基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
文檔介紹:
【精品】畢業(yè)論文優(yōu)秀畢業(yè)論文本科論文專業(yè)學(xué)術(shù)論文參考文獻(xiàn)資料計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)優(yōu)秀論文--基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究關(guān)鍵詞:搜索引擎中文輸入糾錯(cuò) N-gram 模型統(tǒng)計(jì)語(yǔ)言 TF/IDF 權(quán)重分布式計(jì)算摘要:在已經(jīng)到來(lái)的 Web2.0 時(shí)代,搜索引擎在互聯(lián)網(wǎng)上扮演了越來(lái)越重要的角色,而日益增多并且成熟的互聯(lián)網(wǎng)用戶對(duì)搜索引擎的要求也越來(lái)越高,其功能也在不斷豐富和完善當(dāng)中,輸入自動(dòng)檢查糾錯(cuò)功能就是一項(xiàng)非常重要的附加技術(shù),并且已經(jīng)得到了較為廣泛的應(yīng)用和推廣。對(duì)于中文搜索引擎來(lái)說(shuō),輸入自動(dòng)檢查糾錯(cuò)功能是指,用戶在輸入關(guān)鍵詞進(jìn)行搜索之后,如果搜索引擎在返回結(jié)果中計(jì)算出與此關(guān)鍵詞相似的另一形式(如詞組中出現(xiàn)同音不同字,或者某一錯(cuò)別字現(xiàn)象)得到大量的搜索結(jié)果,用戶將會(huì)在搜索結(jié)果頁(yè)面看到系統(tǒng)提供的推測(cè)到的關(guān)鍵詞項(xiàng)。針對(duì)以上問(wèn)題,首次將一種完全通過(guò)分析上下文統(tǒng)計(jì)信息的方法引入搜索引擎的輸入糾錯(cuò)技術(shù)中(未見(jiàn)文獻(xiàn)報(bào)道),根據(jù)中文語(yǔ)言的特點(diǎn),對(duì)中文語(yǔ)料庫(kù)建立了 N-gram 統(tǒng)計(jì)語(yǔ)言模型,并且對(duì)其進(jìn)行了詳細(xì)的分析,確定了語(yǔ)言模型所必需的參數(shù),以及對(duì)其進(jìn)行了優(yōu)化處理,使其更加接近真實(shí)情況下的語(yǔ)言。研究中引入了 TF/IDF 權(quán)重計(jì)算方法,將初步統(tǒng)計(jì)語(yǔ)言模型得出的糾...
內(nèi)容來(lái)自轉(zhuǎn)載請(qǐng)標(biāo)明出處.
本文關(guān)鍵詞:基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):129180
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/129180.html