網(wǎng)商用戶評論中錯別字自動檢測與糾正的研究及實現(xiàn)
發(fā)布時間:2017-09-21 08:37
本文關(guān)鍵詞:網(wǎng)商用戶評論中錯別字自動檢測與糾正的研究及實現(xiàn)
更多相關(guān)文章: 網(wǎng)商用戶評論 錯別字 自動檢測算法 自動糾正算法
【摘要】:在電子商務(wù)迅速發(fā)展的背景下,網(wǎng)絡(luò)購物平臺積累了海量的用戶評論。挖掘網(wǎng)商用戶評論中的隱含信息對于商家和消費者至關(guān)重要,而評論中的錯別字是影響挖掘準(zhǔn)確性的關(guān)鍵因素。因此,自動檢測和糾正評論中的錯別字具有重要意義。目前對網(wǎng)商用戶評論中錯別字的自動檢測和糾正還沒有完好解決,如何提高自動檢測和糾正的準(zhǔn)確率是一個重要課題。本文主要工作:(1)針對檢測過程中詞語間關(guān)聯(lián)度弱導(dǎo)致的錯別字誤報問題,提出了基于詞向量的錯別字自動檢測算法。利用詞向量技術(shù)對評論中的疑似詞進行同義詞替換,得到基于詞向量的關(guān)聯(lián)度。綜合詞向量關(guān)聯(lián)度和語境概率兩個因素,篩選出包含錯別字的評論,并更精準(zhǔn)的確定錯別字在評論中的位置。最終檢測準(zhǔn)確率比現(xiàn)有方法提高了5.03%。(2)針對錯別字自動糾正準(zhǔn)確率低的問題,提出了基于權(quán)重機制的錯別字自動糾正算法。該算法通過合并評論中的疑似詞,生成疑似合并詞,為獲取正確候選詞奠定了基礎(chǔ)。在對字音相似和字形相似的候選詞排序時,引入了候選詞與疑似詞的相似權(quán)重,優(yōu)化了候選詞的排序問題。在確定最佳候選詞時,考慮了候選詞的概率分布,將區(qū)分度大的第一候選詞作為最佳候選詞,解決了正確詞被錯誤糾正的問題。最終糾錯準(zhǔn)確率比現(xiàn)有方法提高了24.20%。(3)針對網(wǎng)商用戶評論中的數(shù)據(jù)噪聲問題,在傳統(tǒng)的數(shù)據(jù)預(yù)處理的基礎(chǔ)上,對水軍評論進行了過濾,成功過濾了15.03%的評論數(shù)據(jù),提高了訓(xùn)練語料數(shù)據(jù)的準(zhǔn)確性。此外,通過對評論中的同類別屬性詞進行替換,降低了特征向量的空間維度,減少了系統(tǒng)存儲開銷。(4)本研究經(jīng)過實驗驗證達到了實用要求,并已經(jīng)成功應(yīng)用于聯(lián)想研究院“用戶反饋分析系統(tǒng)”,系統(tǒng)運行穩(wěn)定、可靠。
【關(guān)鍵詞】:網(wǎng)商用戶評論 錯別字 自動檢測算法 自動糾正算法
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-10
- 第1章 緒論10-16
- 1.1 研究背景及意義10-11
- 1.1.1 研究背景10
- 1.1.2 研究意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 國外研究現(xiàn)狀11-12
- 1.2.2 國內(nèi)研究現(xiàn)狀12-13
- 1.3 課題來源13
- 1.4 本文主要研究內(nèi)容13-14
- 1.5 本文結(jié)構(gòu)安排14-16
- 第2章 相關(guān)技術(shù)介紹16-26
- 2.1 統(tǒng)計語言模型16-19
- 2.1.1 N-gram語言模型16-17
- 2.1.2 數(shù)據(jù)平滑技術(shù)17-19
- 2.2 傳統(tǒng)檢測和糾正算法19-21
- 2.2.1 糾錯字典算法19
- 2.2.2 編輯距離算法19-21
- 2.2.3 基于統(tǒng)計的檢錯算法21
- 2.3 詞向量21-25
- 2.3.1 詞向量概述21-22
- 2.3.2 詞向量訓(xùn)練22-23
- 2.3.3 詞向量訓(xùn)練工具23-25
- 2.4 本章小結(jié)25-26
- 第3章 基于詞向量的錯別字自動檢測算法26-36
- 3.1 問題描述26-27
- 3.1.1 網(wǎng)商用戶評論中錯別字產(chǎn)生原因26-27
- 3.1.2 現(xiàn)有檢測算法的不足27
- 3.2 算法框架27-29
- 3.3 關(guān)聯(lián)度計算29-34
- 3.3.1 初始關(guān)聯(lián)度計算29-31
- 3.3.2 基于詞向量的關(guān)聯(lián)度計算31-34
- 3.4 概率統(tǒng)計34-35
- 3.5 疑似評論篩選35
- 3.6 本章小結(jié)35-36
- 第4章 基于權(quán)重機制的錯別字自動糾正算法36-48
- 4.1 問題描述36-39
- 4.1.1 錯別字類型36-38
- 4.1.2 現(xiàn)有糾錯算法的不足38-39
- 4.2 算法框架39
- 4.3 疑似詞合并39-41
- 4.4 候選詞生成41-44
- 4.4.1 字音相似度計算41-43
- 4.4.2 字形相似度計算43-44
- 4.4.3 候選詞合并44
- 4.5 最佳候選詞生成44-47
- 4.5.1 候選詞排序44-45
- 4.5.2 候選詞替換45-47
- 4.6 本章小結(jié)47-48
- 第5章 錯別字自動檢測與糾正的實現(xiàn)48-68
- 5.1 錯別字自動檢測與糾正整體設(shè)計48-49
- 5.2 數(shù)據(jù)預(yù)處理49-54
- 5.2.1 水軍評論過濾49-52
- 5.2.2 數(shù)據(jù)替換52-53
- 5.2.3 分詞53-54
- 5.3 語言模型的訓(xùn)練54-55
- 5.4 基于詞向量的錯別字自動檢測算法的實現(xiàn)55-60
- 5.4.1 關(guān)聯(lián)度計算55-56
- 5.4.2 概率計算56
- 5.4.3 錯別字檢測56-57
- 5.4.4 結(jié)果分析57-60
- 5.5 基于權(quán)重機制的錯別字自動糾正算法的實現(xiàn)60-66
- 5.5.1 候選詞生成60-62
- 5.5.2 錯別字糾正62-63
- 5.5.3 結(jié)果分析63-66
- 5.6 本章小結(jié)66-68
- 結(jié)論68-70
- 參考文獻70-74
- 攻讀碩士學(xué)位期間所獲得的學(xué)術(shù)成果74-76
- 致謝76
本文編號:893475
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/893475.html
最近更新
教材專著