基于統(tǒng)計特征的Quality Phrase挖掘方法
發(fā)布時間:2024-11-07 20:39
Quality Phrase挖掘是從文本語料庫中提取有意義短語的過程,是文檔摘要、信息檢索等任務的基礎。然而現(xiàn)有的無監(jiān)督短語挖掘方法存在候選短語質量不高、Quality Phrase的特征權重平均分配的問題。本文提出基于統(tǒng)計特征的Quality Phrase挖掘方法,將頻繁N-Gram挖掘、多詞短語組合性約束及單詞短語拼寫檢查相結合,保證了候選短語的質量;引入公共知識庫對候選短語添加類別標簽,實現(xiàn)了Quality Phrase特征權重的分配,并考慮特征之間相互影響設置懲罰因子調整權重比例;按照候選短語的特征加權函數(shù)得分排序,提取Quality Phrase。實驗結果表明,基于統(tǒng)計特征的Quality Phrase挖掘方法明顯提高了短語挖掘的精度,與最優(yōu)的無監(jiān)督短語挖掘方法相比,精確率、召回率及F1-Score分別提升了5.97%,1.77%和4.02%。
【文章頁數(shù)】:16 頁
【文章目錄】:
引言
1相關定義
2 Quality Phrase評價準則
3基于統(tǒng)計特征的候選短語挖掘方法
3.1頻繁N?Gram短語挖掘
3.2多詞短語組合性約束
3.3單詞短語拼寫檢查
4基于統(tǒng)計特征的Quality Phrase選擇方法
4.1特征對Quality Phrase的貢獻程度
4.2特征之間相互影響
5實驗驗證
5.1數(shù)據集
5.2對比算法
5.3評價指標
5.4實驗結果
5.4.1組合性統(tǒng)計意義度量選擇
5.4.2候選短語挖掘階段實驗結果對比
5.4.3本文算法與其他算法的對比
6結束語
本文編號:4011740
【文章頁數(shù)】:16 頁
【文章目錄】:
引言
1相關定義
2 Quality Phrase評價準則
3基于統(tǒng)計特征的候選短語挖掘方法
3.1頻繁N?Gram短語挖掘
3.2多詞短語組合性約束
3.3單詞短語拼寫檢查
4基于統(tǒng)計特征的Quality Phrase選擇方法
4.1特征對Quality Phrase的貢獻程度
4.2特征之間相互影響
5實驗驗證
5.1數(shù)據集
5.2對比算法
5.3評價指標
5.4實驗結果
5.4.1組合性統(tǒng)計意義度量選擇
5.4.2候選短語挖掘階段實驗結果對比
5.4.3本文算法與其他算法的對比
6結束語
本文編號:4011740
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/4011740.html
上一篇:基于機器學習的多源數(shù)據態(tài)勢評估技術研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著