基于主題擴展的領(lǐng)域問題分類方法
本文關(guān)鍵詞:基于主題擴展的領(lǐng)域問題分類方法
更多相關(guān)文章: 領(lǐng)域問題分類 數(shù)據(jù)稀疏 特征選擇 主題模型 優(yōu)質(zhì)主題 特征擴展
【摘要】:領(lǐng)域問題分類在問答系統(tǒng)中占有重要地位,但目前面向特定領(lǐng)域的研究較少。針對領(lǐng)域問題文本篇幅較短、數(shù)據(jù)稀疏的特點,提出基于主題擴展的領(lǐng)域問題分類方法。該方法主要包括特征選擇和特征擴展2個部分。利用卡方統(tǒng)計量特征選擇方法,將問題文本選擇的特征詞作為特征擴展的依據(jù)。通過潛在狄利克雷分配主題模型對外部知識庫進行分析,得到對應(yīng)的主題分布。為避免引入噪聲主題,采用主題熵的方法得到優(yōu)質(zhì)主題。將優(yōu)質(zhì)主題下所覆蓋的詞擴充到問題文本中,最后利用支持向量機分類器對問題文本進行分類。實驗結(jié)果表明,與傳統(tǒng)TFIDF文本分類方法相比,該方法分類效果較好,可提高問答系統(tǒng)的性能。
【作者單位】: 華東師范大學(xué)計算機科學(xué)技術(shù)系;
【關(guān)鍵詞】: 領(lǐng)域問題分類 數(shù)據(jù)稀疏 特征選擇 主題模型 優(yōu)質(zhì)主題 特征擴展
【基金】:上海市科學(xué)技術(shù)委員會科研計劃基金資助項目(1451110700,14511106803) 上海張江國家自主創(chuàng)新示范區(qū)專項發(fā)展基金資助項目(201411-JA-B108-002)
【分類號】:TP391.1
【正文快照】: 中文引用格式:張青,呂釗.基于主題擴展的領(lǐng)域問題分類方法[J].計算機工程,2016,42(9):202-207,213.英文引用格式:Zhang Qing,LüZhao.Domain Question Classification Method Based on Topic Expansion[J].ComputerEngineering,2016,42(9):202-207,213.1概述隨著社交媒體的興
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 冶忠林;楊燕;賈真;尹紅風(fēng);;基于語義擴展的短問題分類[J];計算機應(yīng)用;2015年03期
2 劉麗珍,宋瀚濤;文本分類中的特征選取[J];計算機工程;2004年04期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 渠新峰;;海量數(shù)據(jù)機器單詞中關(guān)鍵語義篩選方法研究[J];現(xiàn)代電子技術(shù);2017年06期
2 武振國;李艷翠;;植物病蟲害智能問答系統(tǒng)設(shè)計與實現(xiàn)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2017年01期
3 韓戟;何成浩;蘇星;施成云;劉東映;;一種基于SVM的電力行業(yè)物資需求預(yù)測方法[J];電氣技術(shù);2016年12期
4 張青;呂釗;;基于主題擴展的領(lǐng)域問題分類方法[J];計算機工程;2016年09期
5 何小利;;路由沖突下語義特征信息優(yōu)化查準(zhǔn)算法[J];科學(xué)技術(shù)與工程;2016年17期
6 楊小梅;黎斌;;海量數(shù)據(jù)下的特定語義數(shù)據(jù)檢索優(yōu)化方法研究[J];計算機仿真;2016年05期
7 王格;吳釗;李向;;基于全文檢索的文本相似度算法應(yīng)用研究[J];計算機與數(shù)字工程;2016年04期
8 馬麗菲;莫倩;杜輝;;面向中文短影評的分類技術(shù)研究[J];山東大學(xué)學(xué)報(理學(xué)版);2016年01期
9 孫曰昕;馬慧芳;姚偉;張志昌;;結(jié)合互信息和主題模型的微博話題發(fā)現(xiàn)方法[J];計算機工程與應(yīng)用;2016年06期
10 文必龍;李乃峰;任秀英;馮翔;呂鵬全;;基于概念關(guān)系的文本特征提取方法[J];計算機與數(shù)字工程;2014年11期
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 ;Short text classification based on strong feature thesaurus[J];Journal of Zhejiang University-Science C(Computers & Electronics);2012年09期
2 張仰森;黃改娟;蘇文杰;;基于隱最大熵原理的漢語詞義消歧方法[J];中文信息學(xué)報;2012年03期
3 李峰;李芳;;中文詞語語義相似度計算——基于《知網(wǎng)》2000[J];中文信息學(xué)報;2007年03期
4 孟遙,李生,趙鐵軍,曹海龍;四種基本統(tǒng)計句法分析模型在漢語句法分析中的性能比較[J];中文信息學(xué)報;2003年03期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 槰起;;不一定,
本文編號:622785
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/622785.html