基于VSM和LDA模型的FAQ問(wèn)答系統(tǒng)
本文關(guān)鍵詞:基于VSM和LDA模型的FAQ問(wèn)答系統(tǒng)
更多相關(guān)文章: VSM 相似度計(jì)算 LDA(Latent Dirichlet Allocation) 主題-詞分布
【摘要】:傳統(tǒng)的搜索引擎返回的數(shù)據(jù)太過(guò)龐大,很多情況下用戶(hù)不能快速地找到自己要的答案。在這種情況下,文中引入FAQ系統(tǒng)。FAQ中如何找到最佳匹配答案,是文中的研究重點(diǎn)。改進(jìn)了傳統(tǒng)的VSM模型,使得它能更好地體現(xiàn)問(wèn)題中詞的權(quán)重。重點(diǎn)引入了LDA模型,并用計(jì)算機(jī)故障領(lǐng)域內(nèi)的文檔資料對(duì)它進(jìn)行訓(xùn)練,得到主題-詞的概率分布。通過(guò)主題-詞中詞的概率分布,計(jì)算詞與詞的相關(guān)度,提出通過(guò)詞與詞間相關(guān)度計(jì)算句子與句子間相似度的算法。對(duì)兩個(gè)算法進(jìn)行綜合,得到最終的相似度算法。文中對(duì)FAQ進(jìn)行整理,得到了FAQ問(wèn)答系統(tǒng)的雛形。通過(guò)實(shí)驗(yàn)分析,說(shuō)明相似度算法有很好的效果。
【作者單位】: 安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: VSM 相似度計(jì)算 LDA(Latent Dirichlet Allocation) 主題-詞分布
【基金】:安徽省自然科學(xué)基金資助項(xiàng)目(11040606M133)
【分類(lèi)號(hào)】:TP391.3
【正文快照】: 0引言隨著科技發(fā)展,網(wǎng)絡(luò)承載的信息量劇增,信息已處于爆炸的時(shí)代。而現(xiàn)在的搜索引擎,大部分還是按照關(guān)鍵詞進(jìn)行搜索。這在某種程度上阻礙了人們利用互聯(lián)網(wǎng)進(jìn)行有效的知識(shí)獲取、共享和交換。對(duì)于問(wèn)答系統(tǒng),用戶(hù)可以把整個(gè)問(wèn)題直接交給問(wèn)答系統(tǒng),而不需要把自己的問(wèn)題分解成關(guān)鍵字
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 張小平;周雪忠;黃厚寬;馮奇;陳世波;焦宏官;;一種改進(jìn)的LDA主題模型[J];北京交通大學(xué)學(xué)報(bào);2010年02期
2 谷志鋒;劉勇;郭跟成;;本體映射過(guò)程中概念相似度計(jì)算方法的改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2008年08期
3 李彬,劉挺,秦兵,李生;基于語(yǔ)義依存的漢語(yǔ)句子相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用研究;2003年12期
4 郭慶琳;李艷梅;唐琦;;基于VSM的文本相似度計(jì)算的研究[J];計(jì)算機(jī)應(yīng)用研究;2008年11期
5 毛先領(lǐng);李曉明;;問(wèn)答系統(tǒng)研究綜述[J];計(jì)算機(jī)科學(xué)與探索;2012年03期
6 江敏;肖詩(shī)斌;王弘蔚;施水才;;一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J];中文信息學(xué)報(bào);2008年05期
7 韓如冰;葉得學(xué);;基于VSM的權(quán)重改進(jìn)文檔相似度算法研究[J];軟件;2012年10期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 高煒;梁立;;基于概念匹配的本體映射算法[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期
2 羅長(zhǎng)壽;張峻峰;孫素芬;魏清鳳;;基于改進(jìn)VSM的農(nóng)業(yè)實(shí)用技術(shù)自動(dòng)問(wèn)答系統(tǒng)研究[J];安徽農(nóng)業(yè)科學(xué);2009年28期
3 孫喜來(lái);王欣;葛昂;鄭家民;鄧宏斌;;面向相似度的多維異構(gòu)數(shù)據(jù)比對(duì)模型研究[J];信息安全與技術(shù);2011年09期
4 蔣溢;丁優(yōu);熊安萍;王化晶;;一種基于知網(wǎng)的詞匯語(yǔ)義相似度改進(jìn)計(jì)算方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
5 楊松;樓新遠(yuǎn);;基于向量空間模型附加詞義特征的句子相似度研究[J];成都信息工程學(xué)院學(xué)報(bào);2012年03期
6 徐朝軍;;基于主題搜索的通用教學(xué)資源共享平臺(tái)設(shè)計(jì)[J];中國(guó)遠(yuǎn)程教育;2010年03期
7 楊思春;;一種改進(jìn)的句子相似度計(jì)算模型[J];電子科技大學(xué)學(xué)報(bào);2006年06期
8 田宏;李運(yùn)紅;;改進(jìn)概念相似度的本體遷移學(xué)習(xí)[J];大連交通大學(xué)學(xué)報(bào);2010年06期
9 丁建;范太華;;一種綜合的概念語(yǔ)義相似度計(jì)算方法[J];電腦知識(shí)與技術(shù);2011年03期
10 趙巾幗;徐德智;羅慶云;;漢語(yǔ)句子相似度計(jì)算方法比對(duì)之研究[J];福建電腦;2007年10期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條
1 趙妍妍;秦兵;劉挺;張俐;蘇中;;基于多特征融合的句子相似度計(jì)算[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
2 菅小艷;鄭家恒;;一種改進(jìn)的句子相似度計(jì)算方法[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 劉寶艷;林鴻飛;楊志豪;;基于改進(jìn)編輯距離和依存結(jié)構(gòu)的句子相似度計(jì)算[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
4 宋彥;張桂平;蔡?hào)|風(fēng);;基于N-gram的句子相似度計(jì)算技術(shù)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
5 馮新元;魏建國(guó);路文煥;黨建武;;引入領(lǐng)域知識(shí)的基于《知網(wǎng)》詞語(yǔ)語(yǔ)義相似度計(jì)算[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張小平;主題模型及其在中醫(yī)臨床診療中的應(yīng)用研究[D];北京交通大學(xué);2011年
2 劉銘;大規(guī)模文檔聚類(lèi)中若干關(guān)鍵問(wèn)題的研究[D];哈爾濱工業(yè)大學(xué);2010年
3 單建芳;面向事件的文本表示研究[D];上海大學(xué);2012年
4 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
5 謝能付;基于語(yǔ)義Web技術(shù)的知識(shí)融合和同步方法研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
6 李輝;移動(dòng)商務(wù)導(dǎo)購(gòu)系統(tǒng)的研究[D];大連理工大學(xué);2008年
7 劉剛;面向領(lǐng)域的軟件需求一致性驗(yàn)證方法研究[D];哈爾濱工程大學(xué);2008年
8 邱奇志;基于本體的學(xué)習(xí)對(duì)象發(fā)現(xiàn)機(jī)制的研究與應(yīng)用[D];武漢理工大學(xué);2009年
9 趙玉茗;文本間語(yǔ)義相關(guān)性計(jì)算及其應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2009年
10 宋玲;語(yǔ)義相似度計(jì)算及其應(yīng)用研究[D];山東大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 耿倩;基于文本相似度計(jì)算的文本聚類(lèi)算法研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
2 孔勝;文本資源的知識(shí)抽取研究[D];大連理工大學(xué);2010年
3 徐美霞;基于web技術(shù)的網(wǎng)上考試系統(tǒng)[D];中國(guó)海洋大學(xué);2010年
4 徐德玉;中文文檔內(nèi)容相似度檢測(cè)方法研究[D];長(zhǎng)春工業(yè)大學(xué);2010年
5 王阿婷;基于概念集合的網(wǎng)頁(yè)內(nèi)容過(guò)濾方法的研究[D];北京交通大學(xué);2010年
6 樊春雷;基于語(yǔ)義分析的糖尿病健康教育系統(tǒng)研究與實(shí)現(xiàn)[D];華東理工大學(xué);2011年
7 胡青;語(yǔ)義目錄的實(shí)現(xiàn)機(jī)制研究[D];武漢科技大學(xué);2010年
8 王鳳林;受限域問(wèn)答式自然語(yǔ)言數(shù)據(jù)庫(kù)查詢(xún)研究[D];昆明理工大學(xué);2010年
9 孟祥燕;問(wèn)答對(duì)自動(dòng)獲取的研究[D];昆明理工大學(xué);2008年
10 李運(yùn)紅;優(yōu)化本體的遷移學(xué)習(xí)方法研究[D];大連交通大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 夏天,樊孝忠,劉林,駱正華;基于ALICE的漢語(yǔ)自然語(yǔ)言接口[J];北京理工大學(xué)學(xué)報(bào);2004年10期
2 朱莉;孫廣玲;;基于SVM和sigmoid函數(shù)的字符識(shí)別自適應(yīng)學(xué)習(xí)算法[J];電子技術(shù)應(yīng)用;2006年04期
3 郭艷華,周昌樂(lè);一種漢語(yǔ)語(yǔ)句依存關(guān)系網(wǎng)協(xié)動(dòng)生成方法研究[J];杭州電子工業(yè)學(xué)院學(xué)報(bào);2000年04期
4 張承立;陳劍波;齊開(kāi)悅;;基于語(yǔ)義網(wǎng)的語(yǔ)義相似度算法改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年17期
5 宋玲;馬軍;連莉;張志軍;;文檔相似度綜合計(jì)算研究[J];計(jì)算機(jī)工程與應(yīng)用;2006年30期
6 嚴(yán)莉莉;張燕平;;基于類(lèi)信息的文本聚類(lèi)中特征選擇算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年12期
7 黃曉濤;李宇飛;;一種在語(yǔ)義網(wǎng)環(huán)境中的域間本體模糊映射算法[J];計(jì)算機(jī)工程與科學(xué);2006年02期
8 吳健,吳朝暉,李瑩,鄧水光;基于本體論和詞匯語(yǔ)義相似度的Web服務(wù)發(fā)現(xiàn)[J];計(jì)算機(jī)學(xué)報(bào);2005年04期
9 聶朝暉;王英林;;相似本體間屬性映射方法的研究[J];計(jì)算機(jī)仿真;2006年09期
10 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類(lèi)系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 車(chē)萬(wàn)翔;劉挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然語(yǔ)言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 王秀娟;文本檢索中若干問(wèn)題研究[D];北京郵電大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 沈斌;基于分詞的中文文本相似度計(jì)算研究[D];天津財(cái)經(jīng)大學(xué);2006年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 丁振國(guó);陳海霞;;一種基于知網(wǎng)的主觀題閱卷算法[J];微電子學(xué)與計(jì)算機(jī);2008年05期
2 諶志群;周其力;;基于綜合語(yǔ)義的XML文檔相似度計(jì)算方法[J];杭州電子科技大學(xué)學(xué)報(bào);2009年03期
3 冉婕;孫瑜;;語(yǔ)義檢索中的詞語(yǔ)相似度計(jì)算研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年04期
4 姚全珠;孟麗;崔杜武;;基于CBR和XML的軟構(gòu)件檢索方法[J];計(jì)算機(jī)應(yīng)用;2007年07期
5 段壽建;楊朝鳳;甘健侯;;基于領(lǐng)域本體的概念語(yǔ)義相似度和相關(guān)度綜合量化研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年11期
6 陳千;向陽(yáng);魏椺;;概念匹配方法綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年04期
7 王剛;邱玉輝;;基于本體及相似度的文本聚類(lèi)研究[J];計(jì)算機(jī)應(yīng)用研究;2010年07期
8 冉婕;孫瑜;漆麗娟;;基于本體的概念相似度計(jì)算及其應(yīng)用[J];微型機(jī)與應(yīng)用;2010年11期
9 鄒李;杜小勇;何軍;;B3:圖間節(jié)點(diǎn)相似度分塊計(jì)算方法[J];計(jì)算機(jī)科學(xué)與探索;2010年09期
10 劉文劍;郭寧;金天國(guó);;制造資源本體的相似度計(jì)算模型[J];計(jì)算機(jī)集成制造系統(tǒng);2010年11期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 劉廣艷;孫瑩;黃保海;林培光;;基于本體方法的改進(jìn)VSM語(yǔ)義檢索模型[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
2 李衛(wèi)東;楊炳儒;李龍星;曲文龍;;基于中心詞位置的VSM文本分類(lèi)算法[A];2005中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集(下)[C];2005年
3 張愛(ài)華;靖紅芳;王斌;徐燕;;文本分類(lèi)中特征權(quán)重因子的作用研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 陳偉萍;王琳;封化民;楊鼎才;方勇;;一種基于語(yǔ)義概念的中文文本分類(lèi)方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 李政濤;夏樹(shù)倩;王大玲;馮時(shí);張一飛;;一種基于語(yǔ)義引力及密度分布的聚類(lèi)算法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
6 張曉瑩;張桂平;王裴巖;;領(lǐng)域本體構(gòu)建中關(guān)系輔助判斷技術(shù)研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 韓敏;唐常杰;段磊;李川;鞏杰;;基于TF/IDF相似度的標(biāo)簽聚類(lèi)方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
8 周水庚;胡江滔;胡運(yùn)發(fā);周傲英;;基于隱含語(yǔ)義索引的中文文本檢索[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
9 伍賽;楊冬青;韓近強(qiáng);張銘;王文清;馮英;;WCM:一種基于單詞相關(guān)度的文檔聚類(lèi)新方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
10 王桐;劉大昕;田迪;孫偉;張萬(wàn)松;;一種改進(jìn)的XML向量空間模型及其近似匹配算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 Andi Mann 編譯 劉琦;提高虛擬化系統(tǒng)的可管理性[N];中國(guó)計(jì)算機(jī)報(bào);2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 朱朝勇;基于本體的知識(shí)庫(kù)分類(lèi)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
2 李智星;用于文本分類(lèi)的簡(jiǎn)明語(yǔ)義分析技術(shù)研究[D];重慶大學(xué);2011年
3 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問(wèn)題研究[D];重慶大學(xué);2011年
4 尹華罡;基于海量時(shí)空數(shù)據(jù)的路線挖掘與檢索[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
5 胡德鵬;基于農(nóng)業(yè)本體問(wèn)句分析的問(wèn)答系統(tǒng)研究與架構(gòu)設(shè)計(jì)[D];中國(guó)農(nóng)業(yè)科學(xué)院;2013年
6 許鵬飛;圖像結(jié)構(gòu)化特征表達(dá)方法研究[D];哈爾濱工業(yè)大學(xué);2013年
7 邢星;社交網(wǎng)絡(luò)個(gè)性化推薦方法研究[D];大連海事大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 唐中林;基于本體的概念相似度計(jì)算方法的研究[D];武漢理工大學(xué);2013年
2 陳欣;一種基于多屬性本體的概念相似度計(jì)算方法的研究[D];東北師范大學(xué);2010年
3 俞云飛;多特征融合的電影相似度計(jì)算方法研究[D];華東師范大學(xué);2012年
4 朱坤紅;基于VSM模型和特征選擇算法的中文文本自動(dòng)分類(lèi)研究[D];江西師范大學(xué);2011年
5 周帆;基于VSM的中文網(wǎng)頁(yè)分類(lèi)特征選擇技術(shù)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2012年
6 井志強(qiáng);基于擴(kuò)展的VSM中文文本分類(lèi)方法[D];哈爾濱工程大學(xué);2010年
7 王安;基于VSM擴(kuò)展算法和經(jīng)典聚類(lèi)算法的Web挖掘研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2013年
8 汪前秀;基于改進(jìn)的VSM的不良文本過(guò)濾模型研究[D];東北財(cái)經(jīng)大學(xué);2010年
9 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年
10 王茹;交通術(shù)語(yǔ)與標(biāo)準(zhǔn)規(guī)范的符合性檢測(cè)技術(shù)研究[D];長(zhǎng)安大學(xué);2011年
,本文編號(hào):679582
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/679582.html