Web旅游信息集成中的信息融合研究
發(fā)布時(shí)間:2022-12-25 16:31
自從數(shù)字化信息時(shí)代的到來(lái),我國(guó)傳統(tǒng)旅游業(yè)的發(fā)展緊跟時(shí)代的步伐,各大旅游網(wǎng)站在Web上如雨后春筍般不斷涌現(xiàn)。然而,正是如此多的網(wǎng)站,導(dǎo)致眾說(shuō)紛紜,極易出現(xiàn)數(shù)據(jù)不一致現(xiàn)象;并且,用戶(hù)的需求多種多樣,而一個(gè)網(wǎng)站的數(shù)據(jù)量往往有限,致使需求得不到滿(mǎn)足。因此,為了滿(mǎn)足廣大用戶(hù)需求,向用戶(hù)提供一個(gè)可以全面展現(xiàn)旅游景點(diǎn)信息的查詢(xún)平臺(tái),并且可以應(yīng)用于現(xiàn)有旅游網(wǎng)站或者旅游信息終端機(jī)等領(lǐng)域,本文對(duì)Web上已有的旅游信息進(jìn)行集成,旨在構(gòu)建更全面的旅游信息集成系統(tǒng)。 首先,本文利用爬蟲(chóng)工具從百度百科、中國(guó)旅游網(wǎng)、欣欣網(wǎng)、驢媽媽網(wǎng)、驢評(píng)網(wǎng)抓取各種文本信息,并完成去除文本中的標(biāo)簽、網(wǎng)絡(luò)格式符等數(shù)據(jù)清洗工作,以及分詞、詞性標(biāo)注、字段抽取等預(yù)處理工作,構(gòu)建數(shù)據(jù)集;其次,對(duì)從百度百科中采集的文本進(jìn)行分類(lèi)處理,區(qū)分出景點(diǎn)及其相關(guān)文本;再次,識(shí)別景點(diǎn)數(shù)據(jù)間的不一致現(xiàn)象,應(yīng)用實(shí)體識(shí)別技術(shù)解決現(xiàn)存的同名不同景、、同景不同名問(wèn)題,使得景點(diǎn)數(shù)據(jù)更加完備與統(tǒng)一;最后,由于存在多個(gè)文本描述同一景點(diǎn),并且這些文本內(nèi)容又時(shí)有交疊,為了在用戶(hù)眼前呈現(xiàn)一個(gè)完整、可讀的文本,本文在文本相似性度量的基礎(chǔ)上,刪除相似文本片段,并將不相似文本進(jìn)行...
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景和意義
1.2 旅游網(wǎng)站現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
1.4 論文的結(jié)構(gòu)安排
2 相關(guān)技術(shù)簡(jiǎn)介
2.1 文本分類(lèi)
2.2 實(shí)體識(shí)別
2.3 文本相似性度量
2.4 本章小結(jié)
3 基于特征詞權(quán)重的文本分類(lèi)
3.1 引言
3.2 相關(guān)工作
3.3 文本分類(lèi)算法
3.3.1 特征選擇算法簡(jiǎn)介
3.3.2 特征詞類(lèi)相關(guān)性計(jì)算
3.3.3 文本類(lèi)相關(guān)性計(jì)算
3.4 實(shí)驗(yàn)評(píng)測(cè)
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)結(jié)果及評(píng)測(cè)
3.5 本章小結(jié)
4 基于屬性匹配的相同景點(diǎn)識(shí)別
4.1 引言
4.2 實(shí)體識(shí)別研究現(xiàn)狀
4.3 景點(diǎn)實(shí)體識(shí)別
4.3.1 實(shí)體屬性提取
4.3.2 實(shí)現(xiàn)思路及框架
4.3.3 基于屬性對(duì)的景點(diǎn)識(shí)別實(shí)現(xiàn)
4.3.4 交叉驗(yàn)證
4.3.5 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
5 基于內(nèi)容相似性的景點(diǎn)介紹文本融合
5.1 引言
5.2 研究現(xiàn)狀
5.3 文本融合方法
5.3.1 總體思路及框架
5.3.2 相似性度量方法選取
5.3.3 閾值確定及實(shí)驗(yàn)結(jié)果
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
作者在攻讀碩士期間發(fā)表的論文
作者在攻讀碩士期間參與的課題
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于語(yǔ)義信息的中文短信文本相似度研究[J]. 劉金嶺,宋連友,范玉虹. 計(jì)算機(jī)工程. 2012(13)
[2]基于規(guī)則和統(tǒng)計(jì)相結(jié)合的中文命名實(shí)體識(shí)別研究[J]. 潘正高. 情報(bào)科學(xué). 2012(05)
[3]簡(jiǎn)約語(yǔ)法規(guī)則和最大熵模型相結(jié)合的混合實(shí)體識(shí)別[J]. 陸銘,康雨潔,俞能海. 小型微型計(jì)算機(jī)系統(tǒng). 2012(03)
[4]一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J]. 李連,朱愛(ài)紅,蘇濤. 計(jì)算機(jī)應(yīng)用與軟件. 2012(02)
[5]基于非線性流形學(xué)習(xí)和支持向量機(jī)的文本分類(lèi)算法[J]. 任劍鋒,梁雪,李淑紅. 計(jì)算機(jī)科學(xué). 2012(01)
[6]文本內(nèi)容新穎性探測(cè)研究綜述[J]. 邢美鳳,過(guò)仕明. 情報(bào)科學(xué). 2011(07)
[7]文本相似性度量中參數(shù)相關(guān)性與優(yōu)化配置研究[J]. 張祖平,徐昕,龍軍,袁鑫攀. 小型微型計(jì)算機(jī)系統(tǒng). 2011(05)
[8]基于局部詞頻指紋的論文抄襲檢測(cè)算法[J]. 秦玉平,冷強(qiáng)奎,王秀坤,王春立. 計(jì)算機(jī)工程. 2011(06)
[9]TrigSigs:一種有效的非結(jié)構(gòu)化記錄關(guān)聯(lián)合并算法[J]. 吳羽,盛振華,壽黎但,陳剛. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2010(12)
[10]大數(shù)據(jù)量的高效重復(fù)記錄檢測(cè)方法[J]. 龐雄文,姚占林,李擁軍. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(02)
本文編號(hào):3726963
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景和意義
1.2 旅游網(wǎng)站現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
1.4 論文的結(jié)構(gòu)安排
2 相關(guān)技術(shù)簡(jiǎn)介
2.1 文本分類(lèi)
2.2 實(shí)體識(shí)別
2.3 文本相似性度量
2.4 本章小結(jié)
3 基于特征詞權(quán)重的文本分類(lèi)
3.1 引言
3.2 相關(guān)工作
3.3 文本分類(lèi)算法
3.3.1 特征選擇算法簡(jiǎn)介
3.3.2 特征詞類(lèi)相關(guān)性計(jì)算
3.3.3 文本類(lèi)相關(guān)性計(jì)算
3.4 實(shí)驗(yàn)評(píng)測(cè)
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)結(jié)果及評(píng)測(cè)
3.5 本章小結(jié)
4 基于屬性匹配的相同景點(diǎn)識(shí)別
4.1 引言
4.2 實(shí)體識(shí)別研究現(xiàn)狀
4.3 景點(diǎn)實(shí)體識(shí)別
4.3.1 實(shí)體屬性提取
4.3.2 實(shí)現(xiàn)思路及框架
4.3.3 基于屬性對(duì)的景點(diǎn)識(shí)別實(shí)現(xiàn)
4.3.4 交叉驗(yàn)證
4.3.5 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
5 基于內(nèi)容相似性的景點(diǎn)介紹文本融合
5.1 引言
5.2 研究現(xiàn)狀
5.3 文本融合方法
5.3.1 總體思路及框架
5.3.2 相似性度量方法選取
5.3.3 閾值確定及實(shí)驗(yàn)結(jié)果
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
作者在攻讀碩士期間發(fā)表的論文
作者在攻讀碩士期間參與的課題
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于語(yǔ)義信息的中文短信文本相似度研究[J]. 劉金嶺,宋連友,范玉虹. 計(jì)算機(jī)工程. 2012(13)
[2]基于規(guī)則和統(tǒng)計(jì)相結(jié)合的中文命名實(shí)體識(shí)別研究[J]. 潘正高. 情報(bào)科學(xué). 2012(05)
[3]簡(jiǎn)約語(yǔ)法規(guī)則和最大熵模型相結(jié)合的混合實(shí)體識(shí)別[J]. 陸銘,康雨潔,俞能海. 小型微型計(jì)算機(jī)系統(tǒng). 2012(03)
[4]一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J]. 李連,朱愛(ài)紅,蘇濤. 計(jì)算機(jī)應(yīng)用與軟件. 2012(02)
[5]基于非線性流形學(xué)習(xí)和支持向量機(jī)的文本分類(lèi)算法[J]. 任劍鋒,梁雪,李淑紅. 計(jì)算機(jī)科學(xué). 2012(01)
[6]文本內(nèi)容新穎性探測(cè)研究綜述[J]. 邢美鳳,過(guò)仕明. 情報(bào)科學(xué). 2011(07)
[7]文本相似性度量中參數(shù)相關(guān)性與優(yōu)化配置研究[J]. 張祖平,徐昕,龍軍,袁鑫攀. 小型微型計(jì)算機(jī)系統(tǒng). 2011(05)
[8]基于局部詞頻指紋的論文抄襲檢測(cè)算法[J]. 秦玉平,冷強(qiáng)奎,王秀坤,王春立. 計(jì)算機(jī)工程. 2011(06)
[9]TrigSigs:一種有效的非結(jié)構(gòu)化記錄關(guān)聯(lián)合并算法[J]. 吳羽,盛振華,壽黎但,陳剛. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2010(12)
[10]大數(shù)據(jù)量的高效重復(fù)記錄檢測(cè)方法[J]. 龐雄文,姚占林,李擁軍. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(02)
本文編號(hào):3726963
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3726963.html
最近更新
教材專(zhuān)著