天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

空間文本數(shù)據(jù)的量質(zhì)融合與推送

發(fā)布時間:2019-01-25 10:39
【摘要】:隨著智能手機等移動設(shè)備的普及以及移動互聯(lián)網(wǎng)絡(luò)的快速發(fā)展,基于地理位置的服務得到了廣泛的關(guān)注與應用。這些服務產(chǎn)生了大量空間文本數(shù)據(jù),既包含空間地理位置,同時又具有相關(guān)的文本信息。能否更好地利用這些數(shù)據(jù)方便我們的日常生活,有兩個方面的因素尤其值得考慮:第一,數(shù)據(jù)質(zhì)量,高質(zhì)量的數(shù)據(jù)能夠提升用戶體驗;第二,用戶獲得信息的途徑,用戶需要高效便捷的獲得感興趣數(shù)據(jù)的方式。本文主要針對這兩方面展開研究:一方面對空間文本數(shù)據(jù)進行質(zhì)量優(yōu)化,包括提高數(shù)據(jù)準確性,降低數(shù)據(jù)冗余;另一方面研究如何應對不同用戶的需求,將空間文本數(shù)據(jù)信息高效地推送給用戶。本文的研究內(nèi)容與貢獻具體包括:(1)基于眾包的空間文本數(shù)據(jù)提純:為保證數(shù)據(jù)正確性,用眾包的方法幫助篩選數(shù)據(jù)中的正確關(guān)鍵詞。本文提出了基于眾包的任務執(zhí)行框架。一方面,將空間文本數(shù)據(jù)作為任務發(fā)布在眾包平臺上并收集工人答案。為能夠根據(jù)工人答案篩選正確關(guān)鍵詞,結(jié)合工人質(zhì)量等因素構(gòu)造了一個有效的推斷模型。另一方面,為進一步提高推斷準確率,研究了能夠最大化推斷準確率提升的眾包任務分配算法。(2)空間文本數(shù)據(jù)的top-k融合:為降低數(shù)據(jù)冗余,對數(shù)據(jù)進行top-k融合。傳統(tǒng)方法不考慮空間文本數(shù)據(jù)的結(jié)合,為解決該問題,本文提出了一種基于空間文本簽名的過濾驗證算法框架,通過簽名過濾不相關(guān)的數(shù)據(jù)對。接著發(fā)現(xiàn)簽名的訪問順序?qū)λ惴ㄐ视兄薮蟮挠绊?于是提出了一種最佳優(yōu)先算法,以簽名上界從大到小的順序逐一訪問簽名。這種方式能夠快速地找到top-k結(jié)果。此外論文優(yōu)化了空間文本簽名,提出了擴展的空間文本簽名進一步加強了算法的過濾能力。(3)空間文本數(shù)據(jù)的推送:為滿足用戶不同的推送需求,本文提出并研究了參數(shù)化的空間文本信息推送問題。為解決該問題,論文提出了一種空間前綴以及對應的過濾驗證算法。又結(jié)合經(jīng)典的空間層次索引結(jié)構(gòu)提出了區(qū)域前綴,區(qū)域前綴能有效減少前綴大小并支持區(qū)域過濾。在此基礎(chǔ)上結(jié)合多關(guān)鍵詞過濾技術(shù)提出了空間文本前綴,進一步提升了算法的過濾能力。
[Abstract]:With the popularity of mobile devices such as smart phones and the rapid development of mobile Internet, geographically based services have been widely concerned and applied. These services produce a large amount of spatial text data, which not only contain spatial location, but also have relevant text information. Whether we can make better use of these data to facilitate our daily life, there are two factors worth considering in particular: first, data quality, high quality data can improve the user experience; Second, the way users get information, users need efficient and convenient access to data of interest. This paper focuses on these two aspects: on the one hand, optimize the quality of spatial text data, including improving the accuracy of data, reducing data redundancy; On the other hand, how to deal with the needs of different users and efficiently push spatial text data to users. The contents and contributions of this paper are as follows: (1) Spatial text data purification based on crowdsourcing: in order to ensure the correctness of the data, crowdsourcing method is used to help filter the correct keywords in the data. This paper presents a task execution framework based on crowdsourcing. On the one hand, the spatial text data is published on the crowdsourcing platform as a task and the workers' answers are collected. In order to select the correct keywords according to the workers' answers and combine the factors such as workers' quality, an effective inference model is constructed. On the other hand, in order to further improve the accuracy of inference, the crowdsourcing task assignment algorithm which can maximize the accuracy of inference is studied. (2) top-k fusion of spatial text data: in order to reduce data redundancy, the data is fused by top-k. The traditional method does not consider the combination of spatial text data. In order to solve this problem, this paper proposes a filtering algorithm framework based on spatial text signature, which filters irrelevant data pairs by signature. Then it is found that the access order of the signature has a great influence on the efficiency of the algorithm, so an optimal priority algorithm is proposed to access the signature one by one with the upper bound from large to small. This way you can quickly find top-k results. In addition, the paper optimizes the spatial text signature, and proposes an extended spatial text signature to further enhance the filtering ability of the algorithm. (3) push the spatial text data: to meet the user's different push requirements, This paper presents and studies the parameterized spatial text information push problem. In order to solve this problem, a spatial prefix and a corresponding filtering algorithm are proposed. Based on the classical spatial hierarchical index structure, a region prefix is proposed, which can effectively reduce the prefix size and support region filtering. On this basis, the spatial text prefixes are proposed in combination with multi-keyword filtering technology, which further improves the filtering ability of the algorithm.
【學位授予單位】:清華大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 陳敏,湯曉安;在Microsoft Access中引入文本文件[J];微型電腦應用;1995年02期

2 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期

3 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期

4 趙鋼;;從復雜文本中導入數(shù)據(jù)的方法[J];中國審計;2007年18期

5 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期

6 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期

7 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應用;2009年03期

8 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期

9 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期

10 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術(shù)與發(fā)展;2013年10期

相關(guān)會議論文 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術(shù)年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學術(shù)會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年

相關(guān)重要報紙文章 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年

相關(guān)博士學位論文 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年

2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學技術(shù)大學;2016年

4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學;2016年

5 劉林;面向論壇文本的大學生情緒識別研究[D];華中師范大學;2016年

6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學;2015年

7 胡卉芪;空間文本數(shù)據(jù)的量質(zhì)融合與推送[D];清華大學;2016年

8 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學 ;2009年

9 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學;2010年

10 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學;2007年

相關(guān)碩士學位論文 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學;2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復旦大學;2014年

4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應用[D];華南理工大學;2015年

6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學;2015年

8 王s,

本文編號:2415054


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2415054.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶934a0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com