兩種面向推薦系統(tǒng)的數(shù)據(jù)壓縮方法
本文關(guān)鍵詞:兩種面向推薦系統(tǒng)的數(shù)據(jù)壓縮方法
更多相關(guān)文章: 分段聚類壓縮 哈希值編碼壓縮 字典壓縮 訓(xùn)練數(shù)據(jù) Gzip Snappy
【摘要】:今日頭條的服務(wù)器每天都會產(chǎn)生規(guī)模龐大的訓(xùn)練數(shù)據(jù),為方便進(jìn)行訓(xùn)練,這些數(shù)據(jù)都具有特定的格式和分布特征。使用不同類型的通用壓縮算法(字典類型及非字典類型)進(jìn)行測試,發(fā)現(xiàn)單獨(dú)任何一種算法都無法在滿足業(yè)務(wù)需求(速率需求和CPU占比等)的同時獲得較為可觀的壓縮比。針對今日頭條的訓(xùn)練數(shù)據(jù),提出了分段聚類壓縮和Hash recoding壓縮兩種策略。實(shí)驗(yàn)結(jié)果表明,分段聚類壓縮方式在更好地保證了壓縮率的同時提高了壓縮速率的目的;Hash recoding壓縮方式則更好地達(dá)到了以少量壓縮速率的損失換取更可觀的壓縮率的目的。分段聚類方式搭配Gzip壓縮算法的組合能使壓縮速率提高300%以上;Hash recoding方式匹配Snappy壓縮算法能使壓縮率縮小50%以上。根據(jù)實(shí)際需求,不論選擇哪種策略,對于降低今日頭條的運(yùn)營成本,提升業(yè)務(wù)處理的效率,提供更好的用戶體驗(yàn),都有一定意義。
【作者單位】: 南開大學(xué)計(jì)算機(jī)與控制工程學(xué)院;北京字節(jié)跳動科技有限公司;
【關(guān)鍵詞】: 分段聚類壓縮 哈希值編碼壓縮 字典壓縮 訓(xùn)練數(shù)據(jù) Gzip Snappy
【分類號】:TP391.1
【正文快照】: 1引言從20世紀(jì)70年代開始,文本數(shù)據(jù)壓縮技術(shù)在計(jì)算機(jī)領(lǐng)域占據(jù)重要位置,到目前,各種壓縮技術(shù)日趨成熟,人們已經(jīng)將視野從只針對通用壓縮技術(shù)拓展到針對特定文本數(shù)據(jù)的專用壓縮技術(shù)上來。已經(jīng)有一些文獻(xiàn)介紹了相關(guān)研究。Bergman等人[1]提出了針對Yahoo郵件信源的特定壓縮方法,Tre
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 巫文佳;李云鵬;閻鉦;趙紅;;網(wǎng)球基礎(chǔ)訓(xùn)練數(shù)據(jù)的粒計(jì)算方法研究[J];長春師范學(xué)院學(xué)報(bào);2013年06期
2 鄭志洵;楊建剛;;大規(guī)模訓(xùn)練數(shù)據(jù)的支持向量機(jī)學(xué)習(xí)新方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年13期
3 王曉;劉小芳;;基于NSVM的核空間訓(xùn)練數(shù)據(jù)減少方法[J];電子科技大學(xué)學(xué)報(bào);2013年04期
4 張曉艷;王挺;梁曉波;;LDA模型在話題追蹤中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2011年S1期
5 紀(jì)愛兵;邱紅潔;谷銀山;;基于模糊訓(xùn)練數(shù)據(jù)的支持向量機(jī)與模糊線性回歸[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期
6 徐寧;楊震;;一種稀少訓(xùn)練數(shù)據(jù)條件下的語音轉(zhuǎn)換算法[J];南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
7 杜俊衛(wèi);李愛軍;;一種基于聚類的文本遷移學(xué)習(xí)算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年12期
8 賴珉;陳一寧;初敏;胡訪宇;;訓(xùn)練數(shù)據(jù)有限的英文語音重音標(biāo)注研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年33期
9 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 郭進(jìn);;訓(xùn)練數(shù)據(jù)量不足怎么辦[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年
2 鐘亞平;胡衛(wèi)紅;胡文臣;張軍;張蕾;于飛;孫新昱;吳慶建;馬飛;;基于多通道用戶界面的舉重訓(xùn)練數(shù)據(jù)管理與測評系統(tǒng)研究[A];第八屆全國體育科學(xué)大會論文摘要匯編(一)[C];2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 王夢陽;基于用戶分析的個性化微博推薦技術(shù)研究[D];蘭州交通大學(xué);2015年
2 張嚕;基于異構(gòu)訓(xùn)練數(shù)據(jù)的排序?qū)W習(xí)算法研究[D];西北農(nóng)林科技大學(xué);2016年
3 黃閩樟;基于監(jiān)督聚類的專利訓(xùn)練數(shù)據(jù)修剪研究[D];上海交通大學(xué);2010年
4 戴文淵;基于實(shí)例和特征的遷移學(xué)習(xí)算法研究[D];上海交通大學(xué);2009年
5 周科;Tie關(guān)系、遷移學(xué)習(xí)與偽反饋在排序?qū)W習(xí)中的應(yīng)用[D];上海交通大學(xué);2010年
6 胡虎躍;海量訓(xùn)練數(shù)據(jù)如何影響人臉檢測器性能:實(shí)驗(yàn)研究[D];南京航空航天大學(xué);2010年
,本文編號:1079535
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1079535.html