天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 信息管理論文 >

大數(shù)據(jù)工程師飛林沙的年終總結(jié)算法數(shù)據(jù)的思考

發(fā)布時(shí)間:2015-03-10 11:44

       

大數(shù)據(jù)工程師飛林沙的年終總結(jié)算法數(shù)據(jù)的思考


       從前東家離職已經(jīng)一個(gè)多月的時(shí)間了,在這一個(gè)月,前前后后也和幾家公司做了技術(shù)交流,自己也第一次靜下來這么久來思考總結(jié)。今年是我畢業(yè)的第五年,也正巧趕上年底,就把這些湊到一起寫個(gè)小總結(jié)吧,也沒有什么主題,沒有主次,純粹記錄,想到哪兒寫到哪兒。


       1. 推薦系統(tǒng)


       在最近的三四年時(shí)間里,我的主要工作就是搭建推薦系統(tǒng),這幾年來不說看了上千篇論文也有數(shù)百篇了,這種專注讓我自認(rèn)為在推薦系統(tǒng)領(lǐng)域至少處在一個(gè)業(yè)界相對領(lǐng)先的水準(zhǔn),但是也恰恰是這段經(jīng)歷讓我被打上了深深的標(biāo)簽:他是一個(gè)“推薦系統(tǒng)專家”。既然這樣,那我就先來說說推薦系統(tǒng)吧。


       推薦系統(tǒng)是一個(gè)太龐大的詞,我們不妨先退一步說推薦算法本身,其實(shí)推薦算法本身是一個(gè)綜合性的問題,他說淺他可以做的很淺,說深也可以把他做到很深。你可以簡單地用最基本的Content-based,再復(fù)雜點(diǎn)可以Collaborative Filtering,如果你想做的深入一些,基于SVD/LDA等的降維算法,基于SVD++等的評分預(yù)測算法,基于Learning To Rank的排序算法,甚至你再轉(zhuǎn)換問題,把推薦問題再轉(zhuǎn)換成分類問題,或者采用以上算法前先用各種聚類算法做數(shù)據(jù)的預(yù)處理,你可以折騰出很多很多的花樣。所以做推薦領(lǐng)域的工程師是個(gè)很“痛苦”的事兒,因?yàn)橹灰獧C(jī)器學(xué)習(xí)領(lǐng)域有任何的突破性進(jìn)展,你都需要去做跟蹤,NLP領(lǐng)域出了Word2Vec,出了GloVe,其他領(lǐng)域的算法工程師可以說我對NLP不感興趣,但是你必須跟蹤,因?yàn)樗梢暂o助你去做文本內(nèi)容類的推薦算法;Deep Learning可以讓圖像識(shí)別領(lǐng)域做更棒的特征工程,你也馬上要去跟蹤學(xué)習(xí),因?yàn)樵谧鰣D片推薦時(shí)終于有一種方式也許能解決元信息問題;RecSys2013的best paper通過調(diào)整節(jié)點(diǎn)順序從而優(yōu)化矩陣分塊策略,極大改善了矩陣分解算法的效率,你就要去跟蹤來更新自己的舊有離線算法;微軟亞研搞出了一個(gè)Light LDA允許在低網(wǎng)絡(luò)流量下去做LDA的多機(jī)并行,你就要興沖沖地跑過去讀他們啰啰嗦嗦的幾十頁的paper,因?yàn)榻K于不用忍受LDA低劣的性能了,而這些追蹤往往是無窮無盡的。但是如果你一旦停止了更新知識(shí)庫,,就會(huì)學(xué)術(shù)界遠(yuǎn)遠(yuǎn)甩在身后,做一個(gè)“協(xié)同過濾”工程師。


       但是算法的一切調(diào)整只有寄托于產(chǎn)品才能發(fā)揮出其最大的威力,但是如何根據(jù)產(chǎn)品去選擇和調(diào)整算法是我認(rèn)識(shí)大多數(shù)的算法工程師所非常薄弱的一點(diǎn)。舉個(gè)實(shí)際的例子,我們都知道在所有的比賽中,多種算法的混合是最重要的環(huán)節(jié),經(jīng)常就會(huì)有人問我,說哪種混合策略是最好的,但是其實(shí)這是嚴(yán)重依賴于產(chǎn)品本身的。例如Tinder,他們的產(chǎn)品形態(tài)是每次只出現(xiàn)一個(gè)人,讓你點(diǎn)擊喜歡還是不喜歡,那么這種情況你必須需要一個(gè)算法的分類器來為每個(gè)用戶選擇一個(gè)合適的推薦算法,并且根據(jù)用戶的反饋來實(shí)時(shí)調(diào)整分類器,因?yàn)槿绻脩暨B續(xù)Unlike了幾個(gè)用戶,他可能就流失掉了。但是對于LinkedIn的用戶推薦列表中,你很適合用若干算法混合的算法,因?yàn)檫@樣可以保證至少讓整個(gè)列表中至少有X個(gè)所感興趣的用戶,而往往同一個(gè)推薦算法的Items是趨同的。再對于展示在首頁的推薦入口區(qū)域,可以優(yōu)先選擇若干推薦算法的交集策略,這樣可以用少量的高質(zhì)量Item最大化的滿足用戶的心理底線,從而吸引用戶點(diǎn)擊。所以認(rèn)清產(chǎn)品的形態(tài)和交互形式,依據(jù)產(chǎn)品去訂制算法是成為優(yōu)秀算法工程師,而非算法研究員的重要一點(diǎn)。


       一個(gè)優(yōu)秀的推薦算法,一個(gè)優(yōu)秀的推薦系統(tǒng)的確可以為企業(yè)創(chuàng)造很多價(jià)值,曾經(jīng)和某知名電商網(wǎng)站的數(shù)據(jù)總監(jiān)交流,他們的推薦系統(tǒng)實(shí)實(shí)在在地把銷售額增加了15%,但是過于神話迷戀推薦算法和過于看扁推薦算法都是一種偏激的行為。作為推薦算法工程師更應(yīng)該清楚推薦算法本身的瓶頸,或者可以估計(jì)到該算法為企業(yè)帶來的實(shí)際價(jià)值,從而來決定是否應(yīng)該繼續(xù)優(yōu)化該推薦算法。何時(shí)始,何時(shí)止,是任何一個(gè)推薦算法工程師都必須要面對和決定的問題,但是聊這個(gè)話題必須要牽扯到推薦系統(tǒng)的兩個(gè)重要部分:產(chǎn)品和數(shù)據(jù)。


       一時(shí)想不起更好的例子來了,就說淘寶吧,以淘寶的搜索推薦為例。首先,我相信淘寶從整體來講是不需要推薦算法的,因?yàn)樘詫毷且员钌唐窞橹鞔虻模瑯?gòu)成了淘寶盈利的大部分,而我相信以淘寶的KPI和運(yùn)營文化,必然會(huì)以CTR為主要的KPI,所以在這個(gè)程度上,淘寶的運(yùn)營必然不停地推薦爆款商品而不可能冒著風(fēng)險(xiǎn)讓這部分來做個(gè)性化。這就是產(chǎn)品不適合做推薦的典型例子。 另一方面,由于爆款商品的推薦所以讓長尾的產(chǎn)品沒辦法積累到足夠的點(diǎn)擊數(shù)據(jù),這使得數(shù)據(jù)的缺失和偏移變得異常嚴(yán)重,推薦算法更是無從發(fā)揮威力。(沒在淘寶工作過,所以純屬局外人猜測,另外我相信電商網(wǎng)站大多如此)


       那么你從這一個(gè)例子就否定掉推薦系統(tǒng)的作用?這個(gè)我覺得有一個(gè)例子非常容易反應(yīng)情況:現(xiàn)在地上每隔1米就有100塊錢,在遙遠(yuǎn)的10000米外可能會(huì)有500W,你到底是選擇一直低頭撿100塊錢,還是跑向遙遠(yuǎn)的10000米去找那500W的問題。

       2. 深度學(xué)習(xí)


       深度學(xué)習(xí)近兩年可謂是機(jī)器學(xué)習(xí)領(lǐng)域最熱的詞了,大有飛入尋常百姓家的意思,現(xiàn)在你去參加一個(gè)數(shù)據(jù)的活動(dòng),你要是說你不會(huì)深度學(xué)習(xí),估計(jì)會(huì)被當(dāng)做神經(jīng)病一樣看待。但是實(shí)際上,深度學(xué)習(xí)到底有多大的價(jià)值呢?這是需要理性看待的問題。


       我們先說什么是深度學(xué)習(xí)。其實(shí)從整體上來講,Deep Learning就是曾經(jīng)的多層神經(jīng)網(wǎng)絡(luò),整體的思想認(rèn)為每一個(gè)層次都可以被作為一個(gè)獨(dú)立的特征抽象存在,所以最廣泛地被用作特征工程上,而GPU的存在更是解決了幾十年前的ANN的訓(xùn)練效率問題。那么簡單來說,Deep Learning可以對抽取出的特征進(jìn)行非線性組合形成更有效的特征表示。確實(shí),從這一點(diǎn)來說,Deep Learning確實(shí)從理論上很好的解決了機(jī)器學(xué)習(xí)領(lǐng)域很麻煩的“特征抽取”問題,但是在實(shí)際的工業(yè)界,“特征工程”到底有多復(fù)雜?我們看看Deep Learning表現(xiàn)最好的IR領(lǐng)域吧,曾經(jīng)是怎么做的呢?據(jù)了解微軟有個(gè)小Team專門做的事兒就是從圖片上找各種各樣的特征,因?yàn)樗惴ū旧砥鋵?shí)已經(jīng)被鎖死在Random Forest上了,往往特征的微調(diào)就能帶來算法效果的極大提升,那么Deep Learning的出現(xiàn)當(dāng)然可以很好地取代這項(xiàng)工作(實(shí)際效果確實(shí)無法得知),那么總結(jié)下Deep Learning的好處:從海量的特征中通過特征工程抽取出有效的特征組合。


       但是刨除掉語音和圖像領(lǐng)域,轉(zhuǎn)向離我們更近的工作,無論是推薦系統(tǒng)還是數(shù)據(jù)挖掘,特征是怎么出來的呢?對于一個(gè)電影,對于一個(gè)用戶,滿打滿算一共就那么多特征,這個(gè)時(shí)候Deep Learning根本無從發(fā)揮。那么再退一步說,就算把User對于Item的標(biāo)定作為Item的特征,由于在實(shí)際中大部分的缺失值存在,那么如果你希望用Deep Learning來對該矩陣做特征重組,第一件事情就是如何填充缺失值,而這恰恰是比特征工程更困難的事情。


       至少從我目前的眼界來看,我還沒有找出幾家真正需要用Deep Learning來為企業(yè)創(chuàng)造價(jià)值的公司。


       3. 大數(shù)據(jù)的反思


       每一家公司都在說自己是大數(shù)據(jù),要利用大數(shù)據(jù),更是出現(xiàn)了“大數(shù)據(jù)工程師”這個(gè)職位,但是在我看來,對于算法工程師而言,該做的不是迷信大數(shù)據(jù),而是把大數(shù)據(jù)給提取成小數(shù)據(jù),利用小數(shù)據(jù)為企業(yè)創(chuàng)造價(jià)值。大數(shù)據(jù)標(biāo)志著需要更大規(guī)模的集群,更大規(guī)模的計(jì)算能力,更長的生產(chǎn)周期,而這些都是企業(yè)的“成本”,對于大部分公司,基本面臨的都是兩個(gè)問題,如何拿到數(shù)據(jù)和如何利用數(shù)據(jù),而不是如何“最好”地利用數(shù)據(jù)。


       大數(shù)據(jù)其實(shí)意味著大樣本量,那么大樣本量帶來的是高置信度以及廣覆蓋度。例如從FM來說,大數(shù)據(jù)量意味著更全面地了解一個(gè)用戶的聽歌品位,從金融互聯(lián)網(wǎng)的信用風(fēng)險(xiǎn)評估來說,大數(shù)據(jù)量意味著不僅僅從消費(fèi)記錄而包含了社交網(wǎng)絡(luò)信息去對用戶做更全面的評價(jià),從用戶畫像來說意味著建立全面的興趣圖譜和知識(shí)圖譜,這些都是大數(shù)據(jù)帶給我們的實(shí)際意義。說得學(xué)術(shù)一些,我們不妨認(rèn)為大數(shù)據(jù)是頻率學(xué)派對于貝葉斯學(xué)派一次強(qiáng)有力的逆襲。那么既然說到這個(gè)份上了,我們不妨思考一下,我們是不是有希望在回歸貝葉斯學(xué)派,利用先驗(yàn)信息+小數(shù)據(jù)完成對大數(shù)據(jù)的反擊呢?


       另外,既然我們已經(jīng)說到了大數(shù)據(jù)的廣覆蓋度,就針對這個(gè)再額外說一下吧。誠然,大數(shù)據(jù)能夠全面地覆蓋到所有信息,但是從實(shí)際的工業(yè)界來看,考慮到實(shí)際的計(jì)算能力以及效果,大多數(shù)公司都會(huì)對大數(shù)據(jù)做“去噪”,那么在去噪的過程中去除的不僅僅是噪音,也包括“異常點(diǎn)”,而這些“異常點(diǎn)”,恰恰把大數(shù)據(jù)的廣覆蓋度給降低了,于是利用大數(shù)據(jù)反而比小數(shù)據(jù)更容易產(chǎn)生趨同的現(xiàn)象。尤其對于推薦系統(tǒng)來說,這些“異常點(diǎn)”的觀察其實(shí)才是“個(gè)性化”的極致。


       4. 技術(shù)選型


       既然都說到這里了,就順著說到技術(shù)選型。之前和某公司聊過,他們說,你對技術(shù)選型怎么看,這里我就把當(dāng)時(shí)說過的話重新整理一下吧。我認(rèn)為初創(chuàng)公司技術(shù)選型分做兩個(gè)層面看:


       A. 對于大部分互聯(lián)網(wǎng)初創(chuàng)公司,一般是根據(jù)初創(chuàng)成員擅長的領(lǐng)域去選擇語言,選擇無外乎兩種,要么選擇開發(fā)效率高并且入門簡單的語言框架,例如Python , 例如Rails。要么選擇市場覆蓋量大,容易招人,并且有著非常成熟解決方案的語言,例如Java。


       B. 對于小部分用Clojure的初創(chuàng)公司(我真心不愿意去黑),必須滿足一點(diǎn),公司就是小團(tuán)隊(duì)作戰(zhàn),不需要擴(kuò)張,用這種語言的好處就是連這種語言都會(huì)或者都愿意去學(xué),會(huì)省掉很多面試的成本,但是招人的成本也增加了不少。(我真的是勉強(qiáng)為這種公司找個(gè)理由)


       對于成熟公司的技術(shù)轉(zhuǎn)型,也是分成幾點(diǎn)來看:


       A. 性能問題:說實(shí)話我極少遇到一個(gè)公司語言成為了性能瓶頸,我目前好像知道的也就是Twitter把一些核心架構(gòu)從Rails變成了Java,實(shí)際原因是不是因?yàn)樾阅芪乙膊恢馈5瞧鋵?shí)一定避免說上來性能問題先怪語言,據(jù)說騰訊某些工程師就特別愿意干這樣的事兒,把C++當(dāng)圣經(jīng),鄙視一切其他語言……但是如果真的是撐不住了,那么就換吧。


       B. 社區(qū)問題 & 開發(fā)效率問題 & 招人成本問題:在10年左右的時(shí)候,大批的公司把.NET平臺(tái)換成Java平臺(tái),最核心的原因除了Windows的價(jià)格問題外,還包括遇到了問題解決不了,因?yàn)榇蠊径际怯肑ava/C++的,所以至少出了性能問題我還能去定點(diǎn)挖人,用.NET出了問題都不知道去哪兒找人。 另外就是比如C++開發(fā)起來確實(shí)慢,而且非常容易系統(tǒng)崩潰,這個(gè)時(shí)候逐漸地去做技術(shù)轉(zhuǎn)型到其他語言也是有道理的,只是要掌握節(jié)奏的問題。最后就是那些剛開始作死用一些小眾語言(比如Clojure)的公司,隨著大規(guī)模招人就需要做技術(shù)轉(zhuǎn)型了。在這一點(diǎn)上,最主要的就是避免為了轉(zhuǎn)型,為了秀技術(shù),為了跟風(fēng)而轉(zhuǎn)型,我相信新技術(shù)也一定有新技術(shù)的好,一定解決了某一方面的問題,但是轉(zhuǎn)型有著轉(zhuǎn)型的代價(jià),人力成本,系統(tǒng)穩(wěn)定性,量產(chǎn)招人的困難程度,這些都可以換算成“成本”,那么在做這種轉(zhuǎn)型時(shí)一定要把這筆賬算清,再?zèng)Q定轉(zhuǎn)還是不轉(zhuǎn)。


       C. 管理問題。一個(gè)網(wǎng)站,一個(gè)服務(wù),我們不分MVC,純粹去用PHP往模板里面寫代碼,其實(shí)也能做出來,開發(fā)成本稍微高點(diǎn)唄,但是代碼容易看懂啊。這個(gè)例子有些極端,我想表達(dá)的是,用再爛的技術(shù)都能做出一個(gè)可用的東西。但是問題是,在現(xiàn)在的時(shí)代,程序員真他媽難找啊!當(dāng)薪資幾乎相同的情況下,也只能靠技術(shù)來吸引人和留人。也就是說至少要讓員工覺得他們能學(xué)到新東西,外人來面試的時(shí)候我也要有能吹牛逼的資本,這時(shí)怎么辦?我一般會(huì)選擇在一些邊緣系統(tǒng)上去做技術(shù)嘗試,例如我會(huì)傾向于用其他語言(例如Go, Swift)搭建外圍系統(tǒng)或?qū)嶒?yàn)室項(xiàng)目。這也是我對某些流失情況嚴(yán)重的團(tuán)隊(duì)最大的建議。


       5. 算法,產(chǎn)品和企業(yè)價(jià)值


       這一點(diǎn)又回到了曾經(jīng)老生常談的問題,算法工程師對于企業(yè)的價(jià)值是什么,為了討論的方便,我們還是把算法工程師換成數(shù)據(jù)工程師吧。


       A. 任何系統(tǒng)不要脫離產(chǎn)品而存在。先吐個(gè)槽,之前在某個(gè)公司面試,某個(gè)公司上來就問我,你覺得我們的用戶畫像應(yīng)該怎么做?這個(gè)問題是非常業(yè)余的(這個(gè)問題就像是有人問我我們網(wǎng)站有性能問題,你說咋辦;好吧,這個(gè)問題也是這個(gè)公司問我的),任何數(shù)據(jù)系統(tǒng)都是強(qiáng)產(chǎn)品關(guān)聯(lián)的,這也是太多公司去做數(shù)據(jù)系統(tǒng)的誤區(qū),在這里我還是用戶畫像為例。 用戶畫像到底是什么,其實(shí)說簡單了他就是一個(gè)用戶寬表,如果偏要我說需要注意的,就是在選擇數(shù)據(jù)庫的時(shí)候一定要選擇列容易擴(kuò)充的數(shù)據(jù)庫。如果要說具體需要哪些字段,我還真的沒法說,我只能把他歸類成用戶元屬性數(shù)據(jù),行為統(tǒng)計(jì)數(shù)據(jù),潛在挖掘數(shù)據(jù),至此而已。因?yàn)閿?shù)據(jù)系統(tǒng)從來不是一個(gè)事先規(guī)劃好的系統(tǒng),而是需要隨著業(yè)務(wù)增長來逐漸填充的系統(tǒng),這也是數(shù)據(jù)平臺(tái)難做的原因。 所以我真心無法理解有一些不太大的公司成立了一個(gè)部門,這個(gè)部門專門做用戶畫像(例如PPTV)。


       B. 數(shù)據(jù)工程師不僅僅是處理數(shù)據(jù)而是理解數(shù)據(jù)。我遇到的數(shù)據(jù)工程師大抵分成兩類,一類是數(shù)據(jù)開發(fā)工程師,例如Hadoop工程師,數(shù)據(jù)倉庫工程師;一類是學(xué)術(shù)化的工程師,深鉆模型,這種工程師其實(shí)還是更適合研究院;當(dāng)然,這兩種工程師都各有優(yōu)缺點(diǎn),但是我更覺得對于大部分企業(yè)來說更需要一個(gè)理解數(shù)據(jù)而非處理數(shù)據(jù)的工程師,核心價(jià)值更應(yīng)該在于深入去理解產(chǎn)品業(yè)務(wù),數(shù)據(jù)處理,數(shù)據(jù)建模,做數(shù)據(jù)分析和挖掘,接下來對于產(chǎn)品的發(fā)展做數(shù)據(jù)化的驅(qū)動(dòng),并且知道何時(shí)應(yīng)該繼續(xù)對模型進(jìn)行優(yōu)化,何時(shí)應(yīng)該適可而止。


       C. 沿著上一點(diǎn)繼續(xù)說,Growth Hacker & Data Scientist。一個(gè)優(yōu)秀的算法/數(shù)據(jù)工程師應(yīng)該具備Growth Hacker 和 Data Scientist的能力,其實(shí)這兩點(diǎn)也恰恰標(biāo)志著不僅僅是數(shù)據(jù),而是一個(gè)產(chǎn)品的最重要兩點(diǎn):增長和留存。作為Growth Hacker,你應(yīng)該為企業(yè)找到潛在的機(jī)會(huì)點(diǎn),幫助產(chǎn)品增長;另一方面,你也應(yīng)該作為Data Scientist,發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)的問題,幫助產(chǎn)品優(yōu)化體驗(yàn),提升留存,而推薦系統(tǒng)往往是屬于這一部分的子集。


       D. 避免成為成本部門。這是我后期去帶一個(gè)事業(yè)部的時(shí)候才有著的最深體會(huì)。對于任何一個(gè)部門來講,最痛苦的莫過于自己成為了公司的成本部門,所以為什么小公司的實(shí)驗(yàn)室部門根本搞不下去,所以為什么數(shù)據(jù)部門都希望自己有個(gè)數(shù)據(jù)產(chǎn)品,所以為什么技術(shù)部門都不希望自己僅僅是一個(gè)支撐部門。那么無論是對于技術(shù)團(tuán)隊(duì),還是數(shù)據(jù)團(tuán)隊(duì),作為部門的負(fù)責(zé)人,永遠(yuǎn)需要想的都應(yīng)該是,我們?yōu)槠髽I(yè)到底創(chuàng)造了什么實(shí)際的價(jià)值,而這個(gè)價(jià)值是不是當(dāng)前公司所最緊缺的。例如公司現(xiàn)在最缺的是增長,你整個(gè)部門偏偏要拼死命做留存;公司最需要的是產(chǎn)品快速迭代,你偏偏要去搞底層性能優(yōu)化。這些很勢利,卻是決定著部門榮辱興衰的最重要一點(diǎn),無論是什么部門,去幫忙解決公司最痛的那個(gè)點(diǎn)才是最重要的。


       6. 數(shù)據(jù)和直覺


       有一次我和別人聊了很多,他說所以做產(chǎn)品經(jīng)理必須要數(shù)據(jù)決策對不對?我覺得這個(gè)事兒也對也不對。


       數(shù)據(jù)驅(qū)動(dòng)是什么?數(shù)據(jù)驅(qū)動(dòng)是從已有的數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律對產(chǎn)品進(jìn)行優(yōu)化,但是數(shù)據(jù)做不到的是從未知中挖掘機(jī)會(huì)點(diǎn),而這往往是一個(gè)優(yōu)秀產(chǎn)品經(jīng)理的直覺。我經(jīng)常和人舉的一個(gè)例子是,要是數(shù)據(jù)驅(qū)動(dòng),也許今天應(yīng)該也出現(xiàn)不了微信。很多時(shí)候優(yōu)秀的創(chuàng)意就是來源于一個(gè)直覺,而不是循規(guī)蹈矩的分析推導(dǎo),因?yàn)檫@樣往往會(huì)陷入我在上文提到的大數(shù)據(jù)的窘境。所以不要無視數(shù)據(jù),更不要神化數(shù)據(jù),該相信直覺的時(shí)候還是相信直覺。其實(shí)有時(shí)候做算法也是一樣,你不可能把上千種算法都A-B Test一次,有時(shí)候別人問我為什么,我能說的也就是直覺,作為算法工程師的直覺,“用另外一種算法效果不會(huì)更好的”。


       更何況產(chǎn)品經(jīng)理的溝通,協(xié)調(diào),跟蹤能力同樣是不可或缺的一部分,也是大部分工程師所缺乏的自身特質(zhì)。


       7. 數(shù)據(jù)工程師的窘境


       這一點(diǎn)我不知道該從何寫起,其實(shí)算是數(shù)據(jù)工程師職業(yè)生涯上面臨的最大尷尬吧。


       現(xiàn)在所有公司都在談數(shù)據(jù)驅(qū)動(dòng),可是說實(shí)話我目前還真的沒看到有真正數(shù)據(jù)驅(qū)動(dòng)的公司,為什么呢?很關(guān)鍵的就是,說驅(qū)動(dòng)你得驅(qū)動(dòng)得起來才行啊。對于大部分公司,數(shù)據(jù)部門只是作為一個(gè)獨(dú)立的支撐部門存在,我讓你干嘛你就干嘛就行了,今天幫我跑個(gè)數(shù)據(jù),明天幫我上個(gè)模型,產(chǎn)品是我的,你別和我指手畫腳。再一些公司呢,數(shù)據(jù)部門,不對,不能叫做部門,“數(shù)據(jù)組”只是產(chǎn)品的一個(gè)附屬部門,部門的老大都是產(chǎn)品總監(jiān),你就更沒資本去驅(qū)動(dòng)你的Boss了。 其實(shí)歸根結(jié)底,還是中國人不相信這些東西,老板自己都不相信或者不重視,各位想一下大部分中小公司對于CTO和技術(shù)總監(jiān)的要求就知道了:幫我把性能問題給解決了,而這些卻恰恰應(yīng)該是一個(gè)系統(tǒng)架構(gòu)師的定位。這里必須要再丟一下caoz的文章:《CTO這點(diǎn)事 - caoz的夢囈》!


       那么數(shù)據(jù)工程師發(fā)展到最后職業(yè)生涯到底進(jìn)展到哪兒呢?我也不知道,也許我們都只能期望國內(nèi)數(shù)據(jù)行業(yè)的進(jìn)一步成熟和被認(rèn)可了。而這些就是我以前老大講的,在數(shù)據(jù)的工程領(lǐng)域,我們都是先行者,沒有人可以告訴我們怎么走,這些都是需要我們自己去探索和闖蕩的路。


       8. 企業(yè)價(jià)值 & 市值


       我一直有個(gè)理論,一個(gè)大的市場,一定能夠容納下兩家上市公司。例如我們認(rèn)為分類信息是個(gè)大領(lǐng)域,那么58上市了,我相信趕集一定能上,而且如果“58” 30億的市值,我相信趕集應(yīng)該會(huì)在20億上下浮動(dòng)。這個(gè)其實(shí)極大地關(guān)系到了如何選擇一個(gè)公司。


       其實(shí)現(xiàn)在就這么多行業(yè)了,社交網(wǎng)絡(luò)已經(jīng)日漸沒落,騰訊和陌陌已經(jīng)切去了聊天IM的大部分市場,所以現(xiàn)在一家再做細(xì)分領(lǐng)域的聊天社交,包括匿名社交我相信都只是騙騙投資人的錢罷了。視頻行業(yè)大勢已定,幾乎沒什么太大空間了。唯一一個(gè)老牌并且有想象空間的就是音樂,問題還是在于版權(quán)和付費(fèi)意識(shí)決定了音樂行業(yè)的變現(xiàn)一直是大問題,所以倒是仍然值得再去拼一次。


       那么剩下的就是大家都熱炒無數(shù)次的。


       電商: 電商一定還會(huì)有市場,只是新應(yīng)用的用戶獲取成本太高,如何選擇品類,如何實(shí)現(xiàn)用戶的自傳播從而實(shí)現(xiàn)盈利成為了最關(guān)鍵的問題。


       O2O: 一個(gè)又一個(gè)細(xì)分市場,因?yàn)榫下太大,沒有任何一家有資本和能力全部囊括。但是稍微熟悉O2O行業(yè)的都知道,O2O的最大關(guān)鍵還是在于Offline的服務(wù)品質(zhì),線上只是線下的一個(gè)宣傳手段罷了,就像曾經(jīng)在QQ上也能訂餐,現(xiàn)在只是發(fā)展出一個(gè)APP然后服務(wù)規(guī)模擴(kuò)大化精細(xì)化了而已,既然只是一個(gè)渠道,那么Online的部分在O2O行業(yè)所能得到的重視程度自然也就有限(個(gè)人意見,不喜可噴)。


       互聯(lián)網(wǎng)金融:金融互聯(lián)網(wǎng)是個(gè)千萬億的市場,一旦成功注定是秒殺互聯(lián)網(wǎng)行業(yè)的,可是正是因?yàn)檫@種高市值也伴隨著高風(fēng)險(xiǎn),一個(gè)不小心現(xiàn)金流就如同那些P2P公司一樣卷鋪蓋跑路了。另外問題一樣,互聯(lián)網(wǎng)金融,核心還是金融,互聯(lián)網(wǎng)只是渠道,那么核心競爭力還是取決于如何利用數(shù)據(jù)來推動(dòng)金融業(yè)務(wù)的發(fā)展,例如現(xiàn)在P2P里的信用風(fēng)險(xiǎn)評估,其實(shí)就是金融業(yè)的最基本概念罷了,現(xiàn)在拿出來用互聯(lián)網(wǎng)再炒一遍。


       在線教育:不懂.....只是直覺覺得不看好,因?yàn)橛X得反人性的,太嚴(yán)肅的東西在互聯(lián)網(wǎng)上都玩不轉(zhuǎn)!


       硬件:離我太遠(yuǎn),我只是覺得現(xiàn)在的智能硬件還處于太初級的階段,大多是傳統(tǒng)硬件加個(gè)Wifi而已,有待繼續(xù)發(fā)展。


       其實(shí)對于大多數(shù)人來講,技術(shù)永遠(yuǎn)都不是瓶頸,難的都是如何選擇一個(gè)公司和行業(yè),從短期來講選公司,在過去我們都可以靠融資多少,風(fēng)投機(jī)構(gòu)是否靠譜來判斷一個(gè)公司,但是在資本大熱的今天變得越來越不可行了,那么這個(gè)時(shí)候只能依靠自己的判斷。例如拉勾,B輪2500萬美元,那么也就是說預(yù)計(jì)B輪估值3億左右,那么就看看吧,51job和智聯(lián)都在10個(gè)億左右的市值,而拉勾做的太深領(lǐng)域無法自拔,只能是他們的一個(gè)金字塔頂,于是你可以去推算一下他的想象空間。


       長期來講選行業(yè),那么未來幾年內(nèi)大熱的行業(yè)也就這么多,選行業(yè)看看前車之鑒例如旅游,看看途牛的估值也知道這個(gè)行業(yè)的互聯(lián)網(wǎng)發(fā)展了;再接下來我覺得重要的還是在于在這個(gè)行業(yè)中到底能扮演什么樣的角色,是否能解決核心問題,例如硬件的核心問題從眼前來看是供應(yīng)鏈和生產(chǎn)工藝,那么做數(shù)據(jù)去盲目進(jìn)入只會(huì)淪為邊緣角色,如此類推。


       來源:軟件定義世界(SDX)

文章為作者獨(dú)立觀點(diǎn),不代表經(jīng)管之家立場



本文編號:17137

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/sjfx/17137.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e510f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
日韩18一区二区三区| 欧美大黄片在线免费观看| 日本人妻中出在线观看| 99久久精品午夜一区| 我想看亚洲一级黄色录像| 一本色道久久综合狠狠躁| 十八禁日本一区二区三区| 欧美黑人黄色一区二区| 中文字幕91在线观看| 成人国产一区二区三区精品麻豆| 色婷婷成人精品综合一区| 熟女高潮一区二区三区| 欧美多人疯狂性战派对| 国产又色又粗又黄又爽| 亚洲欧美日韩综合在线成成| 亚洲精品深夜福利视频| 国产欧美一区二区久久| 日韩精品中文在线观看| 中国美女偷拍福利视频| 熟妇久久人妻中文字幕| 国产日产欧美精品大秀| 人妻内射在线二区一区| 日本午夜一本久久久综合| 国产又粗又硬又大又爽的视频| 国产精品一区二区传媒蜜臀| 久久精品国产在热久久| 国产在线一区二区三区不卡| 亚洲一区二区三区一区| 欧美国产在线观看精品| 欧美日韩国产综合在线| 欧美日韩国产黑人一区| 免费黄色一区二区三区| 国产日韩熟女中文字幕| 亚洲精品中文字幕无限乱码| 国产成人精品一区二区在线看| 九九热这里只有免费精品| 国产精品白丝一区二区| 91人妻人澡人人爽人人精品| 欧美日韩最近中国黄片| 欧美午夜伦理在线观看| 欧美日韩亚洲国产综合网 |