您好,登錄后才能下訂單哦!
這篇文章主要講解了“樂視視頻是如何借力開源技術處理大數據”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“樂視視頻是如何借力開源技術處理大數據”吧!
從內容來看,樂視大數據打造的超級IP實力確實強大。2013年樂視最早借大數據跑贏宣傳檔為即將上映的《小時代》做了最精準的預測和分析,開展了一場漂亮的電影營銷,拉開了大數據電影營銷的模式。再后來,國內影視開始掀起IP潮,2015年是IP炒的最熱的一年。年底,樂視給用戶呈上滿意的答卷,其自制的“十年劇王”《羋月傳》以全網200多億的播放總量創下紀錄。網絡雷劇《太子妃升職記》,目前全網播放量已接近15億。大數據+超級內容IP給樂視進軍全球市場注入了無限動力。
然而,這不是重點,“內容+”才是樂視生態的看點。《羋月傳》播出后,樂視同步推出了《羋月傳》定制版超級電視、智能手機、羋酒、手機殼、《羋月傳》經典臺詞版手機鈴聲等個性化產品,還與天貓合作,打造《羋月傳》衍生品旗艦店,《羋月傳》手游也已經發布。注意,請注意,這是一個360°無死角的IP布局,樂視超級IP已經形成一個完美的閉環。
如果說IP是軟件的話,那樂視云就是硬件了。大數據時代,最不缺的就是“云”了,樂視云是一個專注于視頻領域的云計算平臺,2016年樂視云已經與戴爾達成兩年全球戰略合作、聯手全球領先大數據運營商Equinix,法國第一大電信運營商Orange、澳大利亞最大電訊公司澳大利亞電信、世界領先綜合性國際電信公司西班牙電信、全球頂級通信方案運營商香港和記環球電訊有限公司等全球多家頂級運營商,打破數據孤島,加速視頻生態體系建設,未來樂視大數據的觸角將會伸向更多行業。
再來看市值,樂視網2004年成立,2010年上市,當年市值僅為50億。五年下來,樂視依托大數據平臺在互聯網視頻、影視制作、智能終端、電子商務等垂直領域深耕,到現在,總市值已接近1100億。但是,看看樂視這次全面升級沖擊全球的架勢,貌似,樂視的故事才剛剛開始!
白德鑫現在正在從事樂視網超級電視做數據挖掘。他表示,原來初期的業務做得適應不了當前業務發展,所以要進化。主要做的事情,構建每件事的時候,分析數據的平臺,給樂視網的超級電視提供數據挖掘服務.如何從最初業務發展到現在,包括在超級電視上做實時分析和用戶離線挖掘,通過數據挖掘,給很多業務部門提供數據挖掘的支持。
白德鑫提到自己是谷歌粉絲,目前正在做第一批超級電視數據挖掘。云視頻搞清播放機的時候,那時候比較屌絲,只有幾萬臺數據,數據當時也比較少,做了一些開機數之類的、日常數據。在業務里做,在數據節點做計算。
后來性能越來越低,因為量越來越大,當時每天數據量,當時覺得很大,每天只有幾千萬行數據。這時覺得需要嘗試一些新的技術,就用Cassandra為存儲,存儲日至,做簡單處理切分以后放進里面,使用Hodoop進行計算,把結果塞到MySQL里。每天計算數據對自己來說是一個中間數據。可以出來一些報表。數據組合比較多,剛開始只是盒子、應用,后來還有一些視頻播放內容,開始嘗試把每天數據把MySQL和Kettle進行分析。但是做了三四個月又換了,使用Kafka、Storm、Hodoop、Hpase、Hive、Oozie、Sqoop,唯一修改是有一些大的,跟隨開源社區來做,進行相應升級,盡量跟社區保持一致。
樂視網大數據的起點
白德鑫表示,剛開始只有一個數據分析員,抓一些數據,這是做的分析。電視的盒子,包括電視開機,看了什么電視節目,因為樂視網是做視頻內容的,點開了什么視頻節目,看了多長視頻節目是通過心跳來做的,三分鐘一個心跳,這個放到終端記錄下來。播放有開始、有心跳,電視好一些,但是盒子有些用戶看著看著直接斷電了,結束就沒有了,只能從心跳往回挖。
自從發布超級電視以后,剛開始盒子價格比較貴,沒人買,后來盒子賣299,賣出去很多。數據量按照三分鐘心跳,幾十萬用戶看視頻,開機有心跳、播放視頻有心跳,數據量特別大,沒辦法,樂視當時上了四臺。四臺數據,看怎么發布的。之后輸出,然后進行分析。看有哪些問題。
當時做這個事情的時候一個人在做這些事情。然后后來有人離職,后來Cassandra這塊沒人了,交接的時候寫完,對系統影響很大。在這個時候沒人接手,他走了技術也走了,一個蘿卜一個坑,蘿卜走了坑很不容易填的。后來想找一個技術更牛一些的人幫樂視來做,但是到現在一個多月沒有找到。系統要繼續做,數據也在瘋狂增長,沒辦法就把Cassadnra去掉,往MySQL里放。
通過另外一種方式,分析人員對樂視意見很大,他多的時間有兩個小時,要看今天開機量,和昨天的對比,再分時段看開機量,兩個小時就過去了。他說系統老死機,我說是查詢太慢了。希望系統可以做大一些。
現階段數據量的變化
白德鑫自己說,樂視的數據量從年初的三個月翻一番,到現在的我寫得稍微早一些,到每周翻一番,現在每天數據量一百G,超級電視以及盒子賣得非常快。從設備行為快速向用戶行為轉變。我的計劃量是多少,賣得多了老百姓開始考慮業務行動,按照互聯網方式做,用戶拿著我的盒子看什么使的,是看電影還是看電視劇,所以這個時候很多用戶行為來分析。現在電視版本和盒子版本一周一個,這個版本每周更新一個系統版本,用戶是不是接受,這些都在樂視這里做分析。
還有一個是樂視在這里做了一些測試,因為在盒子里,樂視叫UI里做一些測試,今天做一個海報推薦,明天加一個分析,看用戶量高還是低。
用戶數據量增長很快,人也沒有,一邊找土豪開發者幫樂視解決這個問題,另外自己要解決這個問題了。看數據分析的人,團隊從內部調,數據分析招聘了一個。還有一個比較牛的是從公司別的部門挖的一個人。從今年年初開始履行,從原有的來進行。最后換成現在的方式。這個是自己在做,研發團隊兩個人,現在也是兩個人。
差不多半年搭成新的,新平臺通過Kafka搭建,通過很多業務系統,點播、第三方的,包括一些日志,存儲數據,以及需要對用戶進行分析的數據。還有一些元數據,進行一些加工、處理。整合之后,其實就是前段所有的請求打到這里。Storme是最后的數據,另外Hodoop寫的已經換了,數據量大以后,換其他的數據庫,剛開始選,公司自己開始做自己的數據庫。通過Hodoop以及數據服務wAD-HOC的搭建、處理,實時查詢、開放數據平臺也做了查詢、進行了報表,對一些實時數據分析系統,還有做了門戶,對各個業務提供數據服務,要調哪些數據。運營商需要知道在四川電信、某個電信部門的視頻點播量。這些都是靠內部挖掘的。
樂視的數據源通過前端的,從三款到六款,所有數據都打到這里,好處是在于跟著開源社區升級系統,依然可以接收數據,不影響業務。后面再隨便操作。數據稍微做一下處理放到STORE,放到數據實時計算、然后進行拆分。現在沒有用PEED,用戶交互是OEE,把多個任務組合,把它放到,最后是一個結果,是一個業務流程的管理工具。
數據輸出之后通過查詢,然后提供給別人,反饋到前端數據。這叫矩陣式的業務。這是進行的測試。服務器兩臺4Core cpu、6G,用戶38萬左右,38萬有效數據。跟官網50萬對比稍微差一些。因為樂視的機器性能比他們差很多。
當時做的時候兩個節點做的,用了一個發送,用的是同步發送,消息格式是兩種,格式是30字節、50字節、200字節。如果30字節38萬,其他數據基本上是在30萬左右。這是單臺數據。單臺差不多30萬。這是樂視的Spout集群,做一些業務拆分,比如有些數據需要組織,點播、心跳的,其實有些消息是隨機的,雖然連續發過來的,但是每臺機器都往外發,把數據寫到里面,比方說播放時長,每個劇播放時長、按時段的數據計算。
這個借用官網的圖,我用的0.9幾,實際上標準是一個,但是樂視怕數據丟失,所以做了兩個,其實做得比較簡單,把數據復制。存的一些數據,這些沒有太多可講的,當時做了一些簡單優化,這個不多說。默認垃圾是關閉的,自動回收,不想讓它自動回收要手工做一些處理。這是Sqoop,原來的數據都在這里存儲,樂視導入集群里,樂視用這個來做。當時做了一些事情,把數據抽取整合。
沒有寫在上面的OLD,包括查詢,有些數據處理處理的中間結果,中間結果到最后沒有,不可能到使用階段。
ROI分析
數據量每個月翻一番,現在不只這個了,樂視原有架構沒辦法滿足新的需求,之前就是日報,現在每天實時數據都很多。Kettle方式數據整合時間越來越長,采用hadoop-Storm方案,不會對數據挖掘產生太大的影響,資源稍微豐富一點,集群不夠使的時候要添加機器,數據每日跑一次,每天晚上12點跑一次收取數據生成報表,到現在實時查詢,時間還是比較長的,五分鐘左右。因特爾給樂視推薦過一個,但是它那個對內存要求太高,暫時做不到。現在都是6G內存服務器。支持硬件設備。
目前還有很多事情要做,其實對樂視來說不同階段選擇不同方案,剛開始初期的時候,一年賣幾萬個盒子,剛開始三千一臺盒子,不可能建十幾個節點的數據。人員流失會導致技術流失。技術儲備和內部自薦比招聘牛人更快。現在招聘也很困難,hadoop圈里人比較少。新業務平臺都要小心對待。否則出問題很難解決。數據這塊還好一些,如果前端沒有,對業務影響很大。
數據安全很重要,樂視有40多T數據,放到兩個備份存儲上。服務器多了就是爽,四臺不夠加八臺,計算量可以很快。
感謝各位的閱讀,以上就是“樂視視頻是如何借力開源技術處理大數據”的內容了,經過本文的學習后,相信大家對樂視視頻是如何借力開源技術處理大數據這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。