您好,登錄后才能下訂單哦!
對很多技術團隊來說,在搭建智能數據架構的過程中,或多或少會遇到一些疑惑和挑戰,經過多次實踐后,有些團隊已經破除疑惑,成功探索出一條搭建智能數據架構之路,那么他們是如何實現這一技術的呢?在近日的個推技術沙龍成都站,幾位架構大師在現場開啟了數據技術的“腦暴時間”。
諾基亞網絡成都研發中心研發經理
劉朋 《數據增長時代的研發管理》
企業在應對數據增長帶來的巨大挑戰時,需在研發和管理方面做好充足準備。
研發方面,提升數據存儲的擴展性;管理方面,除了增加對人和設備的管理外,要努力打造一支具有數據驅動型領導力的團隊,讓團隊中的決策以數據為依據,同時創造出以數據為核心的文化氛圍。
大數據時代,想要成為一名數據驅動型領導(Data-Driver Leader),需要具備三大招式。
第一招:關注研發團隊的經濟效益數據(Take an Economic View)
研發團隊不僅是成本中心,他們也具有創造經濟效益的能力,作為一名數據驅動型領導,在日常工作中要關注相關技術實踐能否為公司帶來經濟利益。
第二招:讓團隊數據可視化(Transparency)
在一支研發團隊中,部門領導需要將數據可視化,讓團隊中的每個人都對核心數據有所了解,這樣一來,當問題出現時,每個人都有能力去解決。
第三招:基于數據,及時快速反饋(Fast Feedback)
在團隊運行過程中,作為領導者,不僅要制定好相應規劃,同時要不斷分析數據查找問題,并基于數據以及KPI給成員提供反饋。
雖然數據驅動型領導在推動公司決策方面具有重要作用,但隨著公司人員的擴充,部門墻和局部優化(Sub-optimization)越來越明顯,此時需要打破部門墻,讓各個部門和團隊都能圍繞一個共同的目標進行協作,以達到效益最大化的目標。
個推大數據架構師
袁凱 《機器學習平臺建設與實踐》
機器學習工作的常規流程:運營者首先要將商業問題轉化為機器學習能夠解決的問題,然后再進行數據收集以及清洗和聚合的工作,接下來開啟數據探索和特征工程,經過上述步驟,便能得到事物預測所需要的全部因素,此時,運營者可以選用不同的算法,并將算法進行訓練,得到相應的應用模型。最后,運營者還需要利用真實的數據進行驗證,確保模型的可行性。
機器學習作為一門多領域交叉學科,是解決許多實際問題的有效工具。個推通過機器學習,構建了獨有的冷、熱、溫標簽,用以分析不同群體的基礎屬性和行為特征,描繪用戶的精準畫像,最終運用于智能推送和精準營銷。
想要完成機器學習平臺的建設,需要注意三大要點:
1.只有端到端的平臺建設才會真正產生價值,同時,特征工程的數據和代碼沉淀需要共享運營。
2.從成效出發,聚焦痛點,不要盲目跟隨行業,做好系統和培訓的一體化。
3.謹慎引入新技術棧。
為了避免機器學習平臺建設中出現的常見問題,個推的建模平臺會提供相應的IDE以及呈現相應特征的管理系統,同時還能提供標準化的ID匹配服務和數據抽取服務,減少工程師的重復工作。此外,個推提供的打包部署服務和后續監控服務,也能夠幫助企業保證平臺的順利運行。
聚美優品大數據高級工程師
賀鵬《大數據3.0流計算與智能決策》
大數據3.0時期,Hadoop第一代、Spark內存計算第二代,早期流計算以及人工智能流計算同時并存。
早期流計算具有強一致性、數據亂序與延遲等五大困難點,Flink的出現,有效解決了這些難題,同時Flink還兼具了可以實時增量計算、SQL支持以及CEP支持等六大優點。
流計算發展至今,已經具備了CEP這一強大功能,這也是支撐流計算智能化的關鍵因素所在。現實生活中,很多復雜的場景無法通過顯式規則來進行判斷(傳統編程為規則編程、指令編程以及if else編程),比如你無法用if else寫出如何判斷哪一張圖片是樹葉,你無法用有限的規則寫出如何判斷數據流中哪些是人為操作、哪些是機器人刷單,此時需要用機器學習模型來檢測和匹配,同時需要ML和流計算相結合使用。
通常情況下, ML模型主流場景有分類和回歸兩大場景,他們可以檢查抽象中無狀態 f = fx(x1,x2 ..)無狀態模型(有狀態的模型典型代表rnn),而在SQL語義中 UDF剛好與之對應(無狀態),需要把模型放入流處理系統中,也就是將tensorflow PB
model模型注冊為udf,完成上述步驟后,數據流會進入ML檢測階段。
使用流計算相關功能時,需要強大的平臺予以支持,以便在上面實施SQL開發、授權等操作。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。