您好,登錄后才能下訂單哦!
開源 SQLFlow,反哺業界,同時小小秀出 AI 肌肉。
這就是螞蟻金服近日開源首個將 SQL 應用于 AI 引擎項目 SQLFlow 后,業界給出的反應。
SQLFlow,把艱深的 AI 與簡單的 SQL 結合起來,大大簡化了數據工程師使用 AI 技術的門檻。
而研發出 SQLFlow 的,正是螞蟻金服計算存儲首席架構師 何昌華 帶領下的 AI Infra 團隊。
何昌華斯坦福博士畢業,先在 Google 總部工作 7 年,贏得過公司最高技術獎項,其后又在獨角獸 Airbnb 工作 2 年,負責后臺系統的應用架構。
2017 年 5 月,他正式加盟螞蟻金服,擔任計算存儲首席架構師,并在 2018 年入選了第 14 批國家“千人計劃”專家。
在螞蟻金服,何昌華的工作是開發新一代計算引擎,搭建金融型數據智能平臺。
而 SQLFlow,就是計算引擎主線上的結晶之一。
不過對何昌華來說,世界正在巨變,他還要帶隊探索一些沒人做成的事情。
比如 全實時的大數據智能系統 。
大數據的概念,最早來自于搜索引擎行業,因為搜索引擎面對的是人類在互聯網上留下的爆炸性增長的龐大數據。
2010 年底,谷歌宣布新一代搜索引擎“Google Caffeine”正式上線,這項技術的革命性在于,任何時刻,世界上的任何網頁發生了變化,都可以實時地添加到索引中,用戶也可以實時地搜索到,解決了傳統搜索引擎的延時問題。
何昌華當時正是Google Caffeine開發團隊的核心技術負責人之一。
他解釋,“Google Caffeine所實現的最核心的功能,就是實時。”
而現在何昌華在螞蟻金服工作的目標,同樣是搭建一個“完全實時”的大數據處理系統,或稱之為大數據智能平臺。由于線下生活場景的多樣性和復雜性,這是個比構建實時搜索更有挑戰性的任務。
他認為,這將成為未來技術的基石。
對于計算機來說,實時就是在發出請求到返回響應之間的延遲盡量小,對于大數據處理系統來說,這還意味著從數據生產到消費的延遲盡可能低,所有這些都意味著計算速度和能力的提升。
此前常用的大數據計算模型 MapReduce,對數據的處理是“分片式”的,數據的片與片之間有邊界的概念,這種批處理的模式不可避免地會帶來延時問題。
以搜索的場景為例,假如以天為時間單位對數據進行批處理,那就意味著今天更新的網頁,用戶明天才能搜索到,調高處理的頻率可以部分解決問題,一天兩次、一天四次、兩小時一次……
雖然能逐步接近“準實時”,但成本也會急劇上升。
要實現真正的實時,就必須打破這種批處理的邊界,讓數據處理的過程像水流一樣,隨來隨算,隨時反饋。
這也催生了后來流式計算引擎的蓬勃發展。
而在何昌華看來,除了快,“實時系統”還有兩層重要含義。
第一是 OLTP(聯機事務處理)和 OLAP(聯機分析處理)的融合。
在以往的觀念里,OLTP 對實時性的要求高,OLAP 對時效性的要求不那么高。
舉例而言,用支付寶進行一筆交易,需要即時查詢和增刪記錄,就是由 OLTP 來處理的。而對用戶行為特征的數據分析,則由 OLAP 來處理。
但現在隨著業務場景需求的不斷變化,OLAP 的時效性要求也越來越高。
例如互聯網金融中的風控場景,就需要在完成一筆交易的極短時間中,通過分析用戶的特征數據判斷風險,這要求 OLAP 也要能實時反饋,且反饋結果馬上就能夠在線訪問。
第二是智能和數據系統的融合。
人工智能和機器學習是大數據應用最熱門的領域,而現在絕大多數公司的做法,是將數倉和機器學習平臺分開,從數倉取一批數據,放到機器學習平臺上去訓練模型。
隨著業務場景的復雜化和多樣化,這種模式逐漸顯露問題,因為模型能否實時更新,能否能用更實時的數據來訓練模型,直接影響了應對復雜場景的能力。
“數據實時流入、實時訓練模型,模型實時上線決策并反饋數據——這一條線如果能完全打通,對于業務將產生不可估量的價值”, 何昌華說。
數據、計算、智能,所有這一切構成了何昌華設想中的“高效率的大數據底盤”,也就是一個融合的實時數據智能平臺,或者叫“Big Data Base”,就像曾經數據庫成為無數場景的數據底盤一樣。
如今,不僅是螞蟻金服或者阿里巴巴集團,在各行各業中,數據驅動的業務都越來越多。
但大數據開發的門檻很高,如果每一項業務都從數據開發的底層做起,將會非常耗時耗力。
如何才能讓做業務的人有更多精力專注于業務?
何昌華認為這就是“Big Data Base”的使命,同樣也是“基石”的含義:
我們希望讓這件事變得簡單——各行各業的從業人員、各條業務線的同學,在堅實的平臺基礎上,不需要知道下層的細節,就可以很方便地開發上層應用。
降低數據和智能的門檻,這是何昌華對于新引擎和數據智能平臺的期望。
目前,他帶領團隊開發的金融型多模融合計算引擎,已經實現了流計算與圖計算、流計算與機器學習的融合打通,距離他設想中的“大融合”越來越近了。
何昌華透露團隊目標,就是讓業務變得“極簡”:
未來兩到三年,我們希望新引擎能夠承擔實時在線的融合計算任務。基于這個引擎,結合其他開源引擎,我們就能夠構建出一整套數據智能系統。在這個數據智能系統上,業務可以非常輕松地完成從功能開發到產品上線的流程,后續的吸引流量、分析決策等也都可以借助這個平臺來完成。
他甚至勾畫了一幅很科幻的未來場景:你寫一個功能交給引擎,引擎會決定調用多少資源去計算,你無需關心具體的計算過程,結果將會在最短的時間內反饋給你。
當你構想出一種新型業務,數據智能平臺會判斷需要哪些數據,采用哪種模型,如何上線,如何運營流量。
這些流程,都可以智能化地自動完成。
這是個更長遠的目標。我們開發出數據處理的能力,未來,任何人都可以使用這種能力,真正實現“數據民主化”。
這樣一個融合多種能力的實時數據智能平臺,目前在世界上還沒有哪家公司能完全研發出來。
何昌華也謹慎而滿懷信心地展望著未來:“我們也是在探索,如果完全實現了探索目標,我們就將真正站到全世界領先的位置。”
世界瞬息萬變,數據作為物理世界的鏡像,理論上是無窮無盡的,問題只在于人類有沒有辦法去記錄和采集它們。
互聯網和移動互聯網的普及,讓人類的行為數據采集成本大大降低。
IoT 傳感器設備的普及,讓工業生產和社會生活中的數據也能夠大量地沉淀下來。
因此在過去的二十年中,數據總量出現了爆炸性的增長。
在整個世界發生數字化巨變的同時,我們的生活也在悄然改變。
基于數據應用的發展,我們享受到了一二十年之前無法想象的便捷——電商、O2O、移動支付、智能家居……
但在何昌華看來,數字化還處在非常初級的、在把線下的數據搬到線上的階段。
真正需要思考的問題,是未來當高度數據化的社會到來時,我們擁有什么樣的能力去處理和應用海量的數據。
這關系到我們是否能夠基于數據做到更多的事,催生出更高的智能,進而推動人類社會向著下一階段發展。
這就是他回國加入螞蟻金服所要尋找的答案。
之所以回來,是因為覺得在這里做的事,往大一點說,是面向人類社會發展下一階段的探索。
在這場全新的探索中,和海量的數據打交道是必修課,因此,他反復強調著計算能力的重要性:大數據、人工智能、深度學習……無不需要強大的計算能力,否則,向前的探索寸步難行。
人工智能的發展趨勢,也是用更大更高更海量的計算,來模擬人的能力。
“真正的人工智能=數據 + 100 倍的計算”,谷歌最新的人工智能模型水平,換算出來相當于數百塊 GPU 持續計算一整年。
何昌華和團隊一起傾力開發的新一代計算引擎和數據智能平臺,實際上是高效計算能力和強大數據處理能力的綜合載體。
它自螞蟻金服海量的業務場景和數據之中誕生,初衷是支撐螞蟻金服的各項業務,但隨著技術逐步成熟,它也可以具備多場景下的通用性。
金融屬性帶來的高可用性和高安全性,讓它可以廣泛用于其他行業,應對生活服務場景更加不在話下。
這項工作的意義,往大了說,是在推動社會的變革,雖然聽上去是個宏大的命題,但它并非那么高高在上。
“每一項技術都必有它的落腳點。具體到螞蟻金服,這些技術跟數億人的日常生活緊密相連。”
每一天,當何昌華自己掏出手機使用支付寶結賬付款時,都能直觀地感受到自己的工作成果。就像他在谷歌工作時,每天也都會使用搜索功能一樣:“自己做出的成果,自己每天都在使用,非常切實地感覺到技術對生活的改變。”
他這樣陳述自己的人生理想。在通往理想的征程中,他既站在技術的最前沿,也身處最為日常的場景中,這二者本就密不可分:
用技術改善人的生活,推動社會和人不斷往前進化。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。