您好,登錄后才能下訂單哦!
說到人工智能、深度學習,大家總會第一時間想到算法和模型,再然后就是最根本的、提供動力源的數據。由于人工智能技術的飛速進步與廣泛應用,我們對待數據的方式已從收集為主轉變為以獲取信息為主。
如果你不把存儲的數據轉化為可用的信息,那么這些數據——狹隘點說——就只是一堆字節而已。而完成這個轉化的過程之前,有時也需要多年時間來收集足夠的數據,比如醫學方面新工藝、藥物或設備的試驗;基于不常發生的外部因素的群體行為;氣候變化。
首先,數據保存的重要性無法否認
關于數據,有一句很拗口的話,你不知道什么是你不知道的。有個很好的例子:“垃圾DNA”。這一術語是20世紀70年代某遺傳學家發明的,用來表示基因組中95%—98%的不編譯任何蛋白質或酶的DNA。當時的生物學家認為,既然幾乎所有具體的生理機能都要蛋白質來完成,那么不編碼蛋白質的DNA應該是沒有用的,可以稱為“垃圾DNA”。到本世紀初,人們發現一些垃圾DNA其實調控著染色體的復制方式和時間。
對于當時的人們來說,存儲數據的成本是很高的。當然DNA測序的成本更大,這也是當初人們要保留垃圾DNA數據的原因之一。收集數據的成本很高,存儲數據的成本也很高,正是因此,我們要更加感謝那些在我們之前做出正確事情的人。他們頂著成本壓力儲存了這些舊的數據,讓我們有機會從中發現更多信息。
我們知道,一些天氣預報中心每天都會保存所有收集到的數據,包括其預報模型的輸出。當這些網站有一個新的預測模型時,他們通過新的模型運行舊的數據,查看模型的輸出和觀察,看看新模型是否比舊模型更好,以及有多好。對于一個城市來說,這個工作似乎很容易,但對整個地球來說,是大量的數據和信息比較。
因此,存儲和數據架構師面臨的挑戰往往是如何通過開發滿足性能、可伸縮性和治理需求的架構來保存這些數據。
由數據收集向信息挖掘的轉變
從有數據收集開始,其唯一目的就是要使所收集的所有數據都有實際意義。手工進行數據收集和分析非常耗時,將數據轉換為信息也既費時又費錢。
信息時代始于1890年美國人口普查時何勒內斯打孔卡片的使用,盡管它們是空白的,但與你見過的格式化卡片不同。這里的關鍵問題是,在1890年以前雖然有大量的數據,但并沒有工具來進行分析,而且將其轉化為信息的成本很高。
很明顯,在1890年的人口普查中產生的信息在今天的標準下是非常基礎性的。但按照19世紀90年代的標準,卻是革命性的。通過這個辦法,人們能夠非常迅速地查看人口普查的結果并做出決定(例如,基于數據的可操作的信息)。
到了今天,我們已經不再把1890年人口普查數據的表格化稱為信息。信息的定義——與數據相比——應該基于當代的標準,同樣的,許多其他領域中的某些定義也在發生變革。
信息分析市場的規模和范圍在不斷擴大,從自動駕駛汽車到安全攝像頭分析再到醫療發展。在每一個行業,在我們生活的每一個角落,都有快速的變化,并且變化的速度也正在增加。所有這些都是數據驅動的,所有收集的新舊數據都被用來開發新的可用信息類型。圍繞數據收集與信息發展的需求,有很多問題也因此浮現。
除保持數據活性外,合規性同樣重要
許多需求基于你所擁有的信息和數據類型。例如,一些可能涉及使用所謂DAR(Data Encryption at Rest,空閑時數據加密),它會對存儲設備進行加密,這樣如果從系統中刪除,數據幾乎是完全不可能訪問的。(其困難程度取決于加密算法和大小、復雜性等)。我們可以將這種類型的需求歸納為“可操作性需求”,即數據在發揮價值的整個過程中會對架構、設備等產生的硬性需求,以確保滿足業務運行所需的性能、可用性和數據完整性,為保持數據和信息的活性,所有這些問題都需要得到解決。
除此之外,你的數據或信息也應該基于你所在行業的最佳實踐或地區的法規條例,如最近歐盟出臺的GDPR(通用數據保護條例)。也就是說,你對數據的使用需要始終保持合規性。由此產生的體系結構或過程方面的變化,也是需要架構師來處理的一類重要事務。
最后的想法
要做到合規并不容易,而且也不便宜。決定其成本的因素有很多,但是在計劃和搭建好體系架構之后試圖強制遵從,總是比事前做的代價要高。
筆者認為,在定義合規性需求時,你應該著眼于未來,而不是只看現在,因為事后硬塞東西的成本和挑戰會更多。這意味著,我們需要不斷地研究行業中的合規性需求,以及最佳實踐。數據在未來只會變得更加重要,我們始終會面對挑戰,何不先定好應對方案。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。