如何避開數據湖中的"鱷魚"陷阱
數據湖顧名思義就是龐大的數據存儲庫,它們用于容納海量的非結構化和半結構化數據,這些數據通常未經篩選,往往存在重復,通常未解析且粒度較低(例如日志文件、系統狀態記錄、網站點擊流數據)。隨著物聯網傳感器的普及,以及智能體輸出的不斷涌入,這類數據正以前所未有的規模流入數據湖。
總體來說,數據湖被認為是一件好事,它讓企業能夠確保捕獲所有可能在IT堆棧各個業務環節中流轉的數據。對于任何一家企業的首席數據科學家來說,能在需要時調用尚未被充分利用的數據儲備,無疑是一種安心。作為企業數據戰略的重要舉措,數據湖同樣體現了數據的民主化:這是一個極深的數據池——只要穿好“救生衣”(即遵循安全與合規規范),包括業務用戶在內的任何人都可以隨時下水探索。
數據湖同樣可以存儲結構化數據,例如來自CRM系統或ERP系統的信息流,但這一角色往往較少被提及。
在當下“AI無處不在”的大環境下,企業需要實現對自身業務和客戶行為的端到端可視化。數據湖幫助實現了這一目標,同時確保企業可以圍繞一個集中式存儲庫進行運作,從而避免數據孤島的滋生——這也是它的價值所在。
危險:深水暗涌
和幾乎所有技術一樣,數據湖也有“陰陽兩面”。回想千禧年前(或至少上云之前),一家企業可能運行著40多個數據庫。用戶要訪問數據,就必須掌握這40多個數據庫的屬性,以及對應的安全措施和流程。而在單一數據湖中,理論上只要有人擁有合適的憑據,就可能通過一個入口訪問所有數據。
許多公司追求的所謂“單一視窗”戰略,意在統一數據、應用和業務操作的洞察與管理,然而,同樣的“單一視窗”,對入侵者來說,只需打破這一扇窗,就能進入核心數據資產。
這一現實由Perforce公司AI與SaaS產品主管Steve Karam特別強調。Perforce是一家以企業級版本控制、應用測試與生命周期管理為傳統優勢的DevOps平臺公司。Karam在本周的一場數據分析圓桌會議上指出,水下的危險遠不止如此。
“別忘了,幾乎每家企業都有一個‘Sam’。他們可能在公司工作了幾十年,在此期間構建了一個只有他們自己知道的數據庫。現在Sam離開了,這個數據庫就成了一個‘黑箱’。如果把Sam的數據庫放進數據湖,后果可能非常嚴重。”Karam舉例說,“如果Sam的數據存儲包含重復的個人可識別信息(PII),而這些字段已無人追蹤?這無疑成了湖底‘鱷魚’的溫床——本就破碎的流程被進一步放大。”
Karam進一步提醒,當AI介入后,情況更加復雜。相比那些能夠精準編寫查詢、精細化處理數據的分析師,如今的AI表現出一種“貪婪無度”的胃口(他甚至創造了一個新詞——datavore,數據食者),它想要吞掉所有數據,還像個“話癆”,泄露的秘密可能比醉酒節日晚宴上的健談親戚還要多。由此,風險格局隨之急劇擴張。
回歸現實:價值與風險并存
“這確實是個難題:企業各個團隊依賴快速的數據訪問來構建和測試軟件、加快上市速度并優化戰略,但數據湖本身又確實非常有用。”Karam指出。
例如,滿足客戶體驗個性化需求,越來越需要調用細粒度數據,然而,風險同樣真實存在。Karam援引市場研究結果稱,大約有一半的企業報告稱,他們已經在非生產環境中經歷過涉及敏感數據的數據泄露或竊取事件。
解法:分層與編目
那么該如何應對?Karam認為,數據編目與分層管理是一個良好的起點,并以Microsoft提出的Medallion架構為例。
微軟實際上將其稱為Medallion數據湖倉架構(Data Lakehouse Architecture),它融合了數據湖與數據倉庫的優勢:既保留數據湖的容量與靈活性,又具備數據倉庫的數據管理和事務處理能力。本質上,它是一種用于邏輯化組織數據的數據設計模式。
微軟在其學習平臺上解釋道:
“Medallion架構定義了一系列數據層,用于表示湖倉中數據的質量。Azure Databricks推薦采用多層方法,構建企業數據產品的‘單一事實來源’,這一架構確保了數據的原子性、一致性、隔離性與持久性(ACID),數據在經過多層驗證與轉換后,最終以優化布局存儲,以支持高效分析。”
下一步是合成,但又真實可感。
數據脫敏與合成數據
“下一步是找到一種方式,為非生產團隊(這里指的是我們的軟件應用開發同事)提供真實可用的數據,同時又不帶來風險,這意味著要采用數據脫敏以及合成數據等技術。合成數據在真實數據不足以匹配新業務場景,或者合規要求完全禁止訪問生產數據時,尤其有價值。它的生成速度快,并且特別適合大規模使用場景,例如單元測試。”Perforce的Karam解釋道。
靜態數據脫敏會用合成但逼真的數值替換掉敏感數據(例如個人可識別信息——還記得Sam和PII的隱患嗎?),這些數值具有確定性和持久性,因此可以維持引用完整性和人口統計特征,這意味著,軟件開發人員既能獲得真正有用的數據,又不會冒著意外泄露客戶敏感信息的風險。
一個實際例子是:銀行的開發團隊可以看到客戶賬戶余額,以便發現異常、波動或其他離群點,但他們完全不知道這些余額屬于哪位客戶。出生日期、社會安全號、銀行賬號以及其他個人標識信息都會被脫敏。許多企業往往會同時采用數據脫敏和合成數據,并借助高度自動化的工具來支持,從而避免額外增加開發人員的工作負擔。
風險規避:干凈且合規的數據環境
“新的AI應用場景也能發揮作用。除了合成數據,AI還可以通過自然語言處理來支持自動化測試,幫助測試團隊擺脫編寫測試腳本和維護生產數據關系的負擔。”Karam說道。
“即使一家企業已經全面投入數據湖,它仍然應該把軟件開發和質量保證數據視為獨立的數據環境,保持風險規避、健壯、干凈、合規并且快速交付,讓團隊可以放心構建。數據湖本身也應為非生產團隊劃分獨立的工作空間,保證其中的數據合規且安全,使團隊能夠無障礙地直接使用。這就像在湖的淺水區專門劃出一塊兒童泳池給非生產使用,而湖的深水區——生產部分——則嚴格禁止進入。”
數據湖生態中的主要玩家
數據湖領域的主要提供商包括:
? Amazon:其AWS S3簡單存儲服務是眾多數據湖的底層技術
? Microsoft Azure:擁有Azure Data Lake及其數據湖分析服務
? Google:提供BigLake,深受希望構建基于Apache Iceberg湖倉的用戶歡迎
? Snowflake:AI數據云公司
? Databricks:與Microsoft建立了密切合作關系
雖然Perforce在這次討論中沒有推銷自家產品,但它在版本控制領域與Git、Atlassian Bitbucket Data Center、Apache Subversion和Mercurial等競爭,在軟件測試領域與BrowserStack、Sauce Labs、LambdaTest等廠商同臺競技,而在應用生命周期管理方面,則需要面對IBM Engineering Lifecycle Management等對手。
安全下水:在風險與價值之間找到平衡
采取上述步驟與方法,有助于識別、隔離并緩解數據湖帶來的風險,在保護需求與使用價值之間取得平衡。
湖里的“鱷魚”(惡意攻擊者與不懷好意之人)可能依舊徘徊,但如果我們清楚該穿什么樣的“防護衣”,依舊能安全地下水,這些措施也許無法徹底消滅潛伏在湖底的鱷魚,但至少可以迫使其中一些退回岸邊。