如何選擇最適合你的數(shù)據目錄
數(shù)據目錄已成為企業(yè)數(shù)據管理策略的重要組成部分,但選擇合適的數(shù)據目錄并不是簡單的事情。在做決定前,必須了解市場上的各種選項以及應優(yōu)先考慮端事項。
數(shù)據目錄是元數(shù)據管理工具,可幫助企業(yè)查找和管理大量數(shù)據。數(shù)據目錄背后的想法是將元數(shù)據集中在一個位置,并提供整個數(shù)據庫中數(shù)據的完整視圖。它還包含有關每個特定數(shù)據點位置的信息。
在選擇供應商之前,企業(yè)需要了解這個市場以及他們的需求和期望。本文可幫助你選擇最適合你企業(yè)數(shù)據的數(shù)據目錄。
為什么數(shù)據目錄很重要
Gartner公司高級研究主管Joe Maguire認為,企業(yè)對數(shù)據目錄工具的需求主要源自三個方面。
企業(yè)使用數(shù)據目錄的第一推動因素是元數(shù)據管理變得越來越困難。數(shù)據架構更加復雜,并且數(shù)據量太大,以至于無法手動收集和描述元數(shù)據。
Maguire說:“即使是旨在簡化架構的技術(例如數(shù)據湖提供單個架構組件用于存儲各種數(shù)據)也可能使元數(shù)據管理變得復雜。”
面對數(shù)據量不斷增長,有些企業(yè)并沒有擴大其元數(shù)據管理。
Maguire說:“正是由于忽略數(shù)據湖中的元數(shù)據,人們不得不創(chuàng)造出‘數(shù)據沼澤’的術語,以描述數(shù)據混亂而無人可清理的數(shù)據湖。”
第二個因素是,隨著企業(yè)追求自助服務分析和數(shù)據科學,對數(shù)據治理的需求也在增加。這也導致對數(shù)據目錄的更高需求。元數(shù)據是數(shù)據治理的基礎,數(shù)據目錄使訪問元數(shù)據更加容易。
第三個因素是這個市場已經證明自己的價值。供應商的產品已經變得越來越多樣化,并可真正幫助需要數(shù)據治理和元數(shù)據管理的企業(yè)。自動元數(shù)據發(fā)現(xiàn)、數(shù)據沿襲和對數(shù)據管理活動的支持等功能,使數(shù)據目錄對企業(yè)具有吸引力。
數(shù)據目錄類別
根據Maguire的說法,在討論數(shù)據目錄時,最重要的區(qū)別是了解企業(yè)數(shù)據目錄和嵌入式數(shù)據目錄之間的差異。
Maguire說:“企業(yè)數(shù)據目錄旨在整合來自各種元數(shù)據孤島的元數(shù)據,而嵌入式數(shù)據目錄是其他產品中提供的元數(shù)據管理功能集。”
企業(yè)數(shù)據目錄選項可以是DBMS、數(shù)據倉庫或BI平臺。嵌入式數(shù)據目錄則形成元數(shù)據孤島–企業(yè)數(shù)據目錄試圖整合的元數(shù)據孤島。
下面是最常見數(shù)據目錄:
獨立數(shù)據目錄。這些數(shù)據目錄具有通用性、獨立性和面向業(yè)務的特點,可廣泛用于數(shù)據管理、分析和數(shù)據治理。此選項適用于必須對多個用例進行數(shù)據分類的企業(yè)。目前提供獨立數(shù)據目錄的供應商包括Alation、Collibra、Informatica和Data.World。
提供目錄功能的元數(shù)據管理工具。現(xiàn)代數(shù)據目錄主要針對數(shù)據管理員和數(shù)據分析師,他們可自動執(zhí)行元數(shù)據管理任務。Gartner在有關增強數(shù)據目錄的最新報告中警告說,有些供應商將其元數(shù)據管理工具重新命名為數(shù)據目錄。你應該自己做研究以確保你選擇正確的工具。
具有數(shù)據目錄功能的Data Lake支持工具。隨著企業(yè)繼續(xù)構建數(shù)據湖,他們需要可搜索且可重復使用的數(shù)據。這導致供應商在其產品中增加數(shù)據目錄方面。Zaloni和Cloudera Navigator都屬于此類。那些因采用數(shù)據湖而感到畏縮的企業(yè)可考慮這些供應商。
當你的企業(yè)確定選擇企業(yè)數(shù)據目錄或嵌入式數(shù)據目錄后,你就可以繼續(xù)尋找功能。好的數(shù)據目錄應該提供很多功能。
好的數(shù)據目錄應該提供什么?
作為企業(yè),應該由你自己的團隊來確定哪種產品與你的數(shù)據最相關。供應商的數(shù)據目錄具有某些共同特征,必須首先對其質量進行評估。
數(shù)據目錄的重要功能在于其搜索功能。如果沒有靈活的搜索和過濾器選項,用戶將無法找到用于數(shù)據工程和分析目的數(shù)據集。數(shù)據目錄還必須從大量關聯(lián)數(shù)據資產收集元數(shù)據。它還必須提供自動化和數(shù)據智能,以處理與數(shù)據目錄相關的手動任務。人工智能和機器學習可通過推薦來增強數(shù)據。
數(shù)據目錄還應該可連接到企業(yè)內數(shù)據架構的各個組件。Maguire說,企業(yè)數(shù)據目錄可以被視為元數(shù)據的數(shù)據倉庫。數(shù)據目錄從元數(shù)據孤島整合元數(shù)據,類似于數(shù)據倉庫從數(shù)據倉孤島中整合數(shù)據。
數(shù)據目錄另一個重要功能是提供連接器,以從各種組件(例如DBMS、BI工具和數(shù)據倉庫)獲取元數(shù)據。數(shù)據目錄支持以下四種類型的元數(shù)據:
- 技術元數(shù)據,描述數(shù)據模型、存儲模式、文件布局和API。
- 操作元數(shù)據,描述數(shù)據沿襲、性能和對數(shù)據各種操作所產生的日志文件輸出。
- 業(yè)務元數(shù)據分為兩類。一種是描述業(yè)務的元數(shù)據,例如業(yè)務數(shù)據詞匯表的內容。另一個是描述業(yè)務角色如何與數(shù)據資產交互,例如數(shù)據管理員、數(shù)據保管者、自助服務分析師,其中數(shù)據管理員負責特定數(shù)據資產。
- 社交元數(shù)據構成知識,例如對某些數(shù)據資產的證明或認可,或其他用戶對數(shù)據目錄中條目生成的注釋。
常見供應商
市面上有很多企業(yè)和嵌入式數(shù)據目錄,這些選項通常具有相似功能和重疊功能。下面是對數(shù)據目錄選項的簡短比較。
- Alation數(shù)據目錄。Alation是獨立的數(shù)據目錄工具,使用AI來捕獲企業(yè)內數(shù)據的背景信息。它被認為是所有員工都可易于使用的選項。
- Qlik目錄。Qlik的數(shù)據目錄還具有自動化的數(shù)據準備和元數(shù)據工具,以協(xié)助原始數(shù)據的轉換。它還具有數(shù)據市場,允許用戶搜索和發(fā)布數(shù)據集。
- Cloudera數(shù)據目錄。Cloudera的數(shù)據目錄使用戶可以發(fā)現(xiàn)、記錄和監(jiān)視其數(shù)據。同時,此產品允許用戶審核訪問并保護敏感信息,以避免未經授權訪問。
- Collibra目錄。該選項是另一個獨立的數(shù)據目錄,它是基于業(yè)務最終用戶而構建。它是可搜索的存儲庫,使查找和理解數(shù)據更加容易。它還允許管理員記錄角色和職責。
- IBM Watson知識目錄。這是用于人工智能模型治理以及數(shù)據的開放智能數(shù)據目錄。此選項為用戶提供實時數(shù)據虛擬化支持、動態(tài)數(shù)據屏蔽和自動元數(shù)據生成。
- Oracle云基礎架構。Oracle產品提供了搜索和探索選項,使用戶可以通過多方面的搜索和過濾器從各種不同的來源中查找數(shù)據,并收集有關數(shù)據資產的技術元數(shù)據。