首充送50%
续费低至5折
AWS CDN 1折购
免费代充值
免费选购指南
免费协助迁移

通过数据共享和分析平台将您的数据用于跨企业

2023-07-25

安全地共享数据和分析是组织数据云战略的基础。这是您为您和您的利益相关者释放数据资产并创造价值的方式。然而,跨团队、系统和其他组织协作的大型且数据丰富的组织通常很难做到这一点。你是如何开始的? 我们一直在与英国公共部门组织合作开展一项雄心勃勃的计划,以构建大型混合和多云数据共享和分析能力。基于我们的合作,我们正在规划该平台的下一版本。在这里,我们展示了一个参考,它源自我们与该客户以及其他拥有大型多云环境的客户合作的经验。如果您刚刚开始,它将节省您的时间;如果您已经开始,它可以作为参考。 蓝图和架构Google Cloud 带来的部分价值是能够实现端到端架构,使组织能够实时提取数据,无论数据驻留在哪个云或数据存储中,并通过统一的治理和访问将其用于更深入的洞察和人工智能 (AI)。由于我们的客户需要从其他第三方来源获取数据,并且需要允许第三方用户访问,因此我们已将他们的特定需求纳入我们的架构计划中。让我们更详细地讨论一下这些计划。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_1_-_High_Level_Architecture.max-2200x2200.png

数据摄取 拥有可重复的数据摄取模式非常重要。对于我们的客户来说,一些数据直接保存在 Google Cloud 中,而其他数据则不在平台上。许多大型政府组织都面临着多云数据集成的挑战。对于您的平台将拥有和保存的数据,您可以通过 Cloud Data Fusion 或 Cloud Storage Transfer Service 等工具将其拉入,以快速安全地从 Google Cloud、Amazon、Azure 或本地的各个存储位置提取对象和文件。您还可以使用 Google Cloud Storage API、BigQuery Storage API 推送数据,将记录实时流式传输到 BigQuery 或批量处理任意数量的记录。如果数据位于 Google Cloud 外部,并且您的组织有权查询该数据,但必须将数据保留在原处,则您可以使用 BigQuery Omni 查询可用区域中的 AWS S3 和 Azure Blob 中的数据。您还可以使用Looker并从其许多不同的数据库连接器中进行选择来查询外部数据。最后,Analytics Hub将允许您的用户访问其他 GCP 组织发布的数据。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_2_-_Data_Storage.max-1500x1500.png

着陆区和数据处理一旦数据到达平台,您就需要对其进行转换、暂存和管理。数据转换的繁重工作由 Dataproc(用于 Spark 作业)或 Dataflow(用于使用 Apache Beam 的流作业)等工具执行。这些环境要么是无服务器的,要么是完全托管的,并且根据您的需求,将自动扩展并允许您指定所需的基于代码的数据转换。您可以将数据隔离到不同的项目中,以便您可以轻松管理访问权限并遵循最小权限原则。数据转换和移动的不同步骤的编排应该在 Cloud Composer(托管 Airflow)或 Cloud Workflows 等工具中完成,从而为您的数据管道提供沿袭和可审计性。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_3_-_Data_Processing.max-1800x1800.png

安全、治理和监控政府和高度监管的行业必须格外注意安全。存储在 Google Cloud 上的所有数据在静态和传输过程中都会进行加密,可以选择使用 Google 管理的加密密钥(以减少操作开销)或您自己的密钥(如果您愿意)。无论如何,您应该使用多层方法来保护您的数据:围绕平台的项目设置 VPC-SC 边界将确保所有访问都满足基于 IP 地址、身份和/或可信设备的安全要求。此外,使用身份感知代理使运营团队能够通过 shell 访问相关虚拟机。在 Cloud Logging 中为包含敏感数据的资源启用数据访问日志将为您提供平台的全面可见性和可审核性。最后,Dataplex 可让您跨湖、区域和不同层轻松组织数据,以便您实施自己的治理框架。这种组织清晰度与许多其他安全功能(例如集中式数据保留策略、数据沿袭、数据质量和数据分类)相结合,将使您进一步改善安全状况和平台的可审核性。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_4__-_Data_Security__Governance.max-700x700.png

数据发布 政府组织通常希望与公众或其他政府部门共享数据。因此,您的平台应该允许您的用户访问其他组织的数据,但也需要允许其他组织访问您持有的数据。这是我们客户面临的挑战。为此,您需要在管理不同数据源之间的权限的同时提供数据 - 同时保持数据所有者的控制,而不是集中数据管理。这就是 Analytics Hub 的用武之地:您可以高效、安全地管理内部和外部资产库,让您在组织内部和组织之间交换数据。默认情况下,Analytics Hub 内的交换是私有的,但您可以轻松设置精细的角色和权限,以便您可以将大规模数据交付给正确的用户。通过这种方式,数据发布者可以轻松查看和管理所有共享数据集的订阅,从而掌控自己的数据。数据订阅者在其项目内获得不透明、只读、链接的数据集。 同时,非结构化数据可以在摄取时进行转换(例如使用 Document AI 对文档中的数据进行系统化和标记),也可以驻留在 Cloud Storage 中并通过 BigQuery 中的对象表进行访问。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_5_-_Data_Publishing.max-1300x1300.png

分析区我们客户的分析师接下来需要的是分析他们有权访问的数据并创造价值的工具。为了实现可视化和洞察力,Looker 连接到可用的数据集,并让业务用户与仪表板交互地探索数据,并可以选择向下钻取和调查数据的不同视图和方面。对于分析师来说,使用 BigQuery 及其 UI 提供了一个简单的界面来运行强大的 SQL 查询并快速获得更复杂问题的答案。访问该平台的数据科学家将希望 Vertex AI 开发机器学习模型并研究数据中的复杂关系。数据科学家将能够使用基于他们熟悉的开源 Jupyter 笔记本的 Vertex AI 笔记本、访问 GPU 等强大的加速器,并使用 Google 的 AutoML 功能来加快开发速度。最后,开发人员可以将云工作站用作完全可定制的基于 Web 的 IDE。这些选择意味着您的数据平台将支持所有用户类型:从业务用户到数据科学家和工程师。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_6b__-_Analytics__Metadata.max-1500x1500.png

用户和访问管理 用户需要被分配到管理其权限的组。云身份和访问管理 (IAM) 确保只有属于具有正确权限的组的用户才能访问他们被授权的数据,并且只能执行他们被授权使用分析服务的一组操作。 同时,您应该对平台上的所有用户实施多重身份验证(MFA)。我们建议尽可能使用硬件密钥进行 MFA,并优先考虑高特权用户。与此同时,BeyondCorp Enterprise 功能可让您控制用户的访问上下文,以对端点状态实施最低级别的安全性 - 例如,需要最新的操作系统,或者来自您组织管理的端点的连接。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_7_-_User_and_Access_Management.max-900x900.png

corebyte图标
©2022 深圳九河互联信息技术有限公司 版权所有 备案:粤ICP备16022551号 粤公网安备案号44030602002606