以下参考体系结构演示如何使用拉伸群集设计和实现 Azure Local 的灾难恢复。
建筑
下载此体系结构的 Visio 文件。
组件
该体系结构包含以下组件和功能:
- Azure Stack HCI 版本 22H2。 Azure 本地 是一种超融合基础结构(HCI)群集解决方案,可用于在本地混合环境中托管虚拟化的 Windows 和 Linux 工作负载及其存储。 可以使用 4 到 16 个物理节点配置拉伸群集。
- 存储副本。 存储副本是一种 Windows Server 技术,用于在服务器或群集之间启用卷复制,以实现灾难恢复。
- 实时迁移。 实时迁移是 Windows Server 中的一项 Hyper-V 功能,可让你无缝地将正在运行的虚拟机(VM)从一台 Hyper-V 主机移动到另一台主机,而不会发现停机。
- 云见证。 云见证是故障转移群集仲裁见证,它使用 Microsoft Azure Blob 存储提供群集仲裁的投票。
方案详细信息
通常使用此体系结构进行灾难恢复,并在 5 毫秒往返网络延迟范围内的两个物理位置之间自动故障转移 Azure 本地 VM 和文件共享。
建议
以下建议适用于大多数方案。 除非有替代该建议的特定要求,否则请遵循该建议。
使用拉伸群集为 Azure 本地托管的虚拟化工作负荷和文件共享实现自动化灾难恢复
若要增强 Azure Local 的内置复原能力,请实现一个由两组节点组成的延伸 Azure 本地实例,每个站点有一个组。 每个组必须至少包含两个节点。 群集中的节点总数不能超过 Azure 本地实例支持的最大节点数。 节点必须满足
拉伸的 Azure 本地实例依赖于存储副本在其各自物理站点中的两组节点托管的存储卷之间执行同步存储复制。 如果故障影响主站点的可用性,群集会自动将其工作负荷转换为幸存站点中的节点,以最大程度地减少潜在的停机时间。 对于主站点的计划内或预期停机时间,可以使用 Hyper-V 实时迁移将工作负荷无缝转换为其他站点,从而避免完全停机。 对于此方案,应注意存储位置。 应首先反转存储副本的复制方向,然后执行 VM 的实时迁移。 在实时迁移完成之前,性能将受到影响。
注意
同步复制可确保在故障转移期间在文件系统级别出现零数据丢失时的崩溃一致性。
谨慎
适用于拉伸群集的同步复制要求在复制站点中的两组群集节点之间施加了 5 毫秒往返网络延迟的限制。 根据物理网络连接特征,此约束通常转换为大约 20-30 物理英里。
注意
存储副本的签名和加密功能会自动保护复制流量。
考虑
这些注意事项实现 Azure Well-Architected 框架的支柱,这是一组指导原则,可用于提高工作负荷的质量。 有关详细信息,请参阅 azure Well-Architected Framework
可靠性
可靠性可确保应用程序能够履行对客户的承诺。 有关详细信息,请参阅 可靠性的设计评审清单。
- 站点级容错域。 Azure 本地拉伸群集的每个物理站点都表示提供额外复原能力的不同容错域。 容错域是一组共享单一故障点的硬件组件。 若要容错到特定级别,需要该级别的多个容错域。
注意
如果每个位置对应于单独的 AD DS 站点,群集预配过程会自动配置站点分配。 如果没有表示这两个位置的单独 AD DS 站点,但节点位于两个不同的子网上,群集预配过程将基于子网分配标识站点。 如果节点位于同一子网上,则必须显式定义站点分配。
网站感知。 站点感知允许通过指定虚拟化工作负载的位置来控制其首选站点的放置。 为拉伸群集指定首选站点可提供许多好处,包括能够在站点级别对工作负荷进行分组以及自定义仲裁投票选项。 默认情况下,在冷启动期间,所有虚拟机都使用首选站点,但也可以在群集角色或组级别配置首选站点。 这样,就可以在主动-主动模式下将特定虚拟机分配给各自的站点。 从仲裁的角度来看,首选网站选择以有利于该网站的方式影响投票的分配。 例如,如果托管拉伸群集节点的两个站点之间的连接失败,并且无法访问群集见证,则首选站点将保持联机状态,而其他站点中的节点将被逐出。
改进了存储空间直通卷修复速度。 存储空间直通提供自动重新同步以下事件,这些事件会影响其存储池中磁盘的可用性,例如关闭其中一个群集节点或本地化的硬件故障。 Azure Local 实现 增强的重新同步过程,其粒度比 Windows Server 2019 更精细。 此过程可显著减少重新同步操作的持续时间,并最大程度地减少多个重叠的硬件故障的潜在影响。
复原能力限制。 Azure 本地提供多个级别的复原能力,但由于其超聚合体系结构,复原能力不仅受 群集仲裁的限制,而且受 池仲裁的限制。
与一系列提供额外复原优势的 Azure 服务集成。 可以将在 Azure 本地实例上运行的虚拟化工作负荷与 Azure 备份 等 Azure
服务集成, Azure Site Recovery 。加速故障转移。 可以优化网络基础结构及其配置,以加快站点级故障转移的完成。 例如,可以利用表示群集资源的 DNS 记录中的拉伸虚拟 LAN(VLAN)、网络抽象设备和较短的生存时间(TTL)值。 此外,请考虑降低 默认复原期,这决定了允许群集 VM 在隔离状态下运行的时间段。
谨慎
将 Stretched 群集与 SDN 配合使用被视为高级配置,应联系系统集成商或Microsoft支持部门获取进一步帮助。
安全
安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅 安全的设计评审清单。
传输中的保护。 存储副本为其复制流量提供内置安全性,包括数据包签名、AES-128-GCM 完整数据加密、支持 Intel AES-NI 加密加速和预身份验证完整性中间人攻击防护。 存储副本还利用 Kerberos AES256 在复制节点之间进行身份验证。
静态加密。 Azure Local 支持 BitLocker 驱动器加密,以便符合 FIPS 140-2 和 HIPAA 等标准。
与一系列提供额外安全优势的 Azure 服务集成。 可以将在 Azure 本地实例上运行的虚拟化工作负荷与 Microsoft Defender for Cloud 等 Azure 服务集成
防火墙友好的配置。 存储副本流量需要 复制节点之间有限数量的开放端口。
谨慎
存储副本和 Azure 本地拉伸群集必须在 AD DS 环境中运行。 规划 Azure 本地拉伸群集部署时,请确保连接到托管群集节点的每个站点中的 AD DS 域控制器。
成本优化
成本优化是研究减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅 成本优化的设计评审清单。
主动-主动与主动-被动配置。 拉伸的 Azure 本地实例支持主动-被动和主动-主动模式。 在主动-被动模式下,指定的主站点单向复制到提供灾难恢复功能的另一个站点。 在主动-主动模式下,两个站点将各自的卷单向复制到对方,在任一站点发生故障时提供故障转移功能。 主动-主动模式通过消除对专用灾难恢复站点的需求,帮助最大程度地降低业务连续性成本。
云见证与文件共享见证。 见证资源是 Azure 本地实例中的必需组件。 若要实现它,请选择 Azure 云见证或文件共享见证。 Azure 云见证依赖于指定为仲裁点的 Azure 存储帐户中的 Blob,以防止拆分脑方案。 文件共享见证依赖于服务器消息块(SMB)文件共享来实现相同的目标。
注意
Azure 云见证是 Azure 本地拉伸群集的建议选择,前提是群集中的所有服务器节点都具有可靠的 Internet 连接。 相应的 Azure 费用可忽略不计;它们基于与群集状态更改相对应的不经常更新的小 Blob 的价格。 在涉及拉伸群集的方案中,文件共享见证应驻留在第三个站点中,除非第三个站点已可用且与托管拉伸群集节点的站点建立可靠连接,否则可能会显著提高实现成本。
- 重复数据删除。 Azure 本地和存储副本支持重复数据删除。 从 Windows Server 2019 开始,重复数据删除适用于使用弹性文件系统(ReFS)格式化的卷上可用,这是 Azure 本地推荐的文件系统。 重复数据删除有助于增加可用存储容量,方法是识别文件重复部分,并仅存储一次。
谨慎
尽管应在源服务器和目标服务器上安装重复数据删除服务器角色服务,但不要在 Azure 本地拉伸群集的目标节点上启用重复数据删除。 由于重复数据删除管理写入,因此它应仅在源群集节点上运行。 目标节点始终接收每个卷的重复数据删除副本。
卓越运营
卓越运营涵盖部署应用程序并使其在生产环境中运行的运营流程。 有关详细信息,请参阅 卓越运营的设计评审清单。
自动故障转移和恢复。 主站点故障触发自动故障转移。 故障转移后,从新的主/前辅助站点建立从新的主/前辅助站点到新的辅助/前主站点的复制的过程也是自动的。 为了防止潜在的数据丢失,群集会阻止故障回复,直到复制的卷完全同步。
使用 Windows Admin Center 简化了预配和管理体验。 Windows Admin Center 中的“创建群集”向导提供了向导驱动的界面,指导你完成创建 Azure 本地拉伸群集的过程。 向导检测群集节点是否驻留在两个不同的 Active Directory 域服务(AD DS)站点中,或者其 IP 地址是否属于两个不同的子网。 如果它们驻留在两个不同的子网中,向导会自动创建并配置相应的群集站点,每个站点都表示单独的容错域。 它还允许你指定首选站点。 同样,Windows Admin Center 简化了预配复制卷的过程。
注意
为拉伸群集创建卷和虚拟磁盘比单站点群集更复杂。 拉伸群集至少需要四个卷,其中包含两个数据卷和两个日志卷,每个站点都有一个数据/日志卷对。 使用 Windows Admin Center 创建复制的数据卷时,该过程会自动在主站点中预配日志卷,以及辅助站点中的数据和日志复制卷,确保每个卷都具有所需的大小和配置设置。
支持使用 Windows PowerShell 自动拉伸群集预配 和 存储管理。 可以从其中一台 Azure 本地计算机或从管理计算机远程运行 PowerShell。
与一系列提供额外运营优势的 Azure 服务集成。 可以将在 Azure 本地实例上运行的虚拟化工作负荷与 azure Monitor 和 Azure 自动化解决方案等 Azure 服务集成,包括 更改跟踪和清单 以及 更新管理。 遵循初始强制注册过程后,Azure 本地实例可以利用 Azure Arc 进行监视和计费。 Azure Arc 集成提供与其他混合服务的增强集成,例如 Azure Policy 和 Log Analytics。 注册会触发创建表示 Azure 本地实例的 Azure 资源管理器资源,从而有效地将 Azure 管理平面扩展到 Azure 本地。
性能效率
性能效率是工作负荷以高效方式满足用户对它的需求的能力。 有关详细信息,请参阅 性能效率的设计评审清单。
- 优化的复制流量。 为 Azure 本地拉伸群集设计基础结构时,请考虑在站点之间流动的其他存储副本、实时迁移和存储副本群集性能历史记录流量。 同步复制需要在拉伸群集站点之间至少需要 1 Gb 远程直接内存访问(RDMA)或以太网/TCP 连接。 但是,根据复制流量量,可能需要 更快的 RDMA 连接。 还应在站点之间预配多个连接,这可提供复原能力优势,并允许 单独的存储副本流量与 Hyper-V 实时迁移流量。
谨慎
默认情况下,为同一子网上同一站点中的群集节点之间的所有流量启用 RDMA。 RDMA 处于禁用状态,在站点之间或不同子网之间不受支持。 应为跨站点流量禁用 SMB Direct,或者实现 附加预配, 将其与同一站点中的跨节点流量分开。
对种子初始同步的支持。 在需要最小化初始同步时间或托管拉伸群集的两个站点之间有有限的带宽的情况下,可以 实现种子设定的初始同步。
优化了存储 I/O 的处理。 确保 复制数据和日志卷的最佳配置,包括其性能层、卷和扇区大小调整、磁盘类型和文件系统。
注意
如果将其用于 预配拉伸群集卷,Windows Admin Center 会自动分配最佳配置。
后续步骤
- Azure 本地解决方案概述
- 在 Windows Server 和 Azure 本地 中
故障转移群集 - 为故障转移群集部署云见证
- Azure 本地 中的新增功能
- Azure 本地常见问题解答
相关资源
- 混合体系结构设计
-
Azure 混合选项 - 将 Azure 本地无交换机互连和轻型仲裁用于远程办公室或分支机构
- 使用 Azure Arc 优化本地和多云环境中的 SQL Server 实例的管理
- Azure Automation State Configuration