Uso de clústeres extendidos locales de Azure para la recuperación ante desastres

Azure Local

Azure Blob Storage

Azure Backup

Azure Monitor

En la siguiente arquitectura de referencia se muestra cómo diseñar e implementar la recuperación ante desastres de Azure Local mediante la agrupación en clústeres extendidos.

Arquitectura

Descargar un archivo de Visio de esta arquitectura.

Componentes

La arquitectura incorpora los siguientes componentes y funcionalidades:

Azure Stack HCI, versión 22H2. Azure Local es una solución de clúster de infraestructura hiperconvergida (HCI) que puede usar para hospedar cargas de trabajo virtualizadas de Windows y Linux y su almacenamiento en un entorno local híbrido. Puede configurar el clúster extendido con 4 a 16 nodos físicos.
réplica de almacenamiento. Réplica de almacenamiento es una tecnología de Windows Server que permite la replicación de volúmenes entre servidores o clústeres con el fin de la recuperación ante desastres.
de migración en vivo. La migración en vivo es una característica de Hyper-V en Windows Server que permite mover sin problemas máquinas virtuales (VM) en ejecución de un host de Hyper-V a otro sin tiempo de inactividad percibido.
testigo en la nube. El testigo en la nube es un testigo de cuórum de clúster de conmutación por error que usa Microsoft Azure Blob Storage para proporcionar un voto sobre el cuórum del clúster.

Detalles del escenario

Normalmente, esta arquitectura se usa para la recuperación ante desastres con conmutación automática por error de máquinas virtuales locales de Azure y recursos compartidos de archivos entre dos ubicaciones físicas dentro de un intervalo de 5 ms de latencia de red de ida y vuelta.

Recomendaciones

La recomendación siguiente se aplica a la mayoría de los escenarios. Siga la recomendación a menos que tenga un requisito específico que lo invalide.

Uso de clústeres extendidos para implementar la recuperación ante desastres automatizada para cargas de trabajo virtualizadas y recursos compartidos de archivos hospedados en Azure Local

Para mejorar la resistencia integrada de Azure Local, implemente una instancia local de Azure estirada que consta de dos grupos de nodos, con un grupo por sitio. Cada grupo debe contener un mínimo de dos nodos. El número total de nodos de un clúster no puede superar el número máximo de nodos admitidos por una instancia local de Azure. Los nodos deben cumplir los requisitos de hardware estándar HCI.

Una instancia local de Azure expandida se basa en la réplica de almacenamiento para realizar la replicación de almacenamiento sincrónica entre los volúmenes de almacenamiento hospedados por los dos grupos de nodos en sus respectivos sitios físicos. Si un error afecta a la disponibilidad del sitio primario, el clúster pasa automáticamente sus cargas de trabajo a los nodos del sitio superviviente para minimizar el posible tiempo de inactividad. Para tiempos de inactividad planeados o esperados en el sitio primario, puede usar Hyper-V Migración en vivo para realizar la transición sin problemas de las cargas de trabajo al otro sitio, lo que evita el tiempo de inactividad por completo. Para este escenario, debe tener en cuenta la ubicación de almacenamiento. Primero debe invertir la dirección de replicación de la réplica de almacenamiento y, a continuación, realizar la migración en vivo de las máquinas virtuales. Habrá un impacto en el rendimiento hasta que finalice la migración en vivo.

Nota

La replicación sincrónica garantiza la coherencia de bloqueos con una pérdida de datos cero en el nivel del sistema de archivos durante una conmutación por error.

Cautela

El requisito de replicación sincrónica aplicable a los clústeres extendidos impone un límite de 5 ms de latencia de red de ida y vuelta entre dos grupos de nodos de clúster en los sitios replicados. En función de las características de conectividad de red física, esta restricción normalmente se traduce en aproximadamente 20-30 millas físicas.

Nota

La funcionalidad de firma y cifrado de réplica de almacenamiento protege automáticamente el tráfico de replicación.

Consideraciones

Estas consideraciones implementan los pilares de Azure Well-Architected Framework, que es un conjunto de principios rectores que se pueden usar para mejorar la calidad de una carga de trabajo. Para obtener más información, consulte Microsoft Azure Well-Architected Framework.

Fiabilidad

La confiabilidad garantiza que la aplicación pueda cumplir los compromisos que realice para sus clientes. Para obtener más información, vea Lista de comprobación de revisión de diseño para lade confiabilidad.

Dominios de error de nivel de sitio. Cada sitio físico de un clúster extendido local de Azure representa dominios de error distintos que proporcionan resistencia adicional. Un dominio de error es un conjunto de componentes de hardware que comparten un único punto de error. Para ser tolerante a errores a un nivel determinado, necesita varios dominios de error en ese nivel.

Nota

Si cada ubicación corresponde a un sitio de AD DS independiente, el proceso de aprovisionamiento del clúster configura automáticamente la asignación de sitio. Si no hay sitios de AD DS independientes que representen las dos ubicaciones, pero los nodos están en dos subredes diferentes, el proceso de aprovisionamiento del clúster identificará los sitios en función de las asignaciones de subred. Si los nodos están en la misma subred, debe definir explícitamente la asignación de sitio.

Reconocimiento del sitio. El reconocimiento del sitio permite controlar la ubicación de las cargas de trabajo virtualizadas mediante la designación de sus sitios preferidos. Especificar el sitio preferido para un clúster extendido ofrece muchas ventajas, incluida la capacidad de agrupar cargas de trabajo en el nivel de sitio y personalizar las opciones de votación de cuórum. De forma predeterminada, todas las máquinas virtuales usan el sitio preferido durante un arranque en frío, aunque también es posible configurar el sitio preferido en el nivel de grupo o rol de clúster. Esto le permite asignar máquinas virtuales específicas a sus respectivos sitios en modo activo-activo. Desde la perspectiva del cuórum, la selección de sitio preferida afecta a la asignación de votos de una manera que favorece ese sitio. Por ejemplo, supongamos que se produce un error en la conectividad entre los dos sitios que hospedan nodos de clúster extendidos y que el testigo del clúster no es accesible. En ese caso, el sitio preferido permanece en línea, mientras que los nodos del otro sitio se expulsan.
Se ha mejorado la velocidad de reparación del volumen de Espacios de almacenamiento directo. Espacios de almacenamiento directo proporciona resincronización automática de eventos que afectan a la disponibilidad de discos dentro de su grupo de almacenamiento, como apagar uno de los nodos del clúster o un error de hardware localizado. Azure Local implementa un proceso de resincronización mejorado que funciona con una granularidad mucho más fina que Windows Server 2019. Este proceso reduce significativamente la duración de la operación de resincronización y minimiza el posible impacto de varios errores de hardware superpuestos.
Límites de resistencia. Azure Local proporciona varios niveles de resistencia, pero debido a su arquitectura hiperconvergida, esa resistencia está sujeta a límites impuestos no solo por el cuórum de clúster de , sino también por el cuórum del grupo de .
Integración con una gama de servicios de Azure que proporcionan ventajas de resistencia adicionales. Puede integrar cargas de trabajo virtualizadas que se ejecutan en instancias locales de Azure con servicios de Azure como Azure Backup y Azure Site Recovery.
Conmutación por error acelerada. Puede optimizar la infraestructura de red y su configuración para acelerar la finalización de una conmutación por error de nivel de sitio. Por ejemplo, puede aprovechar los LAN virtuales extendidos (VLAN), los dispositivos de abstracción de red y los valores de período de vida (TTL) más cortos en registros DNS que representan recursos agrupados. Además, considere la posibilidad de reducir el período de resistencia predeterminado, que determina el período de tiempo durante el cual se permite que una máquina virtual en clúster se ejecute en el estado aislado.

Cautela

El uso de clústeres extendidos con SDN se considera una configuración avanzada y debe ponerse en contacto con el integrador de sistemas o el soporte técnico de Microsoft para obtener más ayuda.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de sus valiosos datos y sistemas. Para obtener más información, vea Lista de comprobación de revisión de diseño para security.

Protección en tránsito. Réplica de almacenamiento ofrece seguridad integrada para su tráfico de replicación, que incluye la firma de paquetes, el cifrado de datos completo AES-128-GCM, la compatibilidad con la aceleración de cifrado intel AES-NI y la prevención de ataques de integridad previa a la autenticación man-in-the-middle. Réplica de almacenamiento también usa Kerberos AES256 para la autenticación entre los nodos de replicación.
Cifrado en reposo. Azure Local admite el cifrado de unidad BitLocker para sus volúmenes de datos, lo que facilita el cumplimiento de estándares como FIPS 140-2 y HIPAA.
Integración con una gama de servicios de Azure que proporcionan ventajas de seguridad adicionales. Puede integrar cargas de trabajo virtualizadas que se ejecutan en instancias locales de Azure con servicios de Azure como Microsoft Defender for Cloud
Configuración fácil de usar firewall. El tráfico de réplica de almacenamiento requiere un número limitado de puertos abiertos entre los nodos de replicación.

Cautela

La réplica de almacenamiento y los clústeres extendidos locales de Azure deben funcionar dentro de un entorno de AD DS. Al planear la implementación de clústeres extendidos locales de Azure, asegúrese de la conectividad con los controladores de dominio de AD DS en cada sitio que hospeda nodos de clúster.

Optimización de costos

La optimización de costos consiste en examinar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costos.

Configuración activa-activa frente a activa-pasiva. Las instancias locales de Azure extendidos admiten los modos activo-pasivo y activo-activo. En modo activo-pasivo, un sitio primario designado se replica de forma unidireccional en otro sitio que proporciona la funcionalidad de recuperación ante desastres. En el modo activo-activo, dos sitios replican sus respectivos volúmenes de forma unidireccional entre sí, lo que proporciona funcionalidad de conmutación por error en caso de error en cualquier sitio. El modo activo-activo ayuda a minimizar los costos de continuidad empresarial eliminando la necesidad de un sitio de recuperación ante desastres dedicado.
Testigo en la nube frente al testigo de recurso compartido de archivos. Un recurso testigo es un componente obligatorio dentro de las instancias locales de Azure. Para implementarlo, elija un testigo en la nube de Azure o un testigo de recurso compartido de archivos. Un testigo en la nube de Azure se basa en un blob de una cuenta de almacenamiento de Azure que designe como punto de arbitraje para evitar escenarios de cerebro dividido. Un testigo de recurso compartido de archivos se basa en un recurso compartido de archivos de bloque de mensajes del servidor (SMB) para lograr el mismo objetivo.

Nota

El testigo en la nube de Azure es la opción recomendada para los clústeres extendidos locales de Azure, siempre que todos los nodos de servidor del clúster tengan conexiones de Internet confiables. Los cargos de Azure correspondientes son insignificantes; se basan en el precio de un blob pequeño con actualizaciones poco frecuentes correspondientes a los cambios en el estado del clúster. En escenarios que implican clústeres extendidos, un testigo de recurso compartido de archivos debe residir en un tercer sitio, lo que puede aumentar significativamente los costos de implementación a menos que el tercer sitio ya esté disponible y tenga conexiones confiables existentes a los sitios que hospedan los nodos de clúster extendidos.

Desduplicación de datos. Réplica local y de almacenamiento de Azure admiten la desduplicación de datos. A partir de Windows Server 2019, la desduplicación está disponible en volúmenes con formato sistema de archivos resistente (ReFS), que es el sistema de archivos recomendado para Azure Local. La desduplicación ayuda a aumentar la capacidad de almacenamiento utilizable mediante la identificación de partes duplicadas de archivos y solo almacenarlas una vez.

Cautela

Aunque debe instalar el servicio de rol de servidor Desduplicación de datos en los servidores de origen y destino, no habilite Desduplicación de datos en los nodos de destino dentro de un clúster extendido local de Azure. Dado que Desduplicación de datos administra las escrituras, solo debe ejecutarse en nodos de clúster de origen. Los nodos de destino siempre reciben copias desduplicadas de cada volumen.

Excelencia operativa

La excelencia operativa abarca los procesos de operaciones que implementan una aplicación y lo mantienen en ejecución en producción. Para obtener más información, vea Lista de comprobación de revisión de diseño para la excelencia operativa.

Conmutación automática por error y recuperación. Un error de sitio primario desencadena la conmutación automática por error. Después de la conmutación por error, el proceso de establecimiento de la replicación desde el nuevo sitio secundario principal o anterior de nuevo al nuevo sitio primario secundario o anterior también es automático. Para evitar la posible pérdida de datos, el clúster evita la conmutación por recuperación hasta que los volúmenes replicados se sincronicen completamente.
Experiencia simplificada de aprovisionamiento y administración mediante Windows Admin Center. El Asistente para crear clústeres en Windows Admin Center proporciona una interfaz controlada por el asistente que le guía por el proceso de creación de un clúster extendido local de Azure. El asistente detecta si los nodos de clúster residen en dos sitios distintos de Active Directory Domain Services (AD DS) o si sus direcciones IP pertenecen a dos subredes diferentes. Si residen en dos subredes diferentes, el asistente crea y configura automáticamente los sitios de clúster correspondientes con cada uno que representa un dominio de error independiente. También le permite designar el sitio preferido. Del mismo modo, Windows Admin Center simplifica el proceso de aprovisionamiento de volúmenes replicados.

Nota

La creación de volúmenes y discos virtuales para clústeres extendidos está más implicada que para los clústeres de un solo sitio. Los clústeres extendidos requieren un mínimo de cuatro volúmenes, formados por dos volúmenes de datos y dos volúmenes de registro, con un par de volúmenes de datos y registros en cada sitio. Al crear un volumen de datos replicado mediante Windows Admin Center, el proceso aprovisiona automáticamente el volumen de registro en el sitio primario y los volúmenes replicados de datos y registros en el sitio secundario, lo que garantiza que cada uno de ellos tenga los valores de configuración y tamaño necesarios.

Compatibilidad con de aprovisionamiento automatizado de clústeres extendidos y administración de almacenamiento mediante Windows PowerShell. Puede ejecutar PowerShell localmente desde una de las máquinas locales de Azure o de forma remota desde un equipo de administración.
Integración con una gama de servicios de Azure que proporcionan ventajas operativas adicionales. Puede integrar cargas de trabajo virtualizadas que se ejecutan en instancias locales de Azure con servicios de Azure como soluciones de Azure Monitor y Azure Automation, incluidas Change Tracking e Inventario y Update Management. Después de un procedimiento de registro obligatorio inicial, las instancias locales de Azure pueden aprovechar Azure Arc para la supervisión y la facturación. La integración de Azure Arc ofrece una integración mejorada con otros servicios híbridos, como azure Policy y Log Analytics. El registro desencadena la creación de un recurso de Azure Resource Manager que representa una instancia local de Azure, lo que amplía eficazmente el plano de administración de Azure a Azure Local.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para satisfacer las demandas que los usuarios ponen en ella de forma eficaz. Para obtener más información, vea Lista de comprobación de revisión de diseño para la eficiencia del rendimiento.

Tráfico de replicación optimizado. Al diseñar la infraestructura para clústeres extendidos locales de Azure, considere la posibilidad de usar el tráfico adicional réplica de almacenamiento, migración en vivo y historial de rendimiento del clúster de réplica de almacenamiento que fluye entre los sitios. La replicación sincrónica requiere al menos 1 Gb de acceso directo a memoria remota (RDMA) o conexión Ethernet/TCP entre sitios de clúster extendidos. Sin embargo, en función del volumen de tráfico de replicación, es posible que necesite una conexión RDMA más rápida. También debe aprovisionar varias conexiones entre sitios, lo que proporciona ventajas de resistencia y le permite separar el tráfico de réplica de almacenamiento de Hyper-V tráfico de migración en vivo.

Cautela

RDMA está habilitado de forma predeterminada para todo el tráfico entre nodos de clúster en el mismo sitio de la misma subred. RDMA está deshabilitado y no se admite entre sitios o entre subredes diferentes. Debe deshabilitar SMB Directo para el tráfico entre sitios o implementar disposiciones adicionales que lo separan del tráfico entre nodos dentro del mismo sitio.

compatibilidad con la sincronización inicial inicial de inicialización. Puede implementar la sincronización inicial inicial de inicialización en escenarios en los que es necesario minimizar el tiempo de sincronización inicial o donde hay un ancho de banda limitado disponible entre los dos sitios que hospedan el clúster extendido.
Procesamiento optimizado de E/S de almacenamiento. Asegúrese de configuración óptima de los volúmenes de datos y registros replicados, incluido su nivel de rendimiento, el volumen y el tamaño del sector, el tipo de disco y el sistema de archivos.

Nota

Windows Admin Center asigna automáticamente la configuración óptima si la usas para aprovisionar volúmenes de clúster extendidos.

Comparteix a través de

Uso de clústeres extendidos locales de Azure para la recuperación ante desastres

Arquitectura

Componentes

Detalles del escenario

Recomendaciones

Uso de clústeres extendidos para implementar la recuperación ante desastres automatizada para cargas de trabajo virtualizadas y recursos compartidos de archivos hospedados en Azure Local

Consideraciones

Fiabilidad

Seguridad

Optimización de costos

Excelencia operativa

Eficiencia del rendimiento

Pasos siguientes

Comentaris

Recursos addicionals

Comparteix a través de

Uso de clústeres extendidos locales de Azure para la recuperación ante desastres

Arquitectura

Componentes

Detalles del escenario

Recomendaciones

Uso de clústeres extendidos para implementar la recuperación ante desastres automatizada para cargas de trabajo virtualizadas y recursos compartidos de archivos hospedados en Azure Local

Consideraciones

Fiabilidad

Seguridad

Optimización de costos

Excelencia operativa

Eficiencia del rendimiento

Pasos siguientes

Recursos relacionados

Comentaris

Recursos addicionals