Compartilhar via


Proteja os seus ativos na nuvem

Este artigo fornece práticas recomendadas para manter a confiabilidade e a segurança do seu patrimônio de nuvem do Azure. A confiabilidade garante que seus serviços na nuvem permaneçam operacionais com o mínimo de tempo de inatividade. A segurança salvaguarda a confidencialidade, integridade e disponibilidade dos seus recursos. Tanto a confiabilidade quanto a segurança são essenciais para o sucesso das operações na nuvem.

Gerencie a confiabilidade

O gerenciamento de confiabilidade envolve o uso de redundância, replicação e estratégias de recuperação definidas para minimizar o tempo de inatividade e proteger seus negócios. Tabela 1 fornece um exemplo de três prioridades de carga de trabalho, requisitos de confiabilidade (SLO de tempo de atividade, tempo de inatividade máximo, redundância, balanceamento de carga, replicação) e cenários de exemplo que se alinham com os SLOs (objetivos de nível de serviço)

Tabela 1. Exemplo de requisitos de prioridade e confiabilidade da carga de trabalho.

Prioridade Impacto nos negócios SLO de disponibilidade mínima Tempo de inatividade máximo por mês Redundância de arquitetura Balanceamento de carga Replicação e backups de dados Cenário de exemplo
Alto (de importância crítica) Efeitos imediatos e severos na reputação ou receita da empresa. 99,99% 4.32 Minutos Multi-região & Várias zonas de disponibilidade em cada região Ativo-ativo Replicação de dados síncrona entre regiões & backups para recuperação Linha base crítica para a missão
Média Efeitos mensuráveis na reputação ou receita da empresa. 99,9% 43.20 Minutos Várias regiões & Várias zonas de disponibilidade em cada região Ativo-passivo Replicação assíncrona de dados entre regiões & backups para recuperação Padrão de aplicativo Web confiável
Baixo Nenhum efeito sobre a reputação, processos ou lucros da empresa. 99% 7.20 horas Região única & Zonas de disponibilidade múltiplas Redundância da zona de disponibilidade Replicação síncrona de dados entre zonas de disponibilidade, com backups & para recuperação Linha de Base do Serviço de Aplicativo
Linha de base da máquina virtual

Identificar responsabilidades de confiabilidade

As responsabilidades de confiabilidade variam de acordo com o modelo de implantação. Use a tabela a seguir para identificar suas responsabilidades de gerenciamento para infraestrutura (IaaS), plataforma (PaaS), software (SaaS) e implantações locais.

Responsabilidade No localmente IaaS (Azure) PaaS (Azure) SaaS
Dados ✔️ ✔️ ✔️ ✔️
Código e tempo de execução ✔️ ✔️ ✔️
Recursos na nuvem ✔️ ✔️ ✔️
Hardware físico ✔️

Para obter mais informações, consulte Responsabilidade compartilhada pela confiabilidade.

Definir requisitos de confiabilidade

Requisitos de confiabilidade claramente definidos são essenciais para metas de tempo de atividade, recuperação e tolerância à perda de dados. Siga estas etapas para definir os requisitos de confiabilidade:

  1. Priorize cargas de trabalho. Atribua prioridades altas, médias (padrão) ou baixas a cargas de trabalho com base na criticidade do negócio e nos níveis de investimento financeiro. Revise regularmente as prioridades para manter o alinhamento com as metas de negócios.

  2. Atribua o objetivo de nível de serviço (SLO) de tempo de atividade a todas as cargas de trabalho. Estabeleça metas de tempo de atividade de acordo com a prioridade da carga de trabalho. Cargas de trabalho de prioridade mais alta exigem metas de tempo de atividade mais rígidas. Seu SLO influencia sua arquitetura, estratégias de gerenciamento de dados, processos de recuperação e custos.

  3. Identificar indicadores de nível de serviço (SLIs). Use SLIs para medir o desempenho do tempo de operação em relação ao seu SLO. Exemplos incluem a monitorização do estado de funcionamento do serviço e as taxas de erro .

  4. Atribua um RTO (Recovery Time Objetive, objetivo de tempo de recuperação) a todas as cargas de trabalho. O RTO define o tempo de inatividade máximo aceitável para sua carga de trabalho. O RTO deve ser menor do que o seu período anual permitido de inatividade. Por exemplo, um SLO de tempo de atividade de 99,99% requer menos de 52 minutos de inatividade anual (4,32 minutos por mês). Siga estes passos:

    1. Estimar o número de falhas. Estime a frequência com que você acha que cada carga de trabalho pode falhar por ano. Para cargas de trabalho com histórico operacional, use os seus SLIs. Para novas cargas de trabalho, execute uma análise de modo de falha para obter uma estimativa precisa.

    2. Estimar o RTO. Divida o tempo de inatividade anual permitido pelo número estimado de falhas. Se você estimar quatro falhas por ano, então seu RTO deve ser de 13 minutos ou menos (52 minutos / 4 falhas = 13 minutos RTO).

    3. Teste o seu tempo de recuperação. Acompanhe o tempo médio de recuperação durante testes de failover e falhas em tempo real. O tempo que você leva para se recuperar de uma falha deve ser menor do que o seu RTO. Se a sua solução de continuidade de negócios leva horas para

  5. Defina RPO (Recovery Point Objetives, objetivos de ponto de recuperação) para todas as cargas de trabalho. Determine quanta perda de dados sua empresa pode tolerar. Esse objetivo influencia a frequência com que você replica e faz backup de seus dados.

  6. Definir metas de confiabilidade da carga de trabalho. Para metas de confiabilidade da carga de trabalho, consulte as Recomendações do Well-Architected Framework para definir metas de confiabilidade.

Gerencie a confiabilidade dos dados

A confiabilidade dos dados envolve replicação de dados (réplicas) e backups (cópias point-in-time) para manter a disponibilidade e a consistência. Consulte Tabela 2 para obter exemplos de prioridade de carga de trabalho alinhada com as metas de confiabilidade de dados.

Tabela 2. Prioridade de carga de trabalho com exemplos de configurações de confiabilidade de dados.

Prioridade da carga de trabalho SLO de disponibilidade Replicação de dados Backups de dados Cenário de exemplo
Alto 99,99% Replicação síncrona de dados entre regiões

Replicação síncrona de dados em zonas de disponibilidade
Backups de alta frequência entre regiões. A frequência deve dar suporte a RTO e RPO. Plataforma de dados de missão crítica
Média 99,9% Replicação síncrona de dados entre regiões

Replicação síncrona de dados em zonas de disponibilidade
Backups entre regiões. A frequência deve suportar RTO e RPO. Solução de banco de dados e armazenamento no padrão Reliable Web App
Baixo 99% Replicação síncrona de dados em zonas de disponibilidade Backups entre regiões. A frequência deve suportar RTO e RPO. Resiliência de dados na aplicação web de linha de base com redundância de zona

Sua abordagem deve alinhar as configurações de confiabilidade de dados com os requisitos de RTO e RPO de suas cargas de trabalho. Siga estes passos:

  1. Gerenciar a replicação de dados. Replique seus dados de forma síncrona ou assíncrona de acordo com os requisitos de RTO e RPO da sua carga de trabalho.

    Distribuição de dados Replicação de dados Configuração de balanceamento de carga
    Entre zonas de disponibilidade Síncrono (quase em tempo real) A maioria dos serviços PaaS lida com balanceamento de carga entre zonas nativamente
    Entre regiões (ativo-ativo) Síncrono Balanceamento de carga ativo-ativo
    Entre regiões (ativo-passivo) Assíncrono (periódico) Configuração ativo-passivo

    Para obter mais informações, consulte Replicação: Redundância de dados.

  2. Gerenciar backups de dados. Os backups são para recuperação de desastres (falha de serviço), recuperação de dados (exclusão ou corrupção) e resposta a incidentes (segurança). Os backups devem oferecer suporte aos requisitos de RTO e RPO para cada carga de trabalho. Escolha soluções de backup alinhadas com suas metas de RTO e RPO. Prefira as soluções internas do Azure, como o Azure Cosmos DB e os backups nativos do Banco de Dados SQL do Azure. Para outros casos, incluindo dados locais, use Backup do Azure. Para obter mais informações, consulte Backup.

  3. Projetar a confiabilidade dos dados de carga de trabalho. Para o projeto de confiabilidade dos dados de carga de trabalho, consulte o guia de particionamento de dados do Well-Architected Framework e os guias de serviço do Azure (comece com a secção Confiabilidade).

Gerencie a confiabilidade do código e do tempo de execução

Código e tempo de execução são responsabilidades de carga de trabalho. Siga o guia de autorrecuperação e autopreservação do Framework Well-Architected .

Gerencie a confiabilidade dos recursos da nuvem

O gerenciamento da confiabilidade de seus recursos de nuvem geralmente requer redundância de arquitetura (instâncias de serviço duplicadas) e uma estratégia eficaz de balanceamento de carga. Consulte Tabela 3 para obter exemplos de redundância de arquitetura alinhada com a prioridade da carga de trabalho.

Tabela 3. Exemplos de prioridade de carga de trabalho e redundância de arquitetura.

Prioridade da carga de trabalho Redundância de arquitetura Abordagem de balanceamento de carga Solução de balanceamento de carga do Azure Cenário de exemplo
Alto Duas regiões & zonas de disponibilidade Ativo-ativo Azure Front Door (HTTP)

Azure Traffic Manager (não HTTP)
Plataforma de aplicativos de linha de base de missão crítica
Médio Duas regiões & zonas de disponibilidade Ativo-passivo Azure Front Door (HTTP)

Azure Traffic Manager (não HTTP)
Diretrizes confiáveis de arquitetura de padrões de aplicativos Web
Baixo Zonas de disponibilidade da região única & Entre zonas de disponibilidade Gateway de Aplicativo do Azure

Adicionar o Azure Load Balancer para máquinas virtuais
Linha de base do Serviço de Aplicações
Linha de base da máquina virtual

Sua abordagem deve implementar redundância de arquitetura para atender aos requisitos de confiabilidade de suas cargas de trabalho. Siga estes passos:

  1. Estime o tempo de atividade das suas arquiteturas. Para cada carga de trabalho, calcule o SLA composto. Inclua apenas serviços que possam causar falha na carga de trabalho (caminho crítico). Siga estes passos:

    1. Reúna os SLAs de tempo de atividade da Microsoft para cada serviço no caminho crítico de sua carga de trabalho.

    2. Se você não tiver caminhos críticos independentes, calcule o SLA composto de região única multiplicando as porcentagens de tempo de atividade de cada serviço relevante. Se você tiver caminhos críticos independentes, vá para a etapa 3 antes de calcular.

    3. Quando dois serviços do Azure fornecem caminhos críticos independentes, aplique a fórmula de caminhos críticos independentes a esses serviços.

    4. Para aplicações multirregionais, insira o SLA composto de região única (N) na fórmula de tempo de atividade de várias regiões.

    5. Compare o seu tempo de atividade calculado com o seu SLO de tempo de atividade. Ajuste as camadas de serviço ou a redundância da arquitetura, se necessário.

    Caso de uso Fórmula Variáveis Exemplo Explicação
    Estimativa de tempo de atividade de uma única região N = S1 × S2 × S3 × ... × Un N: SLA composto dos serviços do Azure num caminho crítico de uma única região.
    S: percentagem de tempo de atividade de cada serviço de Azure no Acordo de Nível de Serviço.
    n: Número total de serviços do Azure no caminho crítico.
    N = 99,99% (aplicativo) × 99,95% (banco de dados) × 99,9% (cache) Carga de trabalho simples com aplicativo (99,99%), banco de dados (99,95%) e cache (99,9%) em um único caminho crítico.
    Estimativa de caminhos críticos independentes S1 x 1 - [(1 - S2) × (1 - S3)] S: porcentagem de tempo de atividade do SLA para serviços do Azure que fornecem caminhos críticos independentes. 99.99% (aplicação) × (1 - [(1 - 99.95% base de dados) × (1 - 99.9% cache)]) Dois caminhos críticos independentes. O banco de dados (99,95%) ou o cache (99,9%) podem falhar sem tempo de inatividade.
    Estimativa de disponibilidade em várias regiões M = 1 - (1 - N)^R M: Estimativa de tempo de atividade de várias regiões.
    N: SLA composto de região única.
    R: Número de regiões utilizadas.
    Se N = 99,95% e R = 2, então M = 1 - (1 - 99,95%)^2 Carga de trabalho implantada em duas regiões.
  2. Ajuste as camadas de serviço. Antes de modificar arquiteturas, avalie se diferentes camadas de serviço do Azure (SKUs) podem atender aos seus requisitos de confiabilidade. Algumas camadas de serviço do Azure podem ter SLAs de tempo de atividade diferentes, como os Discos Gerenciados do Azure.

  3. Adicionar redundância de arquitetura. Se a sua estimativa de tempo de atividade atual ficar aquém do seu SLO, aumente a redundância:

    1. Use várias zonas de disponibilidade. Configure suas cargas de trabalho para usar várias zonas de disponibilidade. Pode ser difícil de estimar como as zonas de disponibilidade melhoram o tempo de atividade. Apenas alguns serviços têm SLAs de tempo de atividade que levam em conta as zonas de disponibilidade. Quando os SLAs contabilizarem zonas de disponibilidade, use-os nas suas estimativas de tempo de funcionamento. Veja alguns exemplos na tabela a seguir.

      Tipo de serviço do Azure Serviços do Azure com SLAs da zona de disponibilidade
      Plataforma de computação Serviço de Aplicativo,
      Serviço Kubernetes do Azure,
      Máquinas Virtuais
      Armazenamento de dados Barramento de Serviço do Azure,
      Contas de Armazenamento do Azure,
      Cache do Azure para Redis,
      Camada Premium do Azure Files
      Base de dados Azure Cosmos DB,
      Banco de Dados SQL do Azure,
      Banco de Dados do Azure para MySQL,
      Banco de Dados do Azure para PostgreSQL,
      Instância gerenciada do Azure para Apache Cassandra
      Balanceador de carga Gateway de aplicativo
      Segurança Azure Firewall
    2. Use várias regiões. Várias regiões são frequentemente necessárias para atender aos SLOs de disponibilidade. Use balanceadores de carga globais (Azure Front Door ou Traffic Manager) para distribuição de tráfego. As arquiteturas de várias regiões exigem um gerenciamento cuidadoso da consistência dos dados.

  4. Gerenciar redundância de arquitetura. Decida como usar a redundância: Você pode usar a redundância de arquitetura como parte das operações diárias (ativa). Ou você pode usar redundância de arquitetura em cenários de recuperação de desastres (passiva). Para exemplos, consulte Tabela 3.

    1. Balanceamento de carga entre zonas de disponibilidade. Use toda a disponibilidade ativamente. Muitos serviços PaaS do Azure gerenciam o balanceamento de carga entre zonas de disponibilidade automaticamente. As cargas de trabalho IaaS devem usar um balanceador de carga interno para balancear a carga entre zonas de disponibilidade.

    2. Distribuição de carga entre regiões. Determine se as cargas de trabalho de várias regiões devem ser executadas em modo ativa-ativa ou ativa-passiva com base nas necessidades de fiabilidade.

  5. Gerenciar configurações de serviço. Aplique consistentemente configurações em instâncias redundantes de recursos do Azure, para que os recursos se comportem da mesma maneira. Use infraestrutura como de código para manter a consistência. Para obter mais informações, consulte Configuração de recursos duplicados.

  6. Confiabilidade da carga de trabalho do projeto. Para o design de confiabilidade da carga de trabalho, consulte o Well-Architected Framework:

    Fiabilidade da carga de trabalho Orientações
    Pilar da fiabilidade Design altamente disponível em várias regiões
    Projetando para redundância
    Usando zonas de disponibilidade e regiões
    Guia de serviço Guias de serviço do Azure (começar com a seção Confiabilidade)

Para obter mais informações, consulte Redundância.

Gerencie a continuidade de negócios

A recuperação de uma falha requer uma estratégia clara para restaurar os serviços rapidamente e minimizar as interrupções para manter a satisfação do usuário. Siga estes passos:

  1. Prepare-se para falhas. Crie procedimentos de recuperação separados para cargas de trabalho com base em prioridades altas, médias e baixas. de confiabilidade de dados, de confiabilidade de código e tempo de execução e de confiabilidade de recursos de nuvem são a base da preparação para falhas. Selecione outras ferramentas de recuperação para ajudar na preparação da continuidade de negócios. Por exemplo, use o Azure Site Recovery para cargas de trabalho de servidor locais e baseadas em máquina virtual.

  2. Testar e documentar o plano de recuperação. Teste regularmente seus processos de failover e failback para confirmar que suas cargas de trabalho atendem aos objetivos de tempo de recuperação (RTO) e aos objetivos de ponto de recuperação (RPO). Documente claramente cada etapa do plano de recuperação para facilitar a referência durante incidentes. Verifique se as ferramentas de recuperação, como o Azure Site Recovery, atendem consistentemente ao RTO especificado.

  3. Detetar falhas. Adote uma abordagem proativa para identificar interrupções rapidamente, mesmo que esse método aumente os falsos positivos. Priorize a experiência do cliente minimizando o tempo de inatividade e mantendo a confiança do usuário.

    1. Monitorar falhas. Monitore cargas de trabalho para detetar interrupções em um minuto. Use Integridade do Serviço do Azure e Integridade de Recursos do Azure e use alertas do Azure Monitor para notificar equipas relevantes. Integre esses alertas com o Azure DevOps ou ferramentas de Gerenciamento de Serviços de TI (ITSM).

    2. Coletar indicadores de nível de serviço (SLIs). Acompanhe o desempenho definindo e reunindo métricas que servem como SLIs. Garanta que suas equipes usem essas métricas para medir o desempenho da carga de trabalho em relação aos seus SLOs (objetivos de nível de serviço).

  4. Responder a falhas. Alinhe sua resposta de recuperação à prioridade da carga de trabalho. Implemente procedimentos de failover para redirecionar solicitações para infraestrutura redundante e réplicas de dados imediatamente. Quando os sistemas estabilizarem, resolva a causa raiz, sincronize dados e execute procedimentos de failback. Para obter mais informações, consulte Failover e failback.

  5. Analisar falhas. Identifique as causas profundas dos problemas e, em seguida, resolva o problema. Documente as lições e faça as alterações necessárias.

  6. Gerenciar falhas de carga de trabalho. Para recuperação de desastres de carga de trabalho, consulte o guia de recuperação de desastres do Well-Architected Framework e guias de serviço do Azure (começar com a seção Confiabilidade).

Ferramentas de fiabilidade do Azure

Caso de uso Solução
Replicação de dados, backup e continuidade de negócios Guias de serviço do Azure (começar com a seção Confiabilidade)

Referência rápida:
Azure Cosmos DB
Banco de Dados SQL do Azure
Armazenamento de Blobs do Azure
Arquivos do Azure
Backup de dados Backup do Azure
Continuidade de negócios (IaaS) Azure Site Recovery
Balanceador de carga multi-região Azure Front Door (HTTP)
do Azure Traffic Manager (não HTTP)
Balanceador de carga de zonas de múltipla disponibilidade Gateway de Aplicações do Azure (HTTP)
Azure Load Balancer (não HTTP)

Gerir a segurança

Use um processo de segurança iterativo para identificar e mitigar ameaças em seu ambiente de nuvem. Siga estes passos:

Gerenciar controles de segurança

Gerencie seus controles de segurança para detetar ameaças ao seu patrimônio na nuvem. Siga estes passos:

  1. Padronizar ferramentas de segurança. Use ferramentas padronizadas para detetar ameaças, corrigir vulnerabilidades, investigar problemas, proteger dados, fortalecer recursos e impor conformidade em escala. Consulte ferramentas de segurança do Azure.

  2. Defina uma linha de base para o seu ambiente. Documente o estado normal do seu ambiente na nuvem. Monitorize a segurança e documente os padrões de tráfego na rede e os comportamentos dos utilizadores. Use linhas de base de segurança do Azure e guias de serviço do Azure para desenvolver configurações de linha de base para serviços. Esta linha de base facilita a deteção de anomalias e potenciais fragilidades de segurança.

  3. Aplicar controlos de segurança. Implementar medidas de segurança, como controles de acesso, criptografia e autenticação multifator, fortalece o ambiente e reduz a probabilidade de comprometimento. Para obter mais informações, consulte Gerenciarde segurança .

  4. Atribuir responsabilidades de segurança. Designe a responsabilidade pelo monitoramento de segurança em seu ambiente de nuvem. O monitoramento regular e as comparações com a linha de base permitem a rápida identificação de incidentes, como acesso não autorizado ou transferências de dados incomuns. Atualizações e auditorias regulares mantêm a sua linha de base de segurança eficaz contra ameaças em evolução.

Para obter mais informações, consulte CAF Secure.

Gerenciar incidentes de segurança

Adote um processo e ferramentas para se recuperar de incidentes de segurança, como ransomware, negação de serviço ou intrusão de agentes de ameaças. Siga estes passos:

  1. Prepare-se para incidentes. Desenvolver um plano de resposta a incidentes que defina claramente as funções de investigação, mitigação e comunicação. Teste regularmente a eficácia do seu plano. Avalie e implemente ferramentas de gerenciamento de vulnerabilidades, sistemas de deteção de ameaças e soluções de monitoramento de infraestrutura. Reduza sua superfície de ataque por meio do fortalecimento da infraestrutura e crie estratégias de recuperação específicas da carga de trabalho. Ver Visão geral da resposta a incidentes e Guias de resposta a incidentes.

  2. Detetar incidentes. Use a ferramenta de gerenciamento de eventos e informações de segurança (SIEM), como Microsoft Sentinel, para centralizar seus dados de segurança. Utilize as capacidades de orquestração, automação e resposta (SOAR) do Microsoft Sentinel para automatizar tarefas de segurança de rotina. Integre feeds de inteligência de ameaças no seu SIEM para obter informações sobre táticas adversárias relevantes para o seu ambiente na nuvem. Use Microsoft Defender for Cloud para verificar regularmente o Azure em busca de vulnerabilidades. O Microsoft Defender integra com o Microsoft Sentinel para fornecer uma visão unificada de eventos de segurança.

  3. Responder a incidentes. Ative imediatamente seu plano de resposta a incidentes ao detetar um incidente. Inicie rapidamente os procedimentos de investigação e mitigação. Ative seu plano de recuperação de desastres para restaurar os sistemas afetados e comunique claramente os detalhes do incidente à sua equipe.

  4. Analisar incidentes de segurança. Após cada incidente, revise as informações sobre ameaças e atualize seu plano de resposta a incidentes com base nas lições aprendidas e nos insights de recursos públicos, como a base de conhecimento MITRE ATT&CK. Avalie a eficácia de suas ferramentas de gerenciamento e deteção de vulnerabilidades e refine as estratégias com base na análise pós-incidente.

Para obter mais informações, consulte Gerenciar resposta a incidentes (CAF Secure).

Ferramentas de segurança do Azure

Capacidade de segurança Solução Microsoft
Gestão de identidades e acessos ID do Microsoft Entra
Controle de acesso baseado em função Controle de acesso baseado em função do Azure
Deteção de ameaças Microsoft Defender para Nuvem
Gestão de informações de segurança Microsoft Sentinel
Segurança e governança de dados Microsoft Purview
Segurança de recursos na nuvem linhas de base de segurança do Azure
Governança da nuvem Azure Policy
Segurança do endpoint Microsoft Defender para Endpoint
Segurança da rede Azure Network Watcher
Segurança industrial Microsoft Defender para IoT