Partilhar via


Reparar um nó no Azure Local

Aplica-se a: Azure Local 2311.2 e posterior

Este artigo descreve como reparar um nó na sua instância local do Azure. Neste artigo, cada servidor é referido como um nó.

Sobre nós de reparo

O Azure Local é um sistema hiperconvergente que permite reparar nós de sistemas existentes. Talvez precise reparar um nó num sistema se houver uma falha de hardware.

Antes de reparar um nó, verifique com seu provedor de soluções quais componentes no nó são FRUs (unidades de substituição de campo) que você mesmo pode substituir e quais componentes exigiriam a substituição de um técnico.

As peças que suportam hot swap normalmente não exigem que você recrie a imagem do nó, ao contrário dos componentes não hot-swappable, como a placa-mãe. Consulte o fabricante do hardware para determinar quais substituições de componentes exigiriam que você recriasse a imagem do nó. Para obter mais informações, consulte Substituição de componentes.

Fluxo de trabalho do nó de reparo

O diagrama de fluxo a seguir mostra o processo completo para a reparação de um nó.

Diagrama ilustrando o processo do nó de reparo.

*O nó pode não estar em um estado em que o desligamento seja possível ou necessário*

Para reparar um nó existente, siga estas etapas de alto nível:

  1. Se possível, desligue o nó que deseja reparar. Dependendo do estado do nó, um desligamento pode não ser possível ou necessário.

  2. Reimagem o nó que precisa ser reparado.

  3. Executar a operação no nó de reparo. O sistema operacional HCI do Azure Stack, drivers e firmware são atualizados como parte da operação de reparo.

    O armazenamento é rebalanceado automaticamente no nó reimaginado. O reequilíbrio de armazenamento é uma tarefa de baixa prioridade que pode ser executada por vários dias, dependendo do número de nós e do armazenamento usado.

Cenários suportados

A reparação de um nó cria uma nova imagem de um nó e traz-o de volta ao sistema com o nome e a configuração anteriores.

A reparação de um único nó resulta em uma reimplantação com a opção de persistir os volumes de dados. Somente o volume do sistema é eliminado e novamente provisionado durante a implantação.

Importante

Certifique-se de que você sempre tenha backups para suas cargas de trabalho e não confie apenas na resiliência do sistema. Isso é particularmente crítico em cenários de nó único.

Configurações de resiliência

Nesta versão, para uma operação de nó de reparo, tarefas específicas não são executadas nos volumes de carga de trabalho criados após a implantação. Para uma operação de nó de reparo, somente os volumes de infraestrutura necessários e os volumes de carga de trabalho são restaurados e apresentados como CSVs (volumes compartilhados de cluster).

Os outros volumes de carga de trabalho criados após a implantação ainda são retidos e você pode descobrir esses volumes executando o Get-VirtualDisk cmdlet. Você precisará desbloquear manualmente o volume (se o volume tiver o BitLocker habilitado) e criar um CSV (se necessário).

Requisitos de Hardware

Ao reparar um nó, o sistema valida o hardware do novo nó de entrada e garante que o nó atenda aos requisitos de hardware antes de ser adicionado ao sistema.

Componente Verificação da conformidade
CPU Valide se o novo nó tem o mesmo número de ou mais núcleos de CPU. Se os núcleos de CPU no nó de entrada não atenderem a esse requisito, um aviso será apresentado. No entanto, a operação é permitida.
Memória Valide se o novo nó tem a mesma quantidade ou mais de memória instalada. Se a memória no nó de entrada não atender a esse requisito, um aviso será apresentado. No entanto, a operação é permitida.
Unidades Valide se o novo nó tem o mesmo número de unidades de dados disponíveis para o Storage Spaces Direct. Se o número de unidades de discos no nó de entrada não cumprir este requisito, um erro será relatado e a operação será bloqueada.

Substituição de nós

Você pode substituir todo o nó:

  • Com um novo nó que tem um número de série diferente em comparação com o nó antigo.
  • Com o nó atual depois de recriar a imagem.

Os seguintes cenários são suportados durante a substituição de nós:

Node Disk Suportado
Novo nó Novos discos Sim
Novo nó Discos atuais Sim
Nó atual (reconfigurado) Discos atuais reformatados ** Não
Nó atual (reimaginado) Novos discos Sim
Nó atual (reconfigurado) Discos atuais Sim

**Os discos que foram utilizados pelo Storage Spaces Direct requerem uma limpeza adequada. A reformatação não é suficiente. Saiba como Limpar unidades.

Importante

Se você substituir um componente durante o reparo do nó, não precisará substituir ou redefinir unidades de dados. Se substituir uma unidade ou redefini-la, a unidade não será reconhecida quando o nó entrar no sistema.

Substituição de componentes

Na sua instância Local do Azure, os componentes não hot-swappable incluem os seguintes itens:

  • Placa-mãe/controladora de gerenciamento da placa base (BMC)/placa de vídeo
  • Controlador de disco/adaptador de barramento de host (HBA)/backplace
  • Adaptador de rede
  • Unidade de processamento gráfico
  • Unidades de dados (unidades que não suportam hot swap, por exemplo, placas de expansão PCI-e)

As etapas reais de substituição para componentes que não podem ser trocados a quente variam de acordo com o fornecedor de hardware do fabricante do equipamento original (OEM). Consulte a documentação do seu fornecedor OEM se for necessária uma reparação de nó, para componentes que não são hot-swappable.

Pré-requisitos

Antes de reparar um nó, você deve garantir que:

  • AzureStackLCMUser está ativo no Ative Directory. Para obter mais informações, consulte Preparar o Ative Directory.
  • Entrou como AzureStackLCMUser ou outro usuário com permissões equivalentes.
  • As credenciais do AzureStackLCMUser não foram alteradas.

Reparar um nó

Esta seção descreve como reparar um nó usando o PowerShell, monitorizar o estado da operação Repair-Server e resolver eventuais problemas.

Certifique-se de que reviu os pré-requisitos.

Siga estas etapas no nó que você está tentando reparar.

  1. Entre no portal do Azure com permissões de funções de administrador do Azure Stack HCI.

    1. Vá para o grupo de recursos usado para implantar sua instância Local do Azure. No grupo de recursos, identifique o recurso de máquina do Azure Arc para o nó defeituoso que você deseja reparar.

    2. No recurso de máquina do Azure Arc, vá para Configurações > Bloqueios. No painel direito, você verá um bloqueio de recurso.

    3. Selecione o cadeado e, em seguida, selecione o ícone da lixeira para excluir o bloqueio.

      Captura de ecrã da eliminação do bloqueio de recursos no nó defeituoso da máquina Azure Arc.

    4. Na página Visão Geral do recurso da máquina do Azure Arc, no painel direito, selecione Eliminar. Esta ação deve eliminar o nó defeituoso da máquina.

      Captura de ecrã da eliminação do nó defeituoso da máquina Azure Arc.

  2. Instale o sistema operacional e os drivers necessários no nó que você deseja reparar. Siga as etapas em Instalar o Sistema Operacional HCI do Azure Stack, versão 23H2.

    Nota

    Se você implantou sua instância Local do Azure usando IPs de armazenamento personalizados, deverá atribuir manualmente IPs aos adaptadores de rede de armazenamento depois que o nó for reparado.

  3. Registe o nó com o Arc. Siga os passos em Registe com o Arc e configure as permissões.

    Nota

    Você deve usar os mesmos parâmetros dos nós existentes para se registrar no Arc. Por exemplo: Nome do Grupo de Recursos, Região, Assinatura e Locatário .

  4. Atribua as seguintes permissões ao nó reparado:

    • Função de Gerenciamento de Dispositivo Local do Azure
    • Utilizador do Key Vault Secrets Para obter mais informações, consulte Atribuir permissões ao nó.

Siga estas etapas em outro nodo que seja membro da mesma instância local do Azure.

  1. Se você estiver executando uma versão anterior à 2405.3, deverá executar o seguinte comando para limpar arquivos conflitantes:

    Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force
    
  2. Entre no nó que já é membro do sistema, com as credenciais de usuário do domínio que você forneceu durante a implantação do sistema. Execute o seguinte comando para reparar o nó de entrada:

    $Cred = Get-Credential 
    Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
    

    Nota

    O nome do nó deve ser o Nome NetBIOS. O parâmetro LocalAdminCredential por padrão, é a conta de administrador interna criada pela instalação do sistema operacional Windows.

  3. Anote o ID da operação como saída pelo Repair-Server comando. Use isso mais tarde para monitorar o progresso da Repair-Server operação.

Monitorar o progresso da operação

Para monitorar o progresso da operação de adicionar nó, execute estas etapas:

  1. Execute o cmdlet a seguir e forneça a ID da operação da etapa anterior.

    $ID = "<Operation ID>" 
    Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID 
    
  2. Após a conclusão da operação, o trabalho de rebalanceamento de armazenamento em segundo plano continuará a ser executado. Aguarde a conclusão do trabalho de reequilíbrio de armazenamento. Para verificar o progresso desse trabalho de rebalanceamento de armazenamento, use o seguinte cmdlet:

    Get-VirtualDisk|Get-StorageJob
    

    Se o trabalho de reequilíbrio de armazenamento for concluído, o cmdlet não retornará uma saída.

Cenários de recuperação

Os cenários de recuperação a seguir e as etapas de mitigação recomendadas são apresentados numa tabela para a reparação de um nó.

Descrição do cenário Mitigação Suportado?
A operação de nó de reparação falhou. Para concluir a operação, investigue a falha.
Tente novamente a operação falhada usando Repair-Server -Rerun.
Sim
A operação de reparo do nó foi apenas parcialmente bem-sucedida e foi necessário começar com uma nova instalação do sistema operativo. Nesse cenário, o orquestrador (também conhecido como Lifecycle Manager) já atualizou a sua base de conhecimento com o novo nó. Use o cenário de nó de reparo. Sim

Resolução de Problemas

Se tiveres falhas ou erros ao reparar um nó, podes guardar o registo das falhas num ficheiro de log.

  • Entre com as credenciais de usuário do domínio que você forneceu durante a implantação do sistema. Capture o problema nos arquivos de log.

    Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
    
  • Para executar novamente a operação com falha, use o seguinte cmdlet:

    Repair-Server -Rerun
    

Próximos passos

Saiba mais sobre como Adicionar um nó.