A Site Recovery monitorozása az Azure Monitor naplóival
Ez a cikk azt ismerteti, hogyan figyelheti az Azure Site Recovery által replikált gépeket az Azure Monitor-naplók és a Log Analytics használatával.
Az Azure Monitor-naplók olyan naplóadat-platformot biztosítanak, amely tevékenység- és erőforrásnaplókat, valamint egyéb monitorozási adatokat gyűjt. Az Azure Monitor-naplókban a Log Analytics használatával napló lekérdezéseket írhat és tesztelhet, és interaktívan elemezheti a naplóadatokat. Megjelenítheti és lekérdezheti a napló eredményeit, és riasztásokat konfigurálhat a figyelt adatokon alapuló műveletek elvégzéséhez.
A Site Recovery esetében az Azure Monitor-naplók segítségével a következőket teheti:
- A Site Recovery állapotának és állapotának figyelése. Figyelheti például a replikáció állapotát, tesztelheti a feladatátvételi állapotot, a Site Recovery-eseményeket, a védett gépek helyreállítási pontjának célkitűzéseit (RPO-kat), valamint a lemez-/adatváltozási arányokat.
- Riasztások beállítása a Site Recovery szolgáltatáshoz. Beállíthatja például a gép állapotára, a feladatátvételi állapot tesztelésére vagy a Site Recovery-feladat állapotára vonatkozó riasztásokat.
Az Azure Monitor-naplók Site Recoveryvel való használata az Azure-ból Az Azure-ba történő replikáció, valamint a VMware virtuális gép/fizikai kiszolgáló azure-beli replikációja támogatott.
Feljegyzés
A VMware- és fizikai gépek adatnaplóinak és feltöltési sebességnaplóinak lekéréséhez telepítenie kell egy Microsoft monitorozási ügynököt a folyamatkiszolgálóra. Ez az ügynök elküldi a replikáló gépek naplóit a munkaterületnek. Ez a funkció csak a 9.30-es mobilitási ügynök verziójához érhető el.
Előfeltételek
A következőkre lesz szüksége:
- Legalább egy gép védett egy Recovery Services-tárolóban.
- Log Analytics-munkaterület a Site Recovery-naplók tárolásához. További információ a munkaterület beállításáról .
- A napló lekérdezéseinek írásának, futtatásának és elemzésének alapszintű ismerete a Log Analyticsben. További információ.
Javasoljuk, hogy a kezdés előtt tekintse át a gyakori figyelési kérdéseket .
Az Azure Site Recoveryhez elérhető eseménynaplók
Az Azure Site Recovery az alábbi erőforrás-specifikus és örökölt táblákat biztosítja. Minden esemény részletes adatokat biztosít a site recoveryvel kapcsolatos összetevők adott készletéről.
Erőforrás-specifikus táblák:
Régi táblák:
- Azure Site Recovery-események
- Azure Site Recovery replikált elemek
- Az Azure Site Recovery replikációs statisztikái
- Azure Site Recovery Points
- Az Azure Site Recovery replikációs adatfeltöltési sebessége
- Azure Site Recovery – védett lemez adatváltozása
- Az Azure Site Recovery replikált elemének részletei
A Site Recovery konfigurálása naplók küldéséhez
A tárolóban válassza a Diagnosztikai beállítások Diagnosztikai beállítások>hozzáadása diagnosztikai beállítás hozzáadása lehetőséget.
A diagnosztikai beállításokban adjon meg egy nevet, és jelölje be a Küldés a Log Analyticsbe jelölőnégyzetet.
Válassza ki az Azure Monitor Logs-előfizetést és a Log Analytics-munkaterületet.
Válassza az Azure Diagnostics lehetőséget a kapcsolóban.
A naplólistában válassza ki az AzureSiteRecovery előtaggal rendelkező összes naplót. Ezután válassza az OK gombra.
A Site Recovery-naplók elkezdenek egy táblába (AzureDiagnostics) bekerülni a kijelölt munkaterületen.
A Microsoft monitorozási ügynökének konfigurálása a folyamatkiszolgálón a forgalom- és feltöltési sebességnaplók küldéséhez
A helyszíni VMware-/fizikai gépek adatváltozási sebességadatait és forrásadat-feltöltési sebességadatait rögzítheti. Ennek engedélyezéséhez telepíteni kell egy Microsoft monitorozási ügynököt a folyamatkiszolgálóra.
Lépjen a Log Analytics-munkaterületre, és válassza a Speciális beállítások lehetőséget.
Válassza a Csatlakoztatott források lapot, és válassza tovább a Windows-kiszolgálók lehetőséget.
Töltse le a Windows-ügynököt (64 bites) a folyamatkiszolgálóra.
Az ügynök telepítésének befejezése a beszerzett munkaterület-azonosító és -kulcs megadásával.
A telepítés befejezése után lépjen a Log Analytics-munkaterületre, és válassza az Örökölt ügynökök kezelése lehetőséget. Lépjen az Adatok lapra, és válassza a Windows Teljesítményszámlálók lehetőséget.
A "+" lehetőséget választva adja hozzá a következő két számlálót 300 másodperces mintaintervallummal:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
A változási és feltöltési sebesség adatai elkezdenek betáplálást kezdeni a munkaterületre.
A következő Site Recovery-számlálók jelenleg nem kereshetők:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
A nevek teljes beillesztésével azonban hozzáadhatók.
Feljegyzés
Jelenleg nem kereshet ezekre a számlálókra. A teljes nevek másolásával és beillesztésével azonban hozzáadhatja őket.
- A SourceVmThrpRate a hálózaton keresztül jeleníti meg a forrás üzembe helyezésének sebességét.
- A SourceVmChurnRate a lemez adatváltozási sebességét mutatja a forrás virtuális gépen.
Naplók lekérdezése – példák
A Naplókból a Kusto lekérdezési nyelvvel írt napló lekérdezésekkel kér le adatokat. Ez a szakasz néhány példát mutat be a Site Recovery monitorozásához esetleg használt gyakori lekérdezésekre.
Feljegyzés
Néhány példa replicationProviderName_s A2A értékre van állítva. Ez lekéri azokat az Azure-beli virtuális gépeket, amelyek a Site Recovery használatával replikálódnak egy másodlagos Azure-régióba. Ezekben a példákban lecserélheti az A2A-t az InMageRcmre, ha helyszíni VMware virtuális gépeket vagy fizikai kiszolgálókat szeretne lekérni, amelyek a Site Recovery használatával replikálódnak az Azure-ba.
Lekérdezésreplikációs állapot
Ez a lekérdezés egy kördiagramot ábrázol az összes védett Azure-beli virtuális gép aktuális replikációs állapotáról, három állapotra bontva: Normál, Figyelmeztetés vagy Kritikus.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , replicationHealth_s
| summarize count() by replicationHealth_s
| render piechart
Lekérdezés Mobility szolgáltatás verziója
Ez a lekérdezés a Site Recoveryvel replikált Azure-beli virtuális gépek kördiagramját ábrázolja az általuk futtatott mobilitási ügynök verziója szerint lebontva.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , agentVersion_s
| summarize count() by agentVersion_s
| render piechart
Lekérdezés RPO-ideje
Ez a lekérdezés a Site Recoveryvel replikált Azure-beli virtuális gépek sávdiagramját ábrázolja helyreállítási pont célkitűzése (RPO) szerint lebontva: Kevesebb mint 15 perc, 15–30 perc, több mint 30 perc.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , RPO
| summarize Count = count() by RPO
| render barchart
Site Recovery-feladatok lekérdezése
Ez a lekérdezés lekéri az összes Site Recovery-feladatot (az összes vészhelyreállítási forgatókönyv esetében), amelyet az elmúlt 72 órában aktiváltak, és azok befejezési állapotát.
AzureDiagnostics
| where Category == "AzureSiteRecoveryJobs"
| where TimeGenerated >= ago(72h)
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType
Site Recovery-események lekérdezése
Ez a lekérdezés lekéri az elmúlt 72 órában létrehozott összes Site Recovery-eseményt (az összes vészhelyreállítási forgatókönyv esetében), valamint azok súlyosságát.
AzureDiagnostics
| where Category == "AzureSiteRecoveryEvents"
| where TimeGenerated >= ago(72h)
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level
Lekérdezésteszt feladatátvételi állapota (kördiagram)
Ez a lekérdezés egy kördiagramot ábrázol a Site Recoveryvel replikált Azure-beli virtuális gépek feladatátvételi állapotának teszteléséhez.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , Resource, failoverHealth_s
| summarize count() by failoverHealth_s
| render piechart
Lekérdezési teszt feladatátvételi állapota (tábla)
Ez a lekérdezés egy táblát ábrázol a Site Recoveryvel replikált Azure-beli virtuális gépek feladatátvételi állapotának teszteléséhez.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s
Gépi RPO lekérdezése
Ez a lekérdezés egy trendgráfot ábrázol, amely egy adott Azure-beli virtuális gép (ContosoVM123) RPO-ját követi nyomon az elmúlt 72 órában.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where TimeGenerated > ago(72h)
| where isnotempty(name_s) and isnotnull(name_s)
| where name_s == "ContosoVM123"
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d
| render timechart
Adatváltozási sebesség lekérdezése (adatváltozás) és feltöltési sebesség lekérdezése Azure-beli virtuális gépeken
Ez a lekérdezés egy trendgráfot ábrázol egy adott Azure-beli virtuális géphez (ContosoVM123), amely az adatváltozás sebességét (másodpercenkénti bájtok írása) és az adatfeltöltési sebességet jelöli.
AzureDiagnostics
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")
| extend CategoryS = case(Category contains "Churn", "DataChurn",
Category contains "Upload", "UploadRate", "none")
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)
| where TimeGenerated > ago(24h)
| where InstanceName_s startswith "ContosoVM123"
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576
| render timechart
Adatváltozási sebesség lekérdezése (adatváltozás) és feltöltési sebesség VMware-hez vagy fizikai géphez
Feljegyzés
Győződjön meg arról, hogy a folyamatkiszolgálón beállította a figyelési ügynököt a naplók lekéréséhez. A monitorozási ügynök konfigurálásához tekintse meg a lépéseket.
Ez a lekérdezés egy win-9r7sfh9qlru nevű replikált elem adott lemezének (disk0) trendgráfját ábrázolja, amely az adatváltozási sebességet (másodpercenkénti bájtok írása) és az adatfeltöltési sebességet jelöli. A lemez nevét a replikált elem Lemezek paneljén találja a helyreállítási tárban. A lekérdezésben használandó példánynév a gép DNS-neve, amelyet a _ és a lemez neve követ, ahogyan ebben a példában is látható.
Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h)
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880
| render timechart
A Folyamatkiszolgáló 5 percenként küldi le ezeket az adatokat a Log Analytics-munkaterületre. Ezek az adatpontok az 5 perc alatt kiszámított átlagot jelölik.
Vészhelyreállítási összegzés lekérdezése (Azure-ból Azure-ba)
Ez a lekérdezés egy összefoglaló táblát ábrázol egy másodlagos Azure-régióba replikált Azure-beli virtuális gépekhez. Megjeleníti a virtuális gép nevét, replikációját és védelmi állapotát, az RPO-t, a feladatátvételi teszt állapotát, a mobilitási ügynök verzióját, az aktív replikációs hibákat és a forráshelyet.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s
Lekérdezés vészhelyreállítási összegzése (VMware/fizikai kiszolgálók)
Ez a lekérdezés egy összegző táblát ábrázol az Azure-ba replikált VMware virtuális gépekhez és fizikai kiszolgálókhoz. Megjeleníti a gép nevét, a replikáció és a védelem állapotát, az RPO-t, a feladatátvételi teszt állapotát, a mobilitási ügynök verzióját, az aktív replikációs hibákat és a megfelelő folyamatkiszolgálót.
AzureDiagnostics
| where replicationProviderName_s == "InMageRcm"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g
Riasztások beállítása – példák
A Site Recovery-riasztásokat az Azure Monitor adatai alapján állíthatja be. További információ a naplóriasztások beállításáról.
Feljegyzés
Néhány példa replicationProviderName_s A2A értékre van állítva. Ez beállítja a másodlagos Azure-régióba replikált Azure-beli virtuális gépekre vonatkozó riasztásokat. Ezekben a példákban lecserélheti az A2A-t az InMageRcmre, ha riasztásokat szeretne beállítani az Azure-ba replikált helyszíni VMware virtuális gépekre vagy fizikai kiszolgálókra vonatkozóan.
Több gép kritikus állapotban
Riasztás beállítása, ha több mint 20 replikált Azure-beli virtuális gép kritikus állapotba kerül.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where replicationHealth_s == "Critical"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
A riasztásnál állítsa a Küszöbérték értékét a következőre 20
: .
Egy gép kritikus állapotban
Riasztás beállítása, ha egy adott replikált Azure-beli virtuális gép kritikus állapotba kerül.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where replicationHealth_s == "Critical"
| where name_s == "ContosoVM123"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
A riasztásnál állítsa a Küszöbérték értékét a következőre 1
: .
Több gép túllépi az RPO-t
Riasztás beállítása, ha az RPO több mint 20 Azure-beli virtuális gép esetében meghaladja a 30 percet.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where rpoInSeconds_d > 1800
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , rpoInSeconds_d
| summarize count()
A riasztásnál állítsa a Küszöbérték értékét a következőre 20
: .
Egy gép meghaladja az RPO-t
Riasztás beállítása, ha egy Azure-beli virtuális gép RPO-értéke meghaladja a 30 percet.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where name_s == "ContosoVM123"
| where rpoInSeconds_d > 1800
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , rpoInSeconds_d
| summarize count()
A riasztásnál állítsa a Küszöbérték értékét a következőre 1
: .
Több gép feladatátvételének tesztelése meghaladja a 90 napot
Riasztás beállítása, ha az utolsó sikeres feladatátvételi teszt több mint 90 nap volt, több mint 20 virtuális gép esetén.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where Category == "AzureSiteRecoveryReplicatedItems"
| where isnotempty(name_s) and isnotnull(name_s)
| where lastSuccessfulTestFailoverTime_t <= ago(90d)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
A riasztásnál állítsa a Küszöbérték értékét a következőre 20
: .
Feladatátvétel tesztelése egyetlen gép esetében meghaladja a 90 napot
Riasztás beállítása, ha egy adott virtuális gép legutóbbi sikeres feladatátvételi tesztje több mint 90 nappal ezelőtt volt.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where Category == "AzureSiteRecoveryReplicatedItems"
| where isnotempty(name_s) and isnotnull(name_s)
| where lastSuccessfulTestFailoverTime_t <= ago(90d)
| where name_s == "ContosoVM123"
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
A riasztásnál állítsa a Küszöbérték értékét a következőre 1
: .
A Site Recovery-feladat meghiúsul
Riasztás beállítása, ha egy Site Recovery-feladat (ebben az esetben az Újravédelmi feladat) meghiúsul bármely Site Recovery-forgatókönyv esetében az elmúlt nap során.
AzureDiagnostics
| where Category == "AzureSiteRecoveryJobs"
| where OperationName == "Reprotect"
| where ResultType == "Failed"
| summarize count()
A riasztásnál állítsa a Küszöbérték értékét 1 értékre, az Időszak 1440 percre az elmúlt nap hibáinak ellenőrzéséhez.
Következő lépések
További információ a Site Recovery beépített monitorozásáról .