Použitie rozšíreného servera Apache Spark History Server na ladenie a diagnostiku aplikácií Apache Spark
Tento článok poskytuje návod na používanie rozšíreného servera Apache Spark History na ladenie a diagnostiku dokončených a spustených aplikácií Apache Spark.
Prístup k serveru histórie Apache Spark
Server Apache Spark History je webové používateľské rozhranie pre dokončené a spustené aplikácie Spark. Webové používateľské rozhranie služby Apache Spark (UI) môžete otvoriť z notebooku indikátora priebehu alebo stránky s podrobnosťami o aplikácii Apache Spark.
Otvorenie webového používateľského rozhrania služby Spark z notebooku indikátora pokroku
Po spustení úlohy Apache Spark sa tlačidlo na otvorenie webového používateľského rozhrania služby Spark nachádza v možnosti Ďalšie akcie v indikátore priebehu. Vyberte položku Spark web UI a počkajte niekoľko sekúnd, zobrazí sa stránka Používateľské rozhranie služby Spark.
Otvorte webové používateľské rozhranie služby Spark zo stránky s podrobnosťami o aplikácii Apache Spark
Webové používateľské rozhranie služby Spark je tiež možné otvoriť prostredníctvom stránky s podrobnosťami o aplikácii Apache Spark. Na ľavej strane stránky vyberte položku Monitor a potom vyberte aplikáciu Apache Spark. Zobrazí sa stránka s podrobnosťami aplikácie.
V prípade aplikácie Apache Spark, ktorej stav je spustený, sa zobrazí tlačidlo Spark UI. Vyberte položku Spark UI a zobrazí sa stránka Spark UI.
Pre aplikáciu Apache Spark, ktorej stav sa skončil, môže byť stav ukončený na Zastavenie, Neúspešné, Zrušené alebo Dokončené. Na tlačidli sa zobrazuje server Spark History Server. Vyberte položku Server histórie spark a zobrazí sa stránka Spark UI.
Karta Graph v serveri histórie Apache Spark
Vyberte ID úlohy pre úlohu, ktorú chcete zobraziť. Potom v ponuke nástrojov vyberte položku Graph , čím získate zobrazenie grafu úloh.
Prehľad
Prehľad svojej práce nájdete v grafe generovaných úloh. V grafe sa predvolene zobrazujú všetky úlohy. Toto zobrazenie môžete filtrovať podľa ID úlohy.
Zobrazenie
Predvolene je vybratá možnosť Zobrazenie priebehu . Tok údajov môžete skontrolovať výberom položky Čítať alebo Napísané v rozbaľovacom zozname Zobrazenie .
Uzol grafu zobrazuje farby zobrazené v legende mapy heatmap.
Prehrávanie
Ak chcete úlohu prehrať, vyberte položku Prehrávanie. Ak chcete zastaviť, môžete kedykoľvek vybrať položku Zastaviť . Farby úloh zobrazujú pri prehrávaní rôzne stavy:
Farba | Význam |
---|---|
Zelená | Úspešné: Úloha sa úspešne dokončila. |
Oranžová | Zopakované: Inštancie úloh, ktoré zlyhali, ale nemajú vplyv na konečný výsledok úlohy. Tieto úlohy mali duplicitné alebo opakované inštancie, ktoré môžu byť úspešné neskôr. |
Modrá | Spustená: Úloha je spustená. |
Biela | Čakanie alebo vynechanie: Úloha čaká na spustenie alebo vynechaná fáza. |
Červená | Neúspešné: Úloha zlyhala. |
Na nasledujúcom obrázku sú zobrazené zelené, oranžové a modré farby stavu.
Na nasledujúcom obrázku sú zobrazené zelené a biele farby stavu.
Na nasledujúcom obrázku sú zobrazené červené a zelené farby stavu.
Poznámka
Server Apache Spark History umožňuje prehrávanie pre každú dokončenú úlohu (ale neumožňuje prehrávanie neúplných úloh).
Zoom
Posúvaním myšou priblížite a zväčšíte graf úloh, alebo vyberte položku Priblížiť, aby sa prispôsobila obrazovke.
Popisy
Ukázaním na uzol grafu zobrazíte popis, keď dochádza k zlyhaným úlohám, a vyberte fázu, ktorá otvorí stránku fázy.
Na karte Job Graph majú fázy popis a malú ikonu zobrazenú, ak majú úlohy, ktoré spĺňajú nasledujúce podmienky:
Podmienka | Description |
---|---|
Skreslenie údajov | Priemerná veľkosť > čítania údajov v rámci všetkých úloh v tejto fáze * 2 a veľkosť > čítania údajov 10 MB. |
Časový špíz | Priemerný čas > vykonania všetkých úloh v tejto etape * 2 a čas > spustenia 2 minúty. |
Popis uzla grafu
Uzol job graph zobrazuje nasledujúce informácie o každej etape:
- ID
- Názov alebo popis
- Celkové číslo úlohy
- Čítanie údajov: súčet veľkosti vstupu a shuffle veľkosti čítania
- Zápis údajov: súčet veľkosti výstupu a shuffle zapíše veľkosť
- Čas spustenia: čas medzi časom začatia prvého pokusu a časom dokončenia posledného pokusu
- Počet riadkov: súčet vstupných záznamov, výstupné záznamy, shuffle čítať záznamy a shuffle písať záznamy
- Priebeh
Poznámka
Uzol grafu úloh predvolene zobrazuje informácie z posledného pokusu každej fázy (okrem času spustenia fázy). Počas prehrávania však uzol grafu zobrazuje informácie o každom pokuse.
Veľkosť údajov čítania a zapisovania je 1MB = 1 000 kB = 1 000 * 1 000 bajtov.
Poskytnúť pripomienky
Pripomienky s problémami odošlite výberom položky Odoslať pripomienky.
Maximálny počet fáz
Pri zvažovaní výkonu je graf predvolene k dispozícii len vtedy, keď má aplikácia Spark menej ako 500 fáz. Ak je príliš veľa fáz, takáto chyba zlyhá:
The number of stages in this application exceeds limit (500), graph page is disabled in this case.
Ako alternatívne riešenie pred spustením aplikácie Spark použite túto konfiguráciu služby Spark, aby ste zvýšili limit:
spark.ui.enhancement.maxGraphStages 1000
Všimnite si však, že to môže spôsobiť zlý výkon stránky a rozhrania API, pretože obsah môže byť príliš veľký pre prehliadač na načítanie a vykreslenie.
Preskúmajte kartu Diagnosis (Diagnostika) na serveri Apache Spark History Server
Ak chcete získať prístup k karte Diagnosis (Diagnostika), vyberte ID úlohy. Potom v ponuke nástrojov vyberte položku Diagnostika , čím získate úlohu Diagnostikovať zobrazenie. Karta diagnostiky obsahuje funkciu Skreslenie údajov, Časový špíz a Analýzu používania vykonávača.
Pomocou kariet skontrolujete skreslenie údajov, skreslenie času a analýzu používania vykonávateľa.
Údaje skresliť
Po výbere karty Údaje skresliť sa na základe zadaných parametrov zobrazia príslušné skreslené úlohy.
Specify Parameters (Zadajte parametre ) – v prvej časti sa zobrazujú parametre, ktoré sa používajú na zistenie údajov skreslenia. Predvolené pravidlo je: načítané údaje úlohy sú väčšie ako trikrát vyššie ako priemerné načítané údaje úlohy a načítané údaje úlohy sú viac ako 10 MB. Ak chcete definovať vlastné pravidlo pre skreslené úlohy, môžete vybrať parametre. Časti Skreslené štádium a Skew Char sa podľa toho obnovujú.
Skreslená fáza – v druhej časti sa zobrazujú fázy, ktoré majú skreslené úlohy spĺňajú zadané kritériá. Ak sa vo fáze nachádza viac ako jedna skreslená úloha, tabuľka skreslenej fázy zobrazí iba skreslenú úlohu (napríklad najväčšie údaje z údajových skreslenia).
Skreslenie grafu – keď je vybratý riadok v tabuľke skreslenia, špízový graf zobrazuje viac podrobností o distribúcii úloh na základe času čítania a vykonania údajov. Skreslené úlohy sú označené červenou farbou a bežné úlohy sú označené modrou farbou. Graf zobrazuje až 100 ukážkových úloh a podrobnosti úloh sa zobrazujú na pravom dolnom paneli.
Časový špíz
Karta Time Skew (Skreslenie času) zobrazuje skreslené úlohy na základe času vykonania úlohy.
Specify Parameters (Zadajte parametre ) – v prvej časti sa zobrazujú parametre, ktoré sa používajú na zisťovanie skreslenia času. Predvolené kritériá na zisťovanie časového skreslenia sú: čas spustenia úlohy je väčší ako trikrát priemerného času vykonania a čas spustenia úlohy je väčší ako 30 sekúnd. Parametre môžete zmeniť na základe vašich potrieb. Skreslená etapa a skreslený graf zobrazujú príslušné informácie o fázach a úlohách, rovnako ako na karte Skreslenie údajov, ktorá bola popísaná predtým.
Vyberte položku Time Skew (Skreslenie času), filtrovaný výsledok sa zobrazí v sekcii Skreslená fáza podľa parametrov nastavených v časti Zadajte parametre. Vyberte jednu položku v časti Skreslená fáza , potom sa príslušný graf navrhne v časti 3 a podrobnosti úlohy sa zobrazia na pravom dolnom paneli.
Analýza používania vykonávača
Táto funkcia už nie je v službe Fabric podporovaná. Ak chcete toto riešenie napriek tomu použiť ako alternatívne riešenie, prejdite na stránku tak, že do URL adresy explicitne pridáte za cestu /diagnostiku výraz "/diagnostic" tak, ako napríklad: