Trénovanie modelov strojového učenia
Apache Spark – súčasť služby Microsoft Fabric – umožňuje strojové učenie s veľkým objemom údajov. Pomocou Apache Spark môžete vytvárať cenné prehľady o veľkých masách štruktúrovaných, neštruktúrovaných a rýchlo sa pohybujúcich údajov. Počas trénovania modelov strojového učenia pomocou Apache Spark v službe Microsoft Fabric máte k dispozícii niekoľko dostupných možností knižnice open-source: Apache Spark MLlib, SynapseML a ďalšie.
Apache SparkML a MLlib
Apache Spark – súčasť služby Microsoft Fabric – poskytuje zjednotený, otvorený a paralelný rámec spracovania údajov. Táto architektúra podporuje spracovanie v pamäti, ktoré podporuje analýzu veľkého objemu údajov. Spracovací nástroj Spark je vytvorený pre rýchlosť, jednoduché používanie a sofistikovanú analýzu. Distribuované výpočtové funkcie služby Spark vo vyhradenej pamäti ho robia dobrou voľbou pre iteračné algoritmy, ktoré používajú strojové učenie a grafové výpočty.
Knižnice strojového učenia MLlib a SparkML prinášajú do tohto distribuovaného prostredia možnosti algoritmického modelovania. MLlib obsahuje pôvodné rozhranie API postavené na rdds. SparkML je novší balík. Poskytuje rozhranie API vyššej úrovne postavené na architektúre DataFrames na výstavbu kanálov strojového učenia. SparkML zatiaľ nepodporuje všetky funkcie MLlib, ale MLlib nahrádza ako štandardnú knižnicu strojového učenia služby Spark.
Poznámka
Ďalšie informácie o vytváraní modelu SparkML nájdete v zdroji Train models with Apache Spark MLlib .
Obľúbené knižnice
Modul runtime služby Microsoft Fabric pre Apache Spark zahŕňa niekoľko populárnych balíkov typu open-source na trénovanie modelov strojového učenia. Tieto knižnice poskytujú opätovne použiteľný kód, ktorý môžete zahrnúť do svojich programov alebo projektov. Modul runtime zahŕňa tieto relevantné knižnice strojového učenia a ďalšie:
Scikit-learn – jedna z najpopulárnejších knižníc strojového učenia s jedným uzlom pre klasické algoritmy strojového učenia. Scikit-learn podporuje väčšinu algoritmov učenia pod dohľadom a bez dozoru a dokáže spracovávať dolovanie údajov a analýzu údajov.
XGBoost – populárna knižnica strojového učenia, ktorá obsahuje optimalizované algoritmy na trénovanie rozhodovacích stromov a náhodných lesov.
PyTorch a Tensorflow sú výkonné knižnice hlbokého vzdelávania jazyka Python. Pomocou týchto knižníc môžete nastaviť počet spúšťačov vo vašom fonde na nulu a vytvárať modely s jedným počítačom. Hoci táto konfigurácia nepodporuje Apache Spark, je to jednoduchý, nákladovo efektívny spôsob vytvárania modelov s jedným počítačom.
SynapseML
Open-source knižnica SynapseML (predtým známa ako MMLSpark) zjednodušuje vytváranie masívne škálovateľných kanálov strojového učenia. Vďaka tomu sa dátový vedec používa službu Spark čoraz produktívnejšie, pretože knižnica zvyšuje mieru experimentovania a používa špičkové techniky strojového učenia vrátane hlbokého učenia sa vo veľkých množinách údajov.
SynapseML poskytuje vrstvu nad rozhraniami API nízkej úrovne služby SparkML pri vytváraní škálovateľných modelov strojového učenia. Tieto rozhrania API zahŕňajú indexovanie reťazcov, zostavovanie vektorov funkcií, vynútenie údajov do rozloženia vhodného pre algoritmy strojového učenia a ďalšie. Knižnica SynapseML zjednodušuje tieto a ďalšie bežné úlohy pri vytváraní modelov v PySparku.
Súvisiaci obsah
Tento článok poskytuje prehľad o rôznych možnostiach, ktoré sú k dispozícii na trénovanie modelov strojového učenia v rámci apache Spark v službe Microsoft Fabric. Ďalšie informácie o trénovaní modelu nájdete v týchto zdrojoch:
- Používanie ukážok umelej inteligencie na vytvorenie modelov strojového učenia: Používanie ukážok umelej inteligencie
- Sledovanie spustení strojového učenia pomocou experimentov: experimenty strojového učenia