Adatok betöltése gépi tanuláshoz és mély tanuláshoz

Cikk
01/22/2025

Ez a szakasz az adatok gépi tanulási és mély tanulási alkalmazásokba történő betöltésével kapcsolatos információkat tartalmaz. Az adatok betöltésével kapcsolatos általános információkért tekintse meg az adatok Databricks lakehouse-ba való betöltését ismertető témakört.

Fájlok tárolása az adatok betöltéséhez és modell-ellenőrzőpont létrehozásához

Előfordulhat, hogy a gépi tanulási alkalmazásoknak megosztott tárolót kell használniuk az adatok betöltéséhez és a modell-ellenőrzőpont létrehozásához. Ez különösen az elosztott mély tanulás esetében fontos.

Az Azure Databricks Unity Catalogbiztosít, amely egységes szabályozási megoldást biztosít az adatokhoz és az AI-eszközökhöz. Unity Catalog-t használva a Spark és a helyi fájl API-kon keresztül is hozzáférhet egy fürt adataihoz.

Táblázatos adatok betöltése

Táblázatos gépi tanulási adatokat tölthet be tables vagy fájlokból (lásd például CSV-fájlok olvasása). Az Apache Spark DataFrame-eket a PySpark metódussal toPandas()pandas DataFrame-ekre konvertálhatja, majd a PySpark metódussal to_numpy()igény szerint NumPy formátumra konvertálhatja.

Adatok előkészítése a nagy nyelvi modellek finomhangolásához

Előkészítheti az adatokat a nyílt forráskód nagy nyelvi modellek finomhangolására a Face Transformers és az Ölelés Face-adatkészletek használatával.

Adatok előkészítése a Face-modellek ölelésének finomhangolásához

Adatok előkészítése elosztott mélytanulási képzéshez

Ez a szakasz az elosztott mélytanulási képzések adatainak előkészítését ismerteti a Mozaikstreamelés és a TFRecords használatával.

Megosztás a következőn keresztül:

Adatok betöltése gépi tanuláshoz és mély tanuláshoz

Fájlok tárolása az adatok betöltéséhez és modell-ellenőrzőpont létrehozásához

Táblázatos adatok betöltése

Adatok előkészítése a nagy nyelvi modellek finomhangolásához

Adatok előkészítése elosztott mélytanulási képzéshez

Visszajelzés

További források