Azure Synapse Analytics terminológia
Ez a cikk az Azure Synapse Analytics alapfogalmait ismerteti.
Synapse-munkaterület
A Synapse-munkaterület biztonságos együttműködési határ az Azure-beli felhőalapú vállalati elemzések elvégzésére. Egy munkaterület egy adott régióban van üzembe helyezve, és egy társított Azure Data Lake Storage Gen2-fiókkal és fájlrendszerrel rendelkezik az ideiglenes adatok tárolásához. A munkaterület egy erőforráscsoport alá tartozik.
A munkaterület lehetővé teszi, hogy az SQL és az Apache Spark használatával végezzen elemzéseket. Az SQL- és Spark-elemzésekhez elérhető erőforrások SQL- és Spark-készletekbe vannak rendszerezve.
Társított szolgáltatások
A munkaterületek tetszőleges számú társított szolgáltatást tartalmazhatnak, lényegében kapcsolati sztring, amelyek meghatározzák a munkaterület külső erőforrásokhoz való csatlakozásához szükséges információkat.
Synapse SQL
A Synapse SQL lehetővé teszi Transact-SQL (T-SQL) alapú elemzések elvégzését a Synapse-munkaterületen. A Synapse SQL két használati modellel rendelkezik: dedikált és kiszolgáló nélküli. A dedikált modellhez használjon dedikált SQL-készleteket. A munkaterületek tetszőleges számú készletet tartalmazhatnak. A kiszolgáló nélküli modell használatához használja a kiszolgáló nélküli SQL-készleteket. Minden munkaterület rendelkezik ilyen készletekkel.
A Synapse Studióban SQL-szkriptek futtatásával dolgozhat az SQL-készleteken.
Feljegyzés
Az Azure Synapse dedikált SQL-készlete eltér a dedikált SQL-készlettől (korábban SQL DW). Az Azure Synapse-munkaterületeken a dedikált SQL-készlet nem minden funkciója vonatkozik a dedikált SQL-készletre (korábban SQL DW), és fordítva. Ha egy meglévő dedikált SQL-készlet (korábbi nevén SQL DW) munkaterület-funkcióit szeretné engedélyezni, tekintse meg a dedikált SQL-készlet (korábbi nevén SQL DW) munkaterületi funkcióinak engedélyezése című témakört.
Apache Spark for Synapse
A Spark-elemzések használatához hozzon létre és használjon kiszolgáló nélküli Apache Spark-készleteket a Synapse-munkaterületen. A Spark-készlet használatba vételekor a munkaterületek létrehoznak egy Spark-munkamenetet a munkamenethez társított erőforrások kezeléséhez.
A Synapse-ben kétféleképpen használhatja a Sparkot:
- Spark-jegyzetfüzetek adatelemzéshez és -tervezéshez a Scala, a PySpark, a C# és a SparkSQL használatával
- Spark-feladatdefiníciók kötegelt Spark-feladatok jar-fájlokkal való futtatásához
SynapseML
A SynapseML (korábbi nevén MMLSpark) egy nyílt forráskódú kódtár, amely leegyszerűsíti a nagymértékben skálázható gépi tanulási (ML-) folyamatok létrehozását. Ez az Apache Spark-keretrendszer több új irányban történő bővítéséhez használt eszközök ökoszisztémája. A SynapseML több meglévő gépi tanulási keretrendszert és új Microsoft-algoritmust egyesít egyetlen, skálázható API-vá, amely a Python, az R, a Scala, a .NET és a Java használatával használható. További információ: Mi az a SynapseML?
Pipelines
Az Azure Synapse így biztosítja az adatintegrációt, lehetővé téve az adatok átvitelét a szolgáltatások és a vezénylési tevékenységek között.
- A folyamatok olyan tevékenységek logikai csoportosítását képezik, amelyek együttesen hajtanak végre feladatokat.
- A tevékenységek olyan műveleteket határoznak meg a folyamaton belül, amelyeket olyan adatokon hajtanak végre, mint például az adatok másolása, illetve egy jegyzetfüzet vagy egy SQL-szkript futtatása.
- Az adatfolyamok a tevékenység egy meghatározott formája, amely kód nélküli felületet biztosít a Synapse Spark alulfedőt használó adatátalakításhoz.
- Az eseményindító végrehajt egy folyamatot. Futtatható manuálisan vagy automatikusan (ütemezés, átfedésmentes ablak vagy eseményalapú).
- Az integrációs adatkészlet az adatok nevesített nézete, amely egyszerűen a tevékenységben bemenetként és kimenetként használandó adatokra mutat vagy hivatkozik. Csatolt szolgáltatáshoz tartozik.
Adatkezelő (előzetes verzió)
Az Azure Synapse Data Explorer interaktív lekérdezési felületet biztosít az ügyfeleknek a napló- és telemetriaadatokból származó megállapítások feloldásához.
- Az Adatkezelő-készletek olyan dedikált fürtök, amelyek két vagy több számítási csomópontot tartalmaznak helyi SSD-tárolóval (gyorsgyorsítótár) az optimalizált lekérdezési teljesítmény érdekében, valamint több tárolóblobot (hideg gyorsítótárat) az adatmegőrzéshez.
- Az Adatkezelő-adatbázisok Data Explorer-készletekben vannak tárolva, és táblákból és más adatbázis-objektumokból álló logikai entitások. Készletenként több adatbázis is lehet.
- A táblák olyan adatbázis-objektumok, amelyek hagyományos relációs adatmodell használatával rendszerezett adatokat tartalmaznak. Az adatok olyan rekordokban vannak tárolva, amelyek megfelelnek az Adatkezelő jól definiált táblázatsémájának, amely az oszlopok rendezett listáját határozza meg, és mindegyik oszlopnak van neve és skaláris adattípusa. A skaláris adattípusok strukturálhatók (int, real, datetime vagy timespan), félig strukturált (dinamikus) vagy szabad szöveg (sztring). A dinamikus típus hasonló a JSON-hoz, mivel egyetlen skaláris értéket, tömböt vagy ilyen értékek szótárát tárolhatja.
- A külső táblák olyan táblák, amelyek az Adatkezelő adatbázisán kívüli tárolóra vagy SQL-adatforrásra hivatkoznak. A táblákhoz hasonlóan egy külső tábla jól definiált sémával rendelkezik (az oszlopnév és az adattípus párok rendezett listája). A Data Explorer-táblákkal ellentétben, ahol az adatok az Adatkezelő-készletekbe kerülnek, a külső táblák a külső készletekben tárolt és felügyelt adatokon működnek. A külső táblák nem őriznek meg adatokat, és adatok lekérdezésére vagy exportálására szolgálnak egy külső adattárba.