مصطلحات تحليلات Azure Synapse
ترشدك هذه المقالة خلال المفاهيم الأساسية ل Azure Synapse Analytics.
مساحة عمل Synapse
مساحة عمل Synapse هي حدود تعاون قابلة للتأمين لإجراء تحليلات المؤسسات المستندة إلى السحابة في Azure. يتم نشر مساحة عمل في منطقة معينة ولها حساب Azure Data Lake Storage Gen2 مقترن ونظام ملفات لتخزين البيانات المؤقتة. توجد مساحة عمل ضمن مجموعة موارد.
تسمح لك مساحة العمل بإجراء تحليلات باستخدام SQL وApache spark. تُنظم الموارد المتاحة لـ SQL وتحليلات Spark في مجموعات SQL وSpark.
الخدمات المرتبطة
يمكن أن تحتوي مساحة العمل على أي عدد من الخدمات المرتبطة، سلسلة الاتصال أساسا التي تحدد المعلومات المطلوبة لمساحة العمل للاتصال بالموارد الخارجية.
Synapse SQL
يتيح لك Synapse SQL إجراء تحليلات تستند إلى Transact-SQL (T-SQL) في مساحة عمل Synapse. تتميز SQL Synapse بنموذجي استهلاك: مخصص وبلا خادم. للنموذج المخصص، استخدم مجموعة SQL المخصصة. يمكن أن تحتوي مساحة العمل على أي عدد من هذه المجموعات. لاستخدام النموذج بدون خادم، استخدم مجموعات SQL بلا خادم. تحتوي كل مساحة عمل على إحدى هذه المجموعات.
بداخل استوديو Synapse، يمكنك العمل مع مجموعات SQL عن طريق تشغيل برامج SQL النصية.
إشعار
يختلف تجمع SQL المخصص في Azure Synapse عن تجمع SQL المخصص (المعروف سابقا باسم SQL DW). لا تنطبق جميع ميزات تجمع SQL المخصص في مساحات عمل Azure Synapse على تجمع SQL المخصص (والمعروف سابقًا باسم SQL DW)، والعكس صحيح. لتمكين ميزات مساحة العمل لتجمع SQL مخصص موجود (المعروف سابقا ب SQL DW)، راجع تمكين ميزات مساحة العمل لتجمع SQL مخصص (المعروف سابقا ب SQL DW) .
Apache Spark لـ Synapse
لاستخدام تحليلات Spark، أنشئ مجموعات Apache Spark بلا خادم واستخدمها في مساحة عمل Synapse الخاصة بك. عند البدء في استخدام تجمع Spark، تنشئ مساحات العمل جلسة Spark لمعالجة الموارد المقترنة بجلسة العمل هذه.
هناك طريقتان داخل Synapse لاستخدام Spark:
- Spark Notebooks لعلوم البيانات والهندسة باستخدام Scala وPySpark وC# وSparkSQL
- تعريفات وظيفة Spark لتشغيل وظائف Spark الدفعية باستخدام ملفات jar
SynapseML
SynapseML (المعروف سابقا باسم MMLSpark) هي مكتبة مفتوحة المصدر تبسط إنشاء مسارات التعلم الآلي القابلة للتطوير على نطاق واسع (ML). إنه نظام بيئي من الأدوات المستخدمة لتوسيع إطار عمل Apache Spark في عدة اتجاهات جديدة. يوحد SynapseML العديد من أطر عمل التعلم الآلي الحالية وخوارزميات Microsoft الجديدة في واجهة برمجة تطبيقات واحدة قابلة للتطوير قابلة للاستخدام عبر Python وR وSca و.NET وJava. لمعرفة المزيد، راجع ما هو SynapseML؟
التدفقات
البنية الأساسية لبرنامج ربط العمليات التجارية هي الطريقة التي يوفر بها Azure Synapse تكامل البيانات، ما يسمح لك بنقل البيانات بين الخدمات وأنشطة التنسيق.
- البنية الأساسية لبرنامج ربط العمليات التجارية هي تجميع منطقي للأنشطة التي تقوم بتنفيذ مهمة معا.
- تحدد الأنشطة الإجراءات داخل البنية الأساسية لبرنامج ربط العمليات التجارية لتنفيذها على بيانات مثل نسخ البيانات أو تشغيل دفتر ملاحظات أو برنامج نصي SQL.
- تدفقات البيانات هي شكل محدد من النشاط الذي يوفر تجربة بدون تعليمات برمجية لإجراء تحويل البيانات الذي يستخدم Synapse Spark تحت الأغطية.
- ينفذ المشغل البنية الأساسية لبرنامج ربط العمليات التجارية. يمكن تشغيله يدويا أو تلقائيا (الجدول الزمني أو نافذة التدوير أو المستندة إلى الحدث).
- مجموعة بيانات التكامل هي طريقة عرض مسماة للبيانات التي تشير ببساطة إلى البيانات التي سيتم استخدامها في نشاط كمدخل وإخراج أو تشير إليها. ينتمي إلى خدمة مرتبطة.
مستكشف البيانات (إصدار أولي)
يوفر Azure Synapse Data Explorer للعملاء تجربة استعلام تفاعلية لإلغاء تأمين الرؤى من بيانات السجل والقياس عن بعد.
- تجمعات Data Explorer هي مجموعات مخصصة تتضمن عقدتين أو أكثر من عقد الحوسبة مع تخزين SSD المحلي (ذاكرة التخزين المؤقت الساخنة) لأداء الاستعلام المحسن ونقاط تخزين متعددة (ذاكرة التخزين المؤقت الباردة) لاستمرارها.
- تتم استضافة قواعد بيانات مستكشف البيانات في تجمعات مستكشف البيانات وهي كيانات منطقية تتكون من مجموعات من الجداول وكائنات قاعدة البيانات الأخرى. يمكنك الحصول على أكثر من قاعدة بيانات واحدة لكل تجمع.
- الجداول هي كائنات قاعدة بيانات تحتوي على بيانات منظمة باستخدام نموذج بيانات ارتباطي تقليدي. يتم تخزين البيانات في سجلات تلتزم بمخطط الجدول المحدد جيدا لمستكشف البيانات الذي يعرف قائمة مرتبة من الأعمدة، مع وجود اسم ونوع بيانات عددي لكل عمود. يمكن بناء 43 نوعاً من أنواع البيانات القياسية (int أو real أو datetime أو timespan) أو شبه منظم (ديناميكي) أو (سلسلة) نص حر. يتشابه النوع الديناميكي مع JSON من حيث إنه يمكن أن يحتوي على قيمة عددية واحدة، أو مصفوفة، أو قاموس لهذه القيم.
- الجداول الخارجية هي جداول تشير إلى مصدر بيانات تخزين أو SQL خارج قاعدة بيانات Data Explorer. على غرار الجداول، يحتوي الجدول الخارجي على مخطط محدد جيداً (قائمة مرتبة من أزواج اسم العمود ونوع البيانات). على عكس جداول مستكشف البيانات حيث يتم استيعاب البيانات في تجمعات مستكشف البيانات، تعمل الجداول الخارجية على البيانات المخزنة والمدارة خارج التجمعات. لا تحتفظ الجداول الخارجية بأي بيانات وتُستخدم للاستعلام عن البيانات أو تصديرها إلى مخزن بيانات خارجي.