نماذج مجموعات البيانات
هناك مجموعة متنوعة من نماذج مجموعات البيانات التي توفرها Azure Databricks وتوفرها جهات خارجية يمكنك استخدامها في مساحة عمل Azure Databricks.
مجموعات بيانات كتالوج Unity
يوفر كتالوج Unity الوصول إلى عدد من مجموعات البيانات النموذجية في الكتالوج samples
. يمكنك مراجعة مجموعات البيانات هذه في واجهة مستخدم مستكشف الكتالوج والإشارة إليها مباشرة في دفتر ملاحظات أو في محرر SQL باستخدام <catalog-name>.<schema-name>.<table-name>
النمط.
nyctaxi
يحتوي المخطط (المعروف أيضا باسم قاعدة البيانات) على الجدول trips
، والذي يحتوي على تفاصيل حول رحلات سيارات الأجرة في مدينة نيويورك. ترجع العبارة التالية أول 10 سجلات في هذا الجدول:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
tpch
يحتوي المخطط على بيانات من معيار TPC-H. لسرد الجداول في هذا المخطط، قم بتشغيل:
SHOW TABLES IN samples.tpch
نماذج مجموعات بيانات تابعة لجهة خارجية بتنسيق CSV
يحتوي Azure Databricks على أدوات مضمنة لتحميل مجموعات بيانات عينة تابعة لجهة خارجية بسرعة كملفات قيم مفصولة بفواصل (CSV) في مساحات عمل Azure Databricks. تتوفر بعض مجموعات البيانات النموذجية الشائعة التابعة لجهة خارجية بتنسيق CSV:
نموذج مجموعة بيانات | لتنزيل عينة مجموعة البيانات كملف CSV... |
---|---|
تعداد السنجاب | على صفحة البيانات على الويب، انقر فوق Park Data، بيانات السنجاب أو القصص. |
مجموعة بيانات OWID | في مستودع GitHub، انقر فوق مجلد مجموعات البيانات. انقر فوق المجلد الفرعي الذي يحتوي على مجموعة البيانات الهدف، ثم انقر فوق ملف CSV لمجموعة البيانات. |
Data.gov مجموعات بيانات CSV | في صفحة ويب نتائج البحث، انقر فوق نتيجة البحث الهدف، وبالتالي أيقونة CSV ، انقر فوق تنزيل. |
الماس (يتطلب حساب Kaggle) | على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، على علامة التبويب بيانات ، بجوار diamonds.csv، انقر فوق الأيقونة تنزيل . |
مدة رحلة سيارات الأجرة في مدينة نيويورك (يتطلب حساب Kaggle ) | على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، إلى جانب sample_submission.zip، انقر فوق زر أيقونة التنزيل . للعثور على ملفات CSV لمجموعة البيانات، يستخرج محتويات ملف ZIP الذي تم تنزيله. |
لاستخدام نماذج مجموعات بيانات تابعة لجهة خارجية في مساحة عمل Azure Databricks، قم بما يلي:
- اتبع إرشادات الجهة الخارجية لتنزيل مجموعة البيانات كملف CSV إلى جهازك المحلي.
- قم بتحميل ملف CSV من جهازك المحلي إلى مساحة عمل Azure Databricks.
- للعمل مع البيانات المستوردة، استخدم Databricks SQL للاستعلام عن البيانات. أو يمكنك استخدام دفتر ملاحظات لتحميل البيانات ك DataFrame.
نماذج مجموعات بيانات تابعة لجهة خارجية داخل المكتبات
تتضمن بعض الجهات الخارجية نماذج مجموعات البيانات داخل المكتبات، مثل حزم فهرس حزمة Python (PyPI) أو حزم شبكة أرشفة R الشاملة (CRAN ). لمزيد من المعلومات، راجع وثائق موفر المكتبة.
- لتثبيت مكتبة على مجموعة Azure Databricks باستخدام واجهة مستخدم نظام المجموعة، راجع مكتبات نظام المجموعة.
- لتثبيت مكتبة Python باستخدام دفتر ملاحظات Azure Databricks، راجع مكتبات Python ذات نطاق دفتر الملاحظات.
- لتثبيت مكتبة R باستخدام دفتر ملاحظات Azure Databricks، راجع مكتبات R ذات نطاق دفتر الملاحظات.
مجموعات بيانات Databricks (databricks-datasets) المثبتة على DBFS
توصي Azure Databricks بعدم استخدام DBFS وتخزين الكائنات السحابية المثبتة لمعظم حالات الاستخدام في مساحات عمل Databricks الممكنة لكتالوج Unity. تتوفر بعض نماذج مجموعات البيانات المثبتة على DBFS في Azure Databricks
إشعار
يخضع توفر مجموعات بيانات Databricks وموقعها للتغيير دون إشعار.
استعراض مجموعات بيانات Databricks المثبتة في DBFS
لاستعراض هذه الملفات من دفتر ملاحظات Python أو Scala أو R، يمكنك استخدام مرجع Databricks Utilities (dbutils). تسرد التعليمات البرمجية التالية جميع مجموعات بيانات Databricks المتوفرة.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"