Cara menggunakan notebook Microsoft Fabric
Notebook Microsoft Fabric adalah item kode utama untuk mengembangkan pekerjaan Apache Spark dan eksperimen pembelajaran mesin. Ini adalah permukaan interaktif berbasis web yang digunakan oleh ilmuwan data dan insinyur data untuk menulis kode yang mendapat manfaat dari visualisasi yang kaya dan teks Markdown. Teknisi data menulis kode untuk penyerapan data, persiapan data, dan transformasi data. Ilmuwan data juga menggunakan notebook untuk membangun solusi pembelajaran mesin, termasuk membuat eksperimen dan model, pelacakan model, dan penyebaran.
Dengan notebook Fabric, Anda dapat:
- Mulai dengan upaya penyiapan nol.
- Jelajahi dan proses data dengan mudah dengan pengalaman kode rendah yang intuitif.
- Menjaga keamanan data dengan fitur keamanan bawaan perusahaan.
- Menganalisis data di seluruh format mentah (CSV, txt, JSON, dll.), format file yang diproses (parquet, Delta Lake, dll.), menggunakan kemampuan Spark yang kuat.
- Menjadi produktif dengan kemampuan penulisan dan visualisasi data bawaan yang ditingkatkan.
Artikel ini menjelaskan cara menggunakan notebook dalam ilmu data dan pengalaman rekayasa data.
Konteks keamanan menjalankan notebook
Eksekusi notebook dapat dipicu oleh tiga cara berbeda dalam Fabric dengan fleksibilitas penuh untuk memenuhi skenario yang berbeda:
- Eksekusi interaktif: Pengguna secara manual memicu eksekusi melalui entri UX yang berbeda atau memanggil REST API. Eksekusi akan berjalan di bawah konteks keamanan pengguna saat ini.
- Jalankan sebagai aktivitas pipeline: Eksekusi dipicu dari alur Fabric Data Factory. Anda bisa menemukan langkah-langkah detail dalam Aktivitas Buku Catatan. Eksekusi akan berjalan di bawah konteks keamanan pemilik pipa alur.
- Penjadwal: Eksekusi dipicu dari rencana penjadwal. Eksekusi akan berjalan di bawah konteks keamanan pengguna yang menyiapkan/memperbarui paket penjadwal.
Fleksibilitas opsi eksekusi ini dengan konteks keamanan yang berbeda memungkinkan Anda memenuhi skenario dan persyaratan yang berbeda, tetapi juga mengharuskan Anda untuk mengetahui konteks keamanan saat Merancang dan mengembangkan buku catatan Anda, jika tidak, hal ini dapat menyebabkan perilaku dan bahkan beberapa masalah keamanan yang tidak terduga.
Pertama kali saat buku catatan dibuat, pesan peringatan ditampilkan untuk mengingatkan Anda risiko menjalankan kode tanpa meninjaunya.
Berikut adalah beberapa praktik terbaik untuk membantu Anda menghindari masalah keamanan:
- Sebelum Anda menjalankan buku catatan secara manual, Buka pengaturan Buku Catatan dan centang bagian Detail di bawah panel Tentang untuk pembaruan modifikasi, pastikan Anda BAIK-baik saja dengan perubahan terbaru.
- Sebelum Anda menambahkan aktivitas notebook ke pipeline, buka pengaturan Notebook dan periksa bagian Detail di bawah panel Tentang untuk pembaruan modifikasi, pastikan Anda setuju dengan perubahan terbaru. Jika Anda tidak yakin tentang perubahan terbaru, lebih baik buka Buku Catatan untuk meninjau perubahan sebelum Anda menambahkannya ke dalam alur.
- Sebelum Anda memperbarui paket penjadwal, Buka pengaturan Notebook dan periksa bagian Detail di bawah panel Tentang untuk pembaruan modifikasi, pastikan Anda BAIK-baik saja dengan perubahan terbaru. Jika Anda tidak yakin tentang perubahan terbaru, buka Buku Catatan dengan lebih baik untuk meninjau perubahan sebelum Anda memperbarui paket penjadwal.
- Pisahkan ruang kerja ke dalam tahap yang berbeda (dev, test, prod) dan kontrol akses tahap yang berbeda untuk menghindari masalah keamanan. Hanya tambahkan pengguna yang Anda percayai ke tahap prod.
Membuat buku catatan
Anda bisa membuat buku catatan baru atau mengimpor buku catatan yang sudah ada.
Buat notebook baru
Seperti proses pembuatan item Fabric standar lainnya, Anda dapat dengan mudah membuat notebook baru dari beranda Fabric Rekayasa Data, ruang kerja Opsi baru, atau Create Hub.
Mengimpor buku catatan yang sudah ada
Anda bisa mengimpor satu atau beberapa buku catatan yang sudah ada dari komputer lokal Anda menggunakan entri di toolbar ruang kerja. Notebook Fabric mengenali file Jupyter Notebook standar .ipynb, serta file sumber seperti .py, .scala, dan .sql. Program ini kemudian membuat item notebook baru yang sesuai.
Mengekspor buku catatan
Anda bisa mengekspor buku catatan Anda ke format standar lainnya. Notebook Synapse dapat diekspor ke dalam:
- File notebook standar (.ipynb) yang digunakan untuk notebook Jupyter.
- File HTML (.html) yang dapat dibuka dari browser secara langsung.
- File Python (.py).
- File LaTeX (.tex).
Menyimpan buku catatan
Di Fabric, notebook akan disimpan secara default secara otomatis setelah Anda membuka dan mengeditnya; Anda tidak perlu khawatir kehilangan perubahan kode. Anda juga dapat menggunakan Simpan salinan untuk mengkloning salinan lain di ruang kerja saat ini atau ke ruang kerja lain.
Jika Anda lebih suka menyimpan buku catatan secara manual, Anda bisa beralih ke opsi Simpan manual untuk memiliki cabang lokal item buku catatan Anda, lalu gunakan Simpan atau CTRL+s untuk menyimpan perubahan Anda.
Anda juga dapat beralih ke mode simpan manual dengan memilih Edit opsi ->Simpan ->Manual. Untuk mengaktifkan cabang lokal buku catatan Anda lalu simpan secara manual, pilih Simpan atau gunakan pintasan keyboard Ctrl+s.
Menyambungkan lakehouse dan notebook
Notebook Fabric sekarang mendukung interaksi dekat dengan lakehouse; Anda dapat dengan mudah menambahkan lakehouse baru atau yang sudah ada dari penjelajah Lakehouse.
Anda dapat mengeksplorasi berbagai lakehouse di penjelajah Lakehouse dan menetapkan salah satu lakehouse sebagai default dengan menyematkannya. Pengaturan dasar Anda kemudian dipasang pada direktori kerja saat runtime, dan Anda dapat membaca atau menulis ke lakehouse default dengan jalur lokal.
Catatan
Anda harus memulai ulang sesi setelah menyematkan lakehouse baru atau mengganti nama lakehouse default.
Menambahkan atau menghapus lakehouse
Memilih ikon X di samping nama lakehouse menghapusnya dari tab buku catatan, tetapi item lakehouse tetap ada di ruang kerja.
Pilih Tambahkan lakehouse untuk menambahkan lebih banyak lakehouse ke buku catatan, baik dengan menambahkan yang sudah ada atau membuat lakehouse baru.
Menjelajahi file di lakehouse
Subfolder dan file di bawah bagian Tabel dan File dari tampilan Lake muncul di area konten antara daftar lakehouse dan konten buku catatan. Pilih folder yang berbeda di bagian Tabel dan File untuk menyegarkan area konten.
Operasi folder dan file
Jika Anda memilih file (.csv,.parquet,.txt,.jpg,.png, dll.) dengan klik mouse kanan, Anda dapat menggunakan Spark atau Pandas API untuk memuat data. Sel kode baru dihasilkan dan disisipkan di bawah sel fokus.
Anda dapat dengan mudah menyalin jalur dengan format yang berbeda dari file atau folder tertentu dan menggunakan jalur yang sesuai dalam kode Anda.
Sumber daya buku catatan
Penjelajah sumber daya notebook menyediakan sistem file seperti Unix untuk membantu Anda mengelola folder dan file Anda. Ini menawarkan ruang sistem file yang dapat ditulis di mana Anda dapat menyimpan file berukuran kecil, seperti modul kode, model semantik, dan gambar. Anda dapat dengan mudah mengaksesnya dengan kode di notebook seolah-olah Anda bekerja dengan sistem file lokal Anda.
Catatan
- Penyimpanan Sumber Daya maksimum untuk folder bawaan dan folder lingkungan adalah 500 MB, dengan ukuran file tunggal hingga 100 MB. Keduanya mengizinkan hingga 100 instans file/folder secara total.
- Saat menggunakan
notebookutils.notebook.run()
, gunakan perintahnotebookutils.nbResPath
untuk mengakses sumber daya notebook target. Jalur relatif bawaan/ akan selalu menunjuk ke folder bawaan buku catatan akar.
Folder sumber daya bawaan
Folder bawaan sumber daya adalah folder yang ditentukan oleh sistem dan unik untuk setiap buku catatan. Disarankan untuk menggunakan folder sumber daya bawaan untuk menyimpan data apa pun yang digunakan dalam buku catatan saat ini. Berikut adalah kemampuan utama untuk sumber daya notebook.
- Anda dapat menggunakan operasi umum seperti membuat/menghapus, mengunggah/mengunduh, menyeret/menghilangkan, mengganti nama, menduplikasi, dan mencari melalui UI.
- Anda dapat menggunakan jalur relatif seperti
builtin/YourData.txt
untuk eksplorasi cepat. Metode ininotebookutils.nbResPath
membantu Anda menyusun jalur lengkap. - Anda dapat dengan mudah memindahkan data yang divalidasi ke lakehouse melalui opsi Tulis ke lakehouse . Fabric menyematkan cuplikan kode kaya untuk jenis file umum untuk membantu Anda memulai dengan cepat.
- Sumber daya ini juga tersedia untuk digunakan dalam kasus pelaksanaan buku catatan referensi melalui
notebookutils.notebook.run()
.
Folder sumber daya lingkungan
Folder Sumber Daya Lingkungan adalah repositori bersama yang dirancang untuk menyederhanakan kolaborasi di beberapa buku catatan.
Anda dapat menemukan tab Sumber Daya di dalam lingkungan dan memiliki operasi penuh untuk mengelola file sumber daya di sini. File-file ini dapat dibagikan di beberapa notebook setelah notebook dilampirkan ke lingkungan kerja saat ini.
Di halaman Notebook, Anda dapat dengan mudah menemukan folder akar kedua di bawah Sumber Daya yang diwarisi dari lingkungan terlampir.
Anda juga dapat beroperasi pada file/folder yang sama dengan folder sumber daya bawaan.
Jalur sumber daya lingkungan secara otomatis dipasang ke klaster notebook. Anda dapat menggunakan jalur relatif /env untuk mengakses sumber daya lingkungan.
Pengedit file
Editor file memungkinkan Anda menampilkan dan mengedit file langsung di dalam folder sumber daya buku catatan dan folder sumber daya lingkungan di notebook. Jenis file yang didukung termasuk CSV, TXT, HTML, YML, PY, SQL, dan banyak lagi. Dengan editor file, Anda dapat dengan mudah mengakses dan memodifikasi file dalam buku catatan, ini mendukung penyorotan Kata Kunci dan menyediakan layanan bahasa yang diperlukan saat membuka dan mengedit file kode seperti .py dan .sql.
Anda dapat mengakses fitur ini melalui 'Lihat dan edit' di menu file. Klik dua kali pada file adalah cara yang lebih cepat.
Perubahan konten pada editor file perlu disimpan secara manual dengan mengklik tombol Simpan atau pintasan keyboard: Ctrl+S, editor file tidak mendukung penyimpanan otomatis.
mode notebook juga berdampak pada editor file. Anda hanya bisa menampilkan file tetapi tidak dapat mengeditnya jika Anda berada dalam mode buku catatan tanpa izin mengedit.
Catatan
Berikut adalah beberapa batasan untuk editor file.
- Batas ukuran file adalah 1 MB.
- Jenis file ini tidak didukung untuk menampilkan dan mengedit: .xlsx dan .parquet.
Berkolaborasi dalam buku catatan
Notebook Fabric adalah item kolaboratif yang mendukung beberapa pengguna mengedit notebook yang sama.
Saat Anda membuka buku catatan, Anda memasukkan mode koediting secara default, dan setiap pengeditan buku catatan disimpan secara otomatis. Jika kolega Anda membuka buku catatan yang sama secara bersamaan, Anda akan melihat profil mereka, hasil yang dijalankan, indikator kursor, indikator pilihan, dan jejak pengeditan. Dengan menggunakan fitur kolaborasi, Anda dapat dengan mudah menyelesaikan pemrograman berpasangan, debugging jarak jauh, dan skenario pengajaran.
Berbagi buku catatan
Berbagi buku catatan adalah cara mudah bagi Anda untuk berkolaborasi dengan anggota tim. Peran ruang kerja yang diotorisasi dapat menampilkan atau mengedit/menjalankan buku catatan secara default. Anda bisa berbagi buku catatan dengan izin tertentu yang diberikan.
Pilih Bagikan pada toolbar buku catatan.
Pilih kategori orang yang sesuai yang bisa menampilkan buku catatan ini. Anda bisa memilih Bagikan, Edit, atau Jalankan izin untuk penerima.
Setelah Anda memilih Terapkan, Anda bisa mengirim buku catatan secara langsung atau menyalin tautan ke orang lain. Penerima kemudian dapat membuka buku catatan dengan tampilan terkait yang diberikan oleh tingkat izin mereka.
Untuk mengelola izin buku catatan Anda lebih lanjut, pilih Daftar item Ruang Kerja>Opsi lainnya, lalu pilih Kelola izin. Dari layar tersebut, Anda bisa memperbarui akses dan izin buku catatan yang sudah ada.
Mengomentari sel kode
Mengomentari adalah fitur berguna lainnya untuk skenario kolaboratif. Saat ini, Fabric mendukung penambahan komentar tingkat sel.
Pilih tombol Komentar pada toolbar buku catatan atau indikator komentar sel untuk membuka panel Komentar .
Pilih kode di sel kode, pilih Baru di panel Komentar , tambahkan komentar, lalu pilih Posting komentar untuk disimpan.
Jika Anda membutuhkannya, temukan opsi Edit komentar, Atasi utas, dan Hapus utas dengan memilih opsi Lainnya di samping komentar Anda.
Menandai orang lain dalam komentar
"Penandaan" mengacu pada menyebutkan dan memberi tahu pengguna dalam utas komentar, meningkatkan kolaborasi efisien pada hal-hal spesifik.
Pilih bagian kode dalam sel dan mulai utas komentar baru.
Masukkan nama pengguna dan pilih nama yang benar di daftar saran jika Anda ingin menyebutkan seseorang untuk diskusi tentang bagian tertentu.
Bagikan wawasan Anda dan postingkan mereka.
Pemberitahuan Email dipicu, dan pengguna mengklik tautan Buka Komentar untuk menemukan sel ini dengan cepat.
Selain itu, otorisasi dan konfigurasikan izin untuk pengguna saat menandai seseorang yang tidak memiliki akses, memastikan bahwa aset kode Anda dikelola dengan baik.
Catatan
Untuk item komentar, pengguna yang ditandai tidak akan menerima pemberitahuan Email lagi jika Anda memperbarui komentar dalam waktu satu jam. Tetapi mengirimkan pemberitahuan Email ke pengguna baru yang ditandai.
Riwayat versi
Catatan
Saat ini, fitur tersebut sedang dalam pratinjau.
Riwayat versi memungkinkan Anda untuk dengan mudah mengelola versi perubahan buku catatan aktif Anda. Ini mendukung pelacakan riwayat dan manajemen buku catatan dengan kemampuan kontrol versi bawaan yang kuat, yang sangat membantu untuk pekerjaan kolaboratif dengan beberapa kontributor pada notebook yang sama.
Mengakses riwayat versi dan di toolbar global notebook.
Notebook mendukung dua cara membuat titik pemeriksaan.
Titik pemeriksaan manual: Anda dapat secara manual membuat versi baru untuk merekam pencapaian pengembangan Anda, memberikan fleksibilitas lebih untuk mengelola versi buku catatan Anda.
Titik pemeriksaan sistem: Titik pemeriksaan ini dibuat secara otomatis setiap 5 menit berdasarkan interval waktu pengeditan oleh sistem Notebook, memastikan bahwa pekerjaan Anda disimpan dan di-versi secara konsisten. Anda dapat menemukan rekaman modifikasi dari semua kontributor dalam daftar garis waktu titik pemeriksaan sistem.
Anda dapat mengklik sebuah titik pemeriksaan untuk membuka tampilan perbedaan, yang menyoroti perbedaan konten antara titik pemeriksaan yang dipilih dan versi saat ini, termasuk perbedaan pada konten sel, output sel, dan metadata. Versi titik pemeriksaan ini dapat dikelola satu per satu di menu 'lebih banyak opsi'.
Anda bisa mengelola versi dari menu drop-down pos pemeriksaan. Jika Anda ingin menyimpan versi sebelumnya, klik pulihkan dari pos pemeriksaan dan timpa buku catatan saat ini, atau gunakan simpan sebagai salinan untuk mengkloningnya menjadi buku catatan baru.
Catatan
- Batasan yang diketahui: Setelah mengklik tombol Pulihkan dan navigasikan Kembali ke buku catatan, buku catatan tidak akan segera dipulihkan dari titik pemeriksaan. Bilah pesan meminta Anda untuk melihat perubahan. Anda perlu mengklik tombol Tampilkan perubahan, dan memilih untuk mempertahankan Versi tersimpan untuk menyelesaikan pemulihan.
- Titik pemeriksaan sistem akan kedaluwarsa setelah 1 tahun.
Pengalih mode laptop
Notebook Fabric mendukung empat mode yang dapat Anda alihkan dengan mudah: mode
- Mode Pengembangan: Izin baca, tulis, dan eksekusi diperlukan.
- Mode hanya menjalankan: Izin baca dan eksekusi diperlukan.
- Mode penyuntingan: Izin membaca dan menulis diperlukan.
- Mode tampilan: Izin baca diperlukan.