Mengurai atau memotong konten untuk alur kerja di Azure Logic Apps (Pratinjau)
Berlaku untuk: Azure Logic Apps (Konsumsi + Standar)
Penting
Kemampuan ini masih dalam pratinjau dan mengacu pada Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.
Terkadang Anda harus mengonversi konten menjadi token, yang merupakan kata atau potongan karakter, atau membagi dokumen besar menjadi bagian yang lebih kecil sebelum Anda dapat menggunakan konten ini dengan beberapa tindakan. Misalnya, tindakan Azure AI Search atau Azure OpenAI mengharapkan input yang ditokenisasi dan hanya dapat menangani sejumlah token terbatas.
Untuk skenario ini, gunakan tindakan Operasi Data bernama Urai dokumen dan Teks gugus di alur kerja aplikasi logika Anda. Tindakan ini masing-masing mengubah konten, seperti dokumen PDF, file CSV, file Excel, dan sebagainya, menjadi output string yang ditokenisasi dan kemudian membagi string menjadi beberapa bagian, berdasarkan jumlah token. Anda kemudian dapat mereferensikan dan menggunakan output ini dengan tindakan berikutnya dalam alur kerja Anda.
Tip
Untuk mempelajari lebih lanjut, Anda dapat mengajukan pertanyaan-pertanyaan ini kepada Azure Copilot:
- Apa itu token di AI?
- Apa itu input token?
- Apa itu output string yang ditokenisasi?
- Apa itu penguraian dalam AI?
- Apa itu potongan dalam AI?
Untuk menemukan Azure Copilot, pada toolbar portal Azure, pilih Copilot.
Panduan cara ini memperlihatkan cara menambahkan dan menyiapkan operasi ini di alur kerja Anda.
Masalah dan batasan yang diketahui
Tindakan Uraikan dokumen dan Teks gugus saat ini tidak mendukung file host, misalnya, file biner mainframe dan midrange seperti file Metode Akses Penyimpanan Virtual (VSAM). Namun, jika Anda bekerja dengan alur kerja Standar, Anda dapat menggunakan tindakan bawaan File Host IBM bernama Parse Host File Contents sebagai gantinya.
Prasyarat
Akun dan langganan Azure. Jika Anda tidak memiliki langganan Azure, daftar akun Azure gratis.
Alur kerja aplikasi logika Konsumsi atau Standar dengan pemicu yang ada karena operasi Urai dokumen dan Teks gugus hanya tersedia sebagai tindakan. Pastikan bahwa tindakan yang mengambil konten yang ingin Anda uraikan atau gugus mendahului operasi data ini.
Mengurai dokumen
Tindakan Uraikan dokumen mengonversi konten, seperti dokumen PDF, file CSV, file Excel, dan sebagainya, menjadi string yang ditokenisasi. Untuk contoh ini, misalkan alur kerja Anda dimulai dengan pemicu Permintaan bernama Saat permintaan HTTP diterima. Pemicu ini menunggu untuk menerima permintaan HTTP yang dikirim dari komponen lain, seperti fungsi Azure, alur kerja aplikasi logika lain, dan sebagainya. Permintaan HTTP menyertakan URL untuk dokumen baru yang diunggah yang tersedia untuk diambil dan diurai alur kerja. Tindakan HTTP segera mengikuti pemicu, dan mengirim permintaan HTTP ke URL dokumen, dan kembali dengan konten dokumen dari lokasi penyimpanannya.
Jika Anda menggunakan sumber konten lain, seperti Azure Blob Storage, SharePoint, OneDrive, Sistem File, FTP, dan sebagainya, Anda dapat memeriksa apakah pemicu tersedia untuk sumber ini. Anda juga dapat memeriksa apakah tindakan tersedia untuk mengambil konten untuk sumber ini. Untuk informasi selengkapnya, lihat Operasi bawaan dan Konektor terkelola.
Di portal Microsoft Azure, buka sumber daya dan alur kerja aplikasi logika Anda di perancang.
Di bawah pemicu dan tindakan yang ada, ikuti langkah-langkah umum ini untuk menambahkan tindakan Operasi Data bernama Urai dokumen ke alur kerja Anda.
Pada perancang, pilih tindakan Uraikan dokumen .
Setelah panel informasi tindakan terbuka, pada tab Parameter , di properti Konten Dokumen, tentukan konten yang akan diurai dengan mengikuti langkah-langkah berikut:
Pilih di dalam kotak Konten Dokumen.
Opsi untuk daftar konten dinamis (ikon petir) dan editor ekspresi (ikon fungsi) muncul.
Untuk memilih output dari tindakan sebelumnya, pilih daftar konten dinamis.
Untuk membuat ekspresi yang memanipulasi output dari tindakan sebelumnya, pilih editor ekspresi.
Contoh ini berlanjut dengan memilih ikon kilat untuk daftar konten dinamis.
Setelah daftar konten dinamis terbuka, pilih output yang Anda inginkan dari operasi sebelumnya.
Dalam contoh ini, tindakan Urai dokumen mereferensikan output Isi dari tindakan HTTP .
Output Isi sekarang muncul di kotak Konten Dokumen:
Di bawah tindakan Uraikan dokumen, tambahkan tindakan yang ingin Anda kerjakan dengan output string yang ditokenisasi, misalnya, Teks gugus, yang dijelaskan panduan ini nanti.
Mengurai dokumen - Referensi
Parameter
Nama | Nilai | Jenis data | Deskripsi | Batas |
---|---|---|---|---|
Isi Dokumen | < content-to-parse> | Mana pun | Konten yang akan diurai. | Tidak |
Output
Nama | Jenis data | Deskripsi |
---|---|---|
Teks hasil yang diurai | Array string | Array string. |
Hasil yang diurai | Objek | Objek yang berisi seluruh teks yang diurai. |
Teks potongan
Tindakan Teks gugus membagi konten menjadi bagian yang lebih kecil untuk tindakan berikutnya agar lebih mudah digunakan dalam alur kerja saat ini. Langkah-langkah berikut dibangun berdasarkan contoh dari bagian Urai dokumen dan memisahkan output string token untuk digunakan dengan operasi Azure AI yang mengharapkan potongan konten kecil yang ditokenisasi.
Catatan
Tindakan sebelumnya yang menggunakan penggugusan tidak memengaruhi tindakan Teks gugus, tindakan Teks gugus juga tidak memengaruhi tindakan berikutnya yang menggunakan penggugusan.
Di portal Microsoft Azure, buka sumber daya dan alur kerja aplikasi logika Anda di perancang.
Di bawah tindakan Uraikan dokumen, ikuti langkah-langkah umum ini untuk menambahkan tindakan Operasi Data bernama teks Gugus.
Pada perancang, pilih tindakan Gugus teks .
Setelah panel informasi tindakan terbuka, pada tab Parameter , untuk properti Strategi Penggugusan, pilih TokenSize sebagai metode penggugusan, jika belum dipilih.
Strategi Deskripsi TokenSize Pisahkan konten yang ditentukan, berdasarkan jumlah token. Setelah Anda memilih strategi, pilih di dalam kotak Teks untuk menentukan konten untuk penggugusan.
Opsi untuk daftar konten dinamis (ikon petir) dan editor ekspresi (ikon fungsi) muncul.
Untuk memilih output dari tindakan sebelumnya, pilih daftar konten dinamis.
Untuk membuat ekspresi yang memanipulasi output dari tindakan sebelumnya, pilih editor ekspresi.
Contoh ini berlanjut dengan memilih ikon kilat untuk daftar konten dinamis.
Setelah daftar konten dinamis terbuka, pilih output yang Anda inginkan dari operasi sebelumnya.
Dalam contoh ini, tindakan Teks gugus mereferensikan output teks hasil Yang diurai dari tindakan Uraikan dokumen.
Kotak Teks sekarang memperlihatkan output tindakan Hasil yang diurai:
Selesaikan penyiapan untuk tindakan Teks gugus, berdasarkan strategi dan skenario yang Anda pilih. Untuk informasi selengkapnya, lihat Teks gugus - Referensi.
Sekarang, saat Anda menambahkan tindakan lain yang mengharapkan dan menggunakan input token, seperti tindakan Azure AI, konten input diformat untuk konsumsi yang lebih mudah.
Teks potongan - Referensi
Parameter
Nama | Nilai | Jenis data | Deskripsi | Batas |
---|---|---|---|---|
Strategi Pemotongan | TokenSize | Enum string | Pisahkan konten, berdasarkan jumlah token. Default: TokenSize |
Tidak berlaku |
Teks | < content-to-chunk> | Mana pun | Konten yang akan dipotong. | Lihat Panduan referensi batasan dan konfigurasi |
EncodingModel | < metode pengodean> | Enum string | Model pengodean yang akan digunakan: - Default: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo) - r50k_base (gpt-3) - p50k_base (gpt-3) - p50k_edit (gpt-3) - cl200k_base (gpt-4o) Untuk informasi selengkapnya, lihat Gambaran umum OpenAI - Model. |
Tidak berlaku |
TokenSize | < max-tokens-per-chunk> | Bilangan bulat | Jumlah maksimum token per potongan konten. Default: Tidak Ada |
Minimum: 1 Maksimum: 8000 |
PageOverlapLength | < jumlah karakter yang tumpang tindih> | Bilangan bulat | Jumlah karakter dari akhir gugus sebelumnya untuk disertakan dalam gugus berikutnya. Pengaturan ini membantu Anda menghindari kehilangan informasi penting saat membagi konten menjadi potongan dan mempertahankan kelangsungan dan konteks di seluruh gugus. Default: 0 - Tidak ada karakter yang tumpang tindih. |
Minimum: 0 |
Tip
Untuk mempelajari lebih lanjut, Anda dapat mengajukan pertanyaan-pertanyaan ini kepada Azure Copilot:
- Apa itu PageOverlapLength dalam pemotongan?
- Apa itu pengodean di Azure AI?
Untuk menemukan Azure Copilot, pada toolbar portal Azure, pilih Copilot.
Output
Nama | Jenis data | Deskripsi |
---|---|---|
Item Teks hasil yang dipotong | Array string | Array string. |
Item Teks hasil yang dipotong | String | Satu string dalam array. |
Hasil yang dipotong | Objek | Objek yang berisi seluruh teks yang dipotong. |
Contoh alur kerja
Contoh berikut mencakup tindakan lain yang membuat pola alur kerja lengkap untuk menyerap data dari sumber apa pun:
Langkah | Tugas | Operasi yang mendasar | Deskripsi |
---|---|---|---|
1 | Tunggu atau periksa konten baru. | Ketika permintaan HTTP diterima | Pemicu yang melakukan polling atau menunggu data baru tiba, baik berdasarkan pengulangan terjadwal atau sebagai respons terhadap peristiwa tertentu masing-masing. Kejadian seperti itu mungkin file baru yang diunggah ke sistem penyimpanan tertentu, seperti Azure Blob Storage, SharePoint, OneDrive, Sistem File, FTP, dan sebagainya. Dalam contoh ini, operasi Pemicu permintaan menunggu permintaan HTTP atau HTTPS yang dikirim dari titik akhir lain. Permintaan menyertakan URL untuk dokumen baru yang diunggah. |
2 | Dapatkan kontennya. | HTTP | Tindakan HTTP yang mengambil dokumen yang diunggah menggunakan URL file dari output pemicu. |
3 | Buat detail dokumen. | Tulis | Tindakan Operasi Data yang menggabungkan berbagai item. Contoh ini menggabungkan informasi kunci-nilai tentang dokumen. |
4 | Buat string token. | Mengurai dokumen | Tindakan Operasi Data yang menghasilkan string yang ditokenisasi menggunakan output dari tindakan Buat . |
5 | Membuat potongan konten. | Teks potongan | Tindakan Operasi Data yang membagi string token menjadi beberapa bagian, berdasarkan jumlah token per potongan konten. |
6 | Konversikan teks yang ditokenisasi dan dipotong ke JSON. | Menguraikan JSON | Tindakan Operasi Data yang mengonversi output yang dipotong menjadi array JSON. |
7 | Pilih item array JSON. | Pilih | Tindakan Operasi Data yang memilih beberapa item dari array JSON. |
8 | Buat penyematan. | Mendapatkan beberapa penyematan | Tindakan Azure OpenAI yang membuat penyematan untuk setiap item array JSON. |
9 | Pilih penyematan dan informasi lainnya. | Pilih | Tindakan Operasi Data yang memilih penyematan dan informasi dokumen lainnya. |
10 | Indeks data. | Dokumen indeks | Tindakan Pencarian Azure AI yang mengindeks data berdasarkan setiap penyematan yang dipilih. |