Bagikan melalui


Mengurai atau memotong konten untuk alur kerja di Azure Logic Apps (Pratinjau)

Berlaku untuk: Azure Logic Apps (Konsumsi + Standar)

Penting

Kemampuan ini masih dalam pratinjau dan mengacu pada Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Terkadang Anda harus mengonversi konten menjadi token, yang merupakan kata atau potongan karakter, atau membagi dokumen besar menjadi bagian yang lebih kecil sebelum Anda dapat menggunakan konten ini dengan beberapa tindakan. Misalnya, tindakan Azure AI Search atau Azure OpenAI mengharapkan input yang ditokenisasi dan hanya dapat menangani sejumlah token terbatas.

Untuk skenario ini, gunakan tindakan Operasi Data bernama Urai dokumen dan Teks gugus di alur kerja aplikasi logika Anda. Tindakan ini masing-masing mengubah konten, seperti dokumen PDF, file CSV, file Excel, dan sebagainya, menjadi output string yang ditokenisasi dan kemudian membagi string menjadi beberapa bagian, berdasarkan jumlah token. Anda kemudian dapat mereferensikan dan menggunakan output ini dengan tindakan berikutnya dalam alur kerja Anda.

Tip

Untuk mempelajari lebih lanjut, Anda dapat mengajukan pertanyaan-pertanyaan ini kepada Azure Copilot:

  • Apa itu token di AI?
  • Apa itu input token?
  • Apa itu output string yang ditokenisasi?
  • Apa itu penguraian dalam AI?
  • Apa itu potongan dalam AI?

Untuk menemukan Azure Copilot, pada toolbar portal Azure, pilih Copilot.

Panduan cara ini memperlihatkan cara menambahkan dan menyiapkan operasi ini di alur kerja Anda.

Masalah dan batasan yang diketahui

Tindakan Uraikan dokumen dan Teks gugus saat ini tidak mendukung file host, misalnya, file biner mainframe dan midrange seperti file Metode Akses Penyimpanan Virtual (VSAM). Namun, jika Anda bekerja dengan alur kerja Standar, Anda dapat menggunakan tindakan bawaan File Host IBM bernama Parse Host File Contents sebagai gantinya.

Prasyarat

  • Akun dan langganan Azure. Jika Anda tidak memiliki langganan Azure, daftar akun Azure gratis.

  • Alur kerja aplikasi logika Konsumsi atau Standar dengan pemicu yang ada karena operasi Urai dokumen dan Teks gugus hanya tersedia sebagai tindakan. Pastikan bahwa tindakan yang mengambil konten yang ingin Anda uraikan atau gugus mendahului operasi data ini.

Mengurai dokumen

Tindakan Uraikan dokumen mengonversi konten, seperti dokumen PDF, file CSV, file Excel, dan sebagainya, menjadi string yang ditokenisasi. Untuk contoh ini, misalkan alur kerja Anda dimulai dengan pemicu Permintaan bernama Saat permintaan HTTP diterima. Pemicu ini menunggu untuk menerima permintaan HTTP yang dikirim dari komponen lain, seperti fungsi Azure, alur kerja aplikasi logika lain, dan sebagainya. Permintaan HTTP menyertakan URL untuk dokumen baru yang diunggah yang tersedia untuk diambil dan diurai alur kerja. Tindakan HTTP segera mengikuti pemicu, dan mengirim permintaan HTTP ke URL dokumen, dan kembali dengan konten dokumen dari lokasi penyimpanannya.

Jika Anda menggunakan sumber konten lain, seperti Azure Blob Storage, SharePoint, OneDrive, Sistem File, FTP, dan sebagainya, Anda dapat memeriksa apakah pemicu tersedia untuk sumber ini. Anda juga dapat memeriksa apakah tindakan tersedia untuk mengambil konten untuk sumber ini. Untuk informasi selengkapnya, lihat Operasi bawaan dan Konektor terkelola.

  1. Di portal Microsoft Azure, buka sumber daya dan alur kerja aplikasi logika Anda di perancang.

  2. Di bawah pemicu dan tindakan yang ada, ikuti langkah-langkah umum ini untuk menambahkan tindakan Operasi Data bernama Urai dokumen ke alur kerja Anda.

  3. Pada perancang, pilih tindakan Uraikan dokumen .

  4. Setelah panel informasi tindakan terbuka, pada tab Parameter , di properti Konten Dokumen, tentukan konten yang akan diurai dengan mengikuti langkah-langkah berikut:

    1. Pilih di dalam kotak Konten Dokumen.

      Opsi untuk daftar konten dinamis (ikon petir) dan editor ekspresi (ikon fungsi) muncul.

      • Untuk memilih output dari tindakan sebelumnya, pilih daftar konten dinamis.

      • Untuk membuat ekspresi yang memanipulasi output dari tindakan sebelumnya, pilih editor ekspresi.

      Contoh ini berlanjut dengan memilih ikon kilat untuk daftar konten dinamis.

    2. Setelah daftar konten dinamis terbuka, pilih output yang Anda inginkan dari operasi sebelumnya.

      Dalam contoh ini, tindakan Urai dokumen mereferensikan output Isi dari tindakan HTTP .

      Cuplikan layar memperlihatkan perancang alur kerja, yang memiliki tindakan bernama Urai dokumen dengan daftar konten dinamis yang dibuka dan output Isi yang dipilih dari tindakan HTTP.

      Output Isi sekarang muncul di kotak Konten Dokumen:

      Cuplikan layar memperlihatkan contoh alur kerja dengan output Isi dalam tindakan bernama Urai dokumen.

  5. Di bawah tindakan Uraikan dokumen, tambahkan tindakan yang ingin Anda kerjakan dengan output string yang ditokenisasi, misalnya, Teks gugus, yang dijelaskan panduan ini nanti.

Mengurai dokumen - Referensi

Parameter

Nama Nilai Jenis data Deskripsi Batas
Isi Dokumen < content-to-parse> Mana pun Konten yang akan diurai. Tidak

Output

Nama Jenis data Deskripsi
Teks hasil yang diurai Array string Array string.
Hasil yang diurai Objek Objek yang berisi seluruh teks yang diurai.

Teks potongan

Tindakan Teks gugus membagi konten menjadi bagian yang lebih kecil untuk tindakan berikutnya agar lebih mudah digunakan dalam alur kerja saat ini. Langkah-langkah berikut dibangun berdasarkan contoh dari bagian Urai dokumen dan memisahkan output string token untuk digunakan dengan operasi Azure AI yang mengharapkan potongan konten kecil yang ditokenisasi.

Catatan

Tindakan sebelumnya yang menggunakan penggugusan tidak memengaruhi tindakan Teks gugus, tindakan Teks gugus juga tidak memengaruhi tindakan berikutnya yang menggunakan penggugusan.

  1. Di portal Microsoft Azure, buka sumber daya dan alur kerja aplikasi logika Anda di perancang.

  2. Di bawah tindakan Uraikan dokumen, ikuti langkah-langkah umum ini untuk menambahkan tindakan Operasi Data bernama teks Gugus.

  3. Pada perancang, pilih tindakan Gugus teks .

  4. Setelah panel informasi tindakan terbuka, pada tab Parameter , untuk properti Strategi Penggugusan, pilih TokenSize sebagai metode penggugusan, jika belum dipilih.

    Strategi Deskripsi
    TokenSize Pisahkan konten yang ditentukan, berdasarkan jumlah token.
  5. Setelah Anda memilih strategi, pilih di dalam kotak Teks untuk menentukan konten untuk penggugusan.

    Opsi untuk daftar konten dinamis (ikon petir) dan editor ekspresi (ikon fungsi) muncul.

    • Untuk memilih output dari tindakan sebelumnya, pilih daftar konten dinamis.

    • Untuk membuat ekspresi yang memanipulasi output dari tindakan sebelumnya, pilih editor ekspresi.

    Contoh ini berlanjut dengan memilih ikon kilat untuk daftar konten dinamis.

    1. Setelah daftar konten dinamis terbuka, pilih output yang Anda inginkan dari operasi sebelumnya.

      Dalam contoh ini, tindakan Teks gugus mereferensikan output teks hasil Yang diurai dari tindakan Uraikan dokumen.

      Cuplikan layar memperlihatkan perancang alur kerja, tindakan bernama Teks gugus dengan daftar konten dinamis terbuka, dan output yang dipilih dari mengurai tindakan dokumen.

      Kotak Teks sekarang memperlihatkan output tindakan Hasil yang diurai:

      Cuplikan layar memperlihatkan contoh alur kerja dengan output teks hasil yang diurai yang dipilih dalam tindakan bernama Teks gugus.

  6. Selesaikan penyiapan untuk tindakan Teks gugus, berdasarkan strategi dan skenario yang Anda pilih. Untuk informasi selengkapnya, lihat Teks gugus - Referensi.

Sekarang, saat Anda menambahkan tindakan lain yang mengharapkan dan menggunakan input token, seperti tindakan Azure AI, konten input diformat untuk konsumsi yang lebih mudah.

Teks potongan - Referensi

Parameter

Nama Nilai Jenis data Deskripsi Batas
Strategi Pemotongan TokenSize Enum string Pisahkan konten, berdasarkan jumlah token.

Default: TokenSize
Tidak berlaku
Teks < content-to-chunk> Mana pun Konten yang akan dipotong. Lihat Panduan referensi batasan dan konfigurasi
EncodingModel < metode pengodean> Enum string Model pengodean yang akan digunakan:

- Default: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo)

- r50k_base (gpt-3)

- p50k_base (gpt-3)

- p50k_edit (gpt-3)

- cl200k_base (gpt-4o)

Untuk informasi selengkapnya, lihat Gambaran umum OpenAI - Model.
Tidak berlaku
TokenSize < max-tokens-per-chunk> Bilangan bulat Jumlah maksimum token per potongan konten.

Default: Tidak Ada
Minimum: 1
Maksimum: 8000
PageOverlapLength < jumlah karakter yang tumpang tindih> Bilangan bulat Jumlah karakter dari akhir gugus sebelumnya untuk disertakan dalam gugus berikutnya. Pengaturan ini membantu Anda menghindari kehilangan informasi penting saat membagi konten menjadi potongan dan mempertahankan kelangsungan dan konteks di seluruh gugus.

Default: 0 - Tidak ada karakter yang tumpang tindih.
Minimum: 0

Tip

Untuk mempelajari lebih lanjut, Anda dapat mengajukan pertanyaan-pertanyaan ini kepada Azure Copilot:

  • Apa itu PageOverlapLength dalam pemotongan?
  • Apa itu pengodean di Azure AI?

Untuk menemukan Azure Copilot, pada toolbar portal Azure, pilih Copilot.

Output

Nama Jenis data Deskripsi
Item Teks hasil yang dipotong Array string Array string.
Item Teks hasil yang dipotong String Satu string dalam array.
Hasil yang dipotong Objek Objek yang berisi seluruh teks yang dipotong.

Contoh alur kerja

Contoh berikut mencakup tindakan lain yang membuat pola alur kerja lengkap untuk menyerap data dari sumber apa pun:

Cuplikan layar memperlihatkan alur kerja sampel lengkap.

Langkah Tugas Operasi yang mendasar Deskripsi
1 Tunggu atau periksa konten baru. Ketika permintaan HTTP diterima Pemicu yang melakukan polling atau menunggu data baru tiba, baik berdasarkan pengulangan terjadwal atau sebagai respons terhadap peristiwa tertentu masing-masing. Kejadian seperti itu mungkin file baru yang diunggah ke sistem penyimpanan tertentu, seperti Azure Blob Storage, SharePoint, OneDrive, Sistem File, FTP, dan sebagainya.

Dalam contoh ini, operasi Pemicu permintaan menunggu permintaan HTTP atau HTTPS yang dikirim dari titik akhir lain. Permintaan menyertakan URL untuk dokumen baru yang diunggah.
2 Dapatkan kontennya. HTTP Tindakan HTTP yang mengambil dokumen yang diunggah menggunakan URL file dari output pemicu.
3 Buat detail dokumen. Tulis Tindakan Operasi Data yang menggabungkan berbagai item.

Contoh ini menggabungkan informasi kunci-nilai tentang dokumen.
4 Buat string token. Mengurai dokumen Tindakan Operasi Data yang menghasilkan string yang ditokenisasi menggunakan output dari tindakan Buat .
5 Membuat potongan konten. Teks potongan Tindakan Operasi Data yang membagi string token menjadi beberapa bagian, berdasarkan jumlah token per potongan konten.
6 Konversikan teks yang ditokenisasi dan dipotong ke JSON. Menguraikan JSON Tindakan Operasi Data yang mengonversi output yang dipotong menjadi array JSON.
7 Pilih item array JSON. Pilih Tindakan Operasi Data yang memilih beberapa item dari array JSON.
8 Buat penyematan. Mendapatkan beberapa penyematan Tindakan Azure OpenAI yang membuat penyematan untuk setiap item array JSON.
9 Pilih penyematan dan informasi lainnya. Pilih Tindakan Operasi Data yang memilih penyematan dan informasi dokumen lainnya.
10 Indeks data. Dokumen indeks Tindakan Pencarian Azure AI yang mengindeks data berdasarkan setiap penyematan yang dipilih.