Menyalin data ke indeks Pencarian Azure AI menggunakan Azure Data Factory atau Synapse Analytics
BERLAKU UNTUK: Azure Data Factory
Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Artikel ini menguraikan cara menggunakan Aktivitas Salin di alur Azure Data Factory atau Synapse Analytics untuk menyalin data ke indeks Pencarian Azure AI. Artikel tersebut dibuat berdasarkan artikel gambaran umum aktivitas salin yang menyajikan gambaran umum aktivitas salin.
Kemampuan yang didukung
Konektor Azure AI Search ini didukung untuk kemampuan berikut:
Kemampuan yang didukung | IR | Titik akhir privat terkelola |
---|---|---|
Aktivitas salin (-/sink) | (1) (2) | ✓ |
① Runtime integrasi Azure ② Runtime integrasi yang dihost sendiri
Anda juga dapat menyalin data dari penyimpanan data sumber yang didukung ke indeks pencarian. Untuk daftar penyimpanan data yang didukung sebagai sumber/sink oleh aktivitas salin, lihat tabel Penyimpanan data yang didukung.
Memulai
Untuk melakukan aktivitas Salin dengan alur, Anda dapat menggunakan salah satu alat atau SDK berikut:
- Alat Penyalinan Data
- Portal Microsoft Azure
- SDK .NET
- SDK Python
- Azure PowerShell
- REST API
- Templat Azure Resource Manager
Membuat layanan tertaut ke Azure Search menggunakan UI
Gunakan langkah-langkah berikut untuk membuat layanan tertaut ke Azure Search di UI portal Azure.
Telusuri ke tab Kelola di ruang kerja Azure Data Factory atau Synapse Anda dan pilih Layanan Tertaut, lalu klik Baru:
Cari dan pilih konektor Azure Search.
Konfigurasikan detail layanan, uji koneksi, dan buat layanan tertaut baru.
Detail konfigurasi konektor
Bagian berikut ini menyediakan detail tentang properti yang digunakan untuk menentukan entitas Data Factory khusus untuk konektor Azure AI Search.
Properti layanan tertaut
Properti berikut ini didukung untuk layanan tertaut Azure AI Search:
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Properti jenis harus diatur ke: AzureSearch | Ya |
url | URL untuk layanan pencarian. | Ya |
kunci | Kunci admin untuk layanan pencarian. Tandai bidang ini sebagai SecureString untuk menyimpannya dengan aman, atau mereferensikan rahasia yang disimpan di Azure Key Vault. | Ya |
connectVia | Runtime integrasi yang akan digunakan untuk menyambungkan ke penyimpanan data. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang Dihost Sendiri (jika penyimpanan data Anda berada di jaringan privat). Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. | No |
Penting
Saat menyalin data dari penyimpanan data cloud ke dalam indeks pencarian, di layanan tertaut Azure AI Search, Anda perlu merujuk Azure Integration Runtime dengan wilayah eksplisit di connectVia. Tetapkan wilayah sebagai tempat layanan pencarian Anda berada. Pelajari selengkapnya dari Azure Integration Runtime.
Contoh:
{
"name": "AzureSearchLinkedService",
"properties": {
"type": "AzureSearch",
"typeProperties": {
"url": "https://<service>.search.windows.net",
"key": {
"type": "SecureString",
"value": "<AdminKey>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properti himpunan data
Untuk daftar lengkap bagian dan properti yang tersedia untuk menentukan himpunan data, lihat artikel himpunan data. Bagian ini menyediakan daftar properti yang didukung oleh himpunan data Azure AI Search.
Untuk menyalin data ke Azure AI Search, properti berikut ini didukung:
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Properti jenis himpunan data harus diatur ke: AzureSearchIndex | Ya |
indexName | Nama indeks pencarian. Layanan ini tidak membuat indeks. Indeks harus ada di Azure AI Search. | Ya |
Contoh:
{
"name": "AzureSearchIndexDataset",
"properties": {
"type": "AzureSearchIndex",
"typeProperties" : {
"indexName": "products"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Azure AI Search linked service name>",
"type": "LinkedServiceReference"
}
}
}
Properti aktivitas salin
Untuk daftar lengkap bagian dan properti yang tersedia untuk menentukan aktivitas, lihat artikel Alur. Bagian ini menyediakan daftar properti yang didukung oleh sumber Pencarian Azure AI.
Pencarian Azure AI sebagai sink
Untuk menyalin data ke Azure AI Search, atur jenis sumber dalam aktivitas salin ke AzureSearchIndexSink. Berikut adalah properti yang didukung di bagian sink aktivitas salin:
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Properti jenis dari sumber aktivitas salin harus diatur ke AzureSearchIndexSink | Ya |
writeBehavior | Menentukan apakah akan menggabungkan atau mengganti ketika dokumen sudah ada dalam indeks. Lihat properti WriteBehavior. Nilai yang diperbolehkan Gabungkan (default) dan Unggah. |
No |
writeBatchSize | Mengunggah data ke dalam indeks pencarian ketika ukuran buffer mencapai writeBatchSize. Lihat properti WriteBatchSize untuk detailnya. Nilai yang diperbolehkan adalah: bilangan bulat 1 hingga 1.000; defaultnya adalah 1000. |
No |
maxConcurrentConnections | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. | No |
Properti WriteBehavior
AzureSearchSink upsert saat menulis data. Dengan kata lain, saat menulis dokumen, jika kunci dokumen sudah ada di indeks pencarian, Azure AI Search memperbarui dokumen yang ada daripada melemparkan pengecualian konflik.
AzureSearchSink menyediakan dua perilaku upsert berikut (dengan menggunakan AzureSearch SDK):
- Gabungkan: gabungkan semua kolom di dokumen baru dengan yang sudah ada. Untuk kolom dengan nilai kosong di dokumen baru, nilai dalam yang sudah ada dipertahankan.
- Unggah: Dokumen baru menggantikan dokumen yang sudah ada. Untuk kolom yang tidak ditentukan dalam dokumen baru, nilai diatur ke null apakah ada nilai bukan nol di dokumen yang ada atau tidak.
Perilaku default adalah Gabungkan.
Properti WriteBatchSize
Azure AI layanan Pencarian mendukung penulisan dokumen sebagai batch. Batch dapat berisi 1 hingga 1.000 Tindakan. Tindakan menangani satu dokumen untuk melakukan operasi unggah/gabungkan.
Contoh:
"activities":[
{
"name": "CopyToAzureSearch",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Azure AI Search output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "AzureSearchIndexSink",
"writeBehavior": "Merge"
}
}
}
]
Dukungan jenis data
Tabel berikut menentukan apakah jenis data Pencarian Azure AI didukung atau tidak.
Jenis data Pencarian Azure AI | Didukung di Azure AI Search Sink |
---|---|
String | Y |
Int32 | Y |
Int64 | Y |
Laju | Y |
Boolean | Y |
DataTimeOffset | Y |
Array String | N |
GeographyPoint | N |
Saat ini jenis data lainnya misalnya ComplexType tidak didukung. Untuk daftar lengkap jenis data yang didukung Azure AI Search, lihat Jenis data yang didukung (Pencarian Azure AI).
Konten terkait
Untuk daftar penyimpanan data yang didukung sebagai sumber dan sink oleh aktivitas salin, lihat penyimpanan data yang didukung.