Adatok indexelése OneLake-fájlokból és parancsikonokból
Ebből a cikkből megtudhatja, hogyan konfigurálhat oneLake-fájlindexelőt a kereshető adatok és metaadatok kinyeréséhez a OneLake tetején található tóházból.
Az indexelő konfigurálásához és futtatásához a következőt használhatja:
- 2024-05-01-preview REST API vagy újabb előzetes REST API.
- Egy Azure SDK bétacsomag, amely biztosítja a funkciót.
- Adatimportálás varázsló az Azure Portalon.
- Adatok importálása és vektorizálása varázsló az Azure Portalon.
Ez a cikk a REST API-kat használja az egyes lépések szemléltetésére.
Előfeltételek
Háló munkaterület. Kövesse ezt az oktatóanyagot háló-munkaterület létrehozásához.
Egy tóház egy Háló munkaterületen. Kövesse ezt az oktatóanyagot egy tóház létrehozásához.
Szöveges adatok. Ha bináris adatokkal rendelkezik, AI-bővítő képelemzéssel kinyerheti a szöveget, vagy képek leírását hozhatja létre. A fájltartalom nem haladhatja meg a keresési szolgáltatási szint indexelőkorlátait .
A lakehouse Fájlok helyének tartalma. Az adatokat a következővel adhatja hozzá:
- Feltöltés közvetlenül egy tóházba
- Adatfolyamok használata a Microsoft Fabricből
- Adjon hozzá billentyűparancsokat külső adatforrásokból, például az Amazon S3-ból vagy a Google Cloud Storage-ból.
A rendszer által felügyelt identitáshoz vagy felhasználó által hozzárendelt felügyelt identitáshozkonfigurált AI-Search szolgáltatás. Az AI-Search szolgáltatás ugyanabban a bérlőben kell lennie, mint a Microsoft Fabric-munkaterületnek.
Közreműködői szerepkör-hozzárendelés abban a Microsoft Fabric-munkaterületen, ahol a lakehouse található. A lépéseket a cikk Engedélyek megadása szakasza ismerteti.
REST-ügyfél , amely a jelen cikkben bemutatottakhoz hasonló REST-hívásokat hoz létre.
Támogatott tevékenységek
Ezt az indexelőt a következő feladatokhoz használhatja:
- Adatindexelés és növekményes indexelés: Az indexelő képes indexelni a fájlokat és a kapcsolódó metaadatokat a lakehouse-beli adatelérési utakról. Az új és frissített fájlokat és metaadatokat a beépített változásészlelés segítségével észleli. Az adatfrissítést ütemezés szerint vagy igény szerint konfigurálhatja.
- Törlésészlelés: Az indexelő a legtöbb fájl és parancsikon egyéni metaadataival észlelheti a törléseket. Ehhez metaadatokat kell hozzáadni a fájlokhoz, hogy jelezzék, hogy "helyreállíthatóan törölték" őket, ami lehetővé teszi az eltávolításukat a keresési indexből. Jelenleg nem lehet észlelni a Törléseket a Google Cloud Storage-ban vagy az Amazon S3-ban, mert ezek az adatforrások nem támogatják az egyéni metaadatokat.
- Alkalmazott AI készségkészleteken keresztül:A készségkészleteket teljes mértékben támogatja a OneLake-fájlok indexelője. Ide tartoznak az olyan kulcsfontosságú funkciók, mint az integrált vektorizálás , amely adattömböket és beágyazási lépéseket ad hozzá.
- Elemzési módok: Az indexelő támogatja a JSON-elemzési módokat , ha JSON-tömböket vagy sorokat szeretne elemezni az egyes keresési dokumentumokban. Támogatja a Markdown-elemzési módot is.
- Kompatibilitás más funkciókkal: A OneLake indexelő úgy lett kialakítva, hogy zökkenőmentesen működjön más indexelő funkciókkal, például hibakeresési munkamenetekkel, indexelő gyorsítótárral a növekményes bővítéshez és a tudástárhoz.
Támogatott dokumentumformátumok
A OneLake-fájlok indexelője a következő dokumentumformátumokból tud szöveget kinyerni:
- CSV (lásd : CSV-blobok indexelése)
- EML
- EPUB
- GZ
- HTML
- JSON (lásd : JSON-blobok indexelése)
- KML (XML földrajzi ábrázolásokhoz)
- Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
- Dokumentumformátumok megnyitása: ODT, ODS, ODP
- Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
- RTF
- XML
- FÜTYÜLÉS
Támogatott billentyűparancsok
A OneLake-fájlok indexelője a következő OneLake-parancsikonokat támogatja:
OneLake parancsikon (egy másik OneLake-példányra mutató parancsikon)
Az előzetes verzió korlátozásai
A parquet -fájltípusok (beleértve a delta parquetet) jelenleg nem támogatottak.
Az Amazon S3 és a Google Cloud Storage billentyűparancsai nem támogatják a fájlok törlését.
Ez az indexelő nem támogatja a OneLake-munkaterület táblahelyének tartalmát.
Ez az indexelő nem támogatja az SQL-lekérdezéseket, de az adatforrás konfigurációjában használt lekérdezés kizárólag a hozzáféréshez szükséges mappát vagy parancsikont adja hozzá.
A OneLake-ben nem támogatott fájlok betöltése a Saját munkaterület munkaterületről, mivel ez egy felhasználónkénti személyes adattár.
Adatok előkészítése indexelésre
Mielőtt beállítja az indexelést, tekintse át a forrásadatokat, és állapítsa meg, hogy a módosításokat elöl kell-e elvégezni. Az indexelők egyszerre egyetlen tárolóból is indexelhetik a tartalmat. Alapértelmezés szerint a tárolóban lévő összes fájl feldolgozása történik. A szelektív feldolgozás több lehetőséggel is rendelkezik:
Fájlok elhelyezése virtuális mappába. Az indexelő adatforrásdefiníciója tartalmaz egy "lekérdezési" paramétert, amely lehet egy lakehouse almappája vagy parancsikonja. Ha ez az érték meg van adva, a rendszer csak az almappában vagy a lakehouse-ban lévő parancsikonban lévő fájlokat indexeli.
Fájlok belefoglalása vagy kizárása fájltípus szerint. A támogatott dokumentumformátumok listája segíthet meghatározni, hogy mely fájlokat zárja ki. Előfordulhat például, hogy ki szeretné zárni azokat a kép- vagy hangfájlokat, amelyek nem nyújtanak kereshető szöveget. Ezt a képességet az indexelő konfigurációs beállításai vezérlik.
Tetszőleges fájlok belefoglalása vagy kizárása. Ha valamilyen okból ki szeretne hagyni egy adott fájlt, metaadat-tulajdonságokat és értékeket adhat hozzá a OneLake lakehouse-ban lévő fájlokhoz. Amikor egy indexelő találkozik ezzel a tulajdonságmal, kihagyja a fájlt vagy annak tartalmát az indexelési futtatás során.
A fájlbefoglalást és a kizárást az indexelő konfigurációs lépése ismerteti. Ha nem állít be feltételeket, az indexelő hibaként jelent egy nem jogosult fájlt, és továbblép. Ha elegendő hiba történik, a feldolgozás leállhat. Az indexelő konfigurációs beállításaiban megadhatja a hibatűrést.
Az indexelők általában fájlonként egy keresési dokumentumot hoznak létre, ahol a szöveges tartalom és a metaadatok kereshető mezőkként vannak rögzítve egy indexben. Ha a fájlok teljes fájlok, több keresési dokumentumba is elemezheti őket. Elemezheti például egy CSV-fájl sorait, hogy soronként egy keresési dokumentumot hozzon létre. Ha egyetlen dokumentumot kisebb részekre kell bontania az adatok vektorizálásához, fontolja meg az integrált vektorizáció használatát.
Fájl metaadatainak indexelése
A fájl metaadatai indexelhetők is, és ez akkor hasznos, ha úgy gondolja, hogy a standard vagy egyéni metaadat-tulajdonságok bármelyike hasznos a szűrőkben és a lekérdezésekben.
A rendszer szó szerint kinyeri a felhasználó által megadott metaadat-tulajdonságokat. Az értékek fogadásához meg kell határoznia a típus keresési indexében Edm.String
lévő mezőt, amelynek neve megegyezik a blob metaadatkulcsával. Ha például egy blob rendelkezik értékekkel rendelkező metaadat-kulccsalPriority
, meg kell adnia egy, a keresési indexben elnevezett Priority
mezőt, amely az értékkel High
lesz feltöltve.High
A standard fájl metaadat-tulajdonságai az alábbi módon kinyerhetők hasonlóan elnevezett és beírt mezőkbe. A OneLake-fájlok indexelője automatikusan belső mezőleképezéseket hoz létre ezekhez a metaadat-tulajdonságokhoz, és az eredeti kötőjeles nevet ("metadata-storage-name") egy alászúrt egyenértékű névvé ("metadata_storage_name") konvertálja.
Továbbra is hozzá kell adnia az alábecsült mezőket az indexdefinícióhoz, de kihagyhatja az indexelő mezőleképezéseit , mert az indexelő automatikusan társítja a társításokat.
metadata_storage_name (
Edm.String
) – a fájl neve. Ha például van egy fájlja /mydatalake/my-folder/subfolder/resume.pdf, akkor ennek a mezőnek az értéke.resume.pdf
metadata_storage_path (
Edm.String
) - a blob teljes URI-ja, beleértve a tárfiókot is. Például:https://myaccount.blob.core.windows.net/my-container/my-folder/subfolder/resume.pdf
metadata_storage_content_type (
Edm.String
) – a blob feltöltéséhez használt kód által megadott tartalomtípus. Például:application/octet-stream
.metadata_storage_last_modified (
Edm.DateTimeOffset
) – a blob utolsó módosított időbélyege. Az Azure AI Search ezzel az időbélyegzővel azonosítja a módosított blobokat, hogy elkerülje a kezdeti indexelés utáni újraindexelést.metadata_storage_size (
Edm.Int64
) – a blob mérete bájtban.metadata_storage_content_md5 (
Edm.String
) – A blobtartalom MD5 kivonata, ha elérhető.
Végül az indexelt fájlok dokumentumformátumára vonatkozó metaadat-tulajdonságok is megjeleníthetők az indexsémában. A tartalomspecifikus metaadatokról további információt a Tartalom metaadatainak tulajdonságai című témakörben talál.
Fontos kiemelni, hogy nem kell mezőket definiálnia a keresési indexben szereplő összes fenti tulajdonsághoz – csak rögzítse az alkalmazáshoz szükséges tulajdonságokat.
Engedélyek megadása
A OneLake indexelő jogkivonat-hitelesítést és szerepköralapú hozzáférést használ a OneLake-hez való kapcsolatokhoz. Az engedélyek a OneLake-ben vannak hozzárendelve. A parancsikonokat biztonsági másolatot készítő fizikai adattárakra nem vonatkoznak engedélykövetelmények. Ha például az AWS-ből indexel, nem kell keresési szolgáltatási engedélyeket adnia az AWS-ben.
A keresési szolgáltatás identitásának minimális szerepkör-hozzárendelése a Közreműködő.
Konfiguráljon egy rendszert vagy felhasználó által felügyelt identitást az AI-Search szolgáltatás.
Az alábbi képernyőképen egy rendszer által felügyelt identitás látható egy "onelake-demo" nevű keresési szolgáltatáshoz.
Ez a képernyőkép egy felhasználó által felügyelt identitást jelenít meg ugyanahhoz a keresési szolgáltatáshoz.
Adjon engedélyt a keresési szolgáltatásnak a Fabric-munkaterülethez való hozzáféréséhez . A keresési szolgáltatás az indexelő nevében hozza létre a kapcsolatot.
Ha rendszer által hozzárendelt felügyelt identitást használ, keresse meg az AI-Search szolgáltatás nevét. Felhasználó által hozzárendelt felügyelt identitás esetén keresse meg az identitáserőforrás nevét.
Az alábbi képernyőképen egy közreműködői szerepkör hozzárendelése látható egy rendszer által felügyelt identitás használatával.
Ez a képernyőkép egy közreműködői szerepkör-hozzárendelést jelenít meg egy felhasználó által hozzárendelt felügyelt identitás használatával:
Az adatforrás meghatározása
Egy adatforrás független erőforrásként van definiálva, így több indexelő is használhatja. Az adatforrás létrehozásához a 2024-05-01-preview REST API-t kell használnia.
A definíció beállításához használja az adatforrás REST API-jának létrehozását vagy frissítését. Ezek a definíció legfontosabb lépései.
Állítsa be a (kötelező) értéket
"type"
"onelake"
.A Microsoft Fabric-munkaterület GUID-azonosítójának és a lakehouse GUID-jának lekérése:
Lépjen arra a tóházra, ahol adatokat szeretne importálni az URL-címéről. Ennek a példához hasonlóan kell kinéznie: "https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=power-bi". Másolja ki az adatforrás-definícióban használt alábbi értékeket:
Másolja ki a meghívni kívánt
{FabricWorkspaceGuid}
munkaterület GUID azonosítóját, amely közvetlenül a "csoportok" után jelenik meg az URL-címben. Ebben a példában 000000000-0000-0000-0000-00000000000.Másolja ki a meghívni
{lakehouseGuid}
kívánt lakehouse GUID-t, amely közvetlenül a "lakehouses" után jelenik meg az URL-címben. Ebben a példában a következő lenne: 111111111-1111-1111-1111-11111111111.
Állítsa be
"credentials"
a Microsoft Fabric-munkaterület GUID azonosítójának értékét az előző lépésben másolt értékre cserélve{FabricWorkspaceGuid}
. Ez a OneLake az útmutató későbbi részében beállított felügyelt identitással való hozzáféréshez."credentials": { "connectionString": "ResourceId={FabricWorkspaceGuid}" }
Állítsa be
"container.name"
a lakehouse GUID értékét az előző lépésben kimásolt értékre cserélve{lakehouseGuid}
. Lehetőség"query"
van egy tóház almappájának vagy parancsikonjának megadására."container": { "name": "{lakehouseGuid}", "query": "{optionalLakehouseFolderOrShortcut}" }
Állítsa be a hitelesítési módszert a felhasználó által hozzárendelt felügyelt identitással, vagy ugorjon a rendszer által felügyelt identitás következő lépésére.
{ "name": "{dataSourceName}", "description": "description", "type": "onelake", "credentials": { "connectionString": "ResourceId={FabricWorkspaceGuid}" }, "container": { "name": "{lakehouseGuid}", "query": "{optionalLakehouseFolderOrShortcut}" }, "identity": { "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity", "userAssignedIdentity": "{userAssignedManagedIdentity}" } }
Az
userAssignedIdentity
érték az erőforráshoz való hozzáféréssel, a{userAssignedManagedIdentity}
Tulajdonságok területen található, és a neveId
.Példa:
{ "name": "mydatasource", "description": "description", "type": "onelake", "credentials": { "connectionString": "ResourceId=a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1" }, "container": { "name": "11111111-1111-1111-1111-111111111111", "query": "folder_name" }, "identity": { "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity", "userAssignedIdentity": "/subscriptions/333333-3333-3333-3333-33333333/resourcegroups/myresourcegroup/providers/Microsoft.ManagedIdentity/userAssignedIdentities/demo-mi" } }
Ha szeretné, használjon inkább rendszer által hozzárendelt felügyelt identitást. Ha rendszer által hozzárendelt felügyelt identitást használ, az "identitás" el lesz távolítva a definícióból.
{ "name": "{dataSourceName}", "description": "description", "type": "onelake", "credentials": { "connectionString": "ResourceId={FabricWorkspaceGuid}" }, "container": { "name": "{lakehouseGuid}", "query": "{optionalLakehouseFolderOrShortcut}" } }
Példa:
{ "name": "mydatasource", "description": "description", "type": "onelake", "credentials": { "connectionString": "ResourceId=a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1" }, "container": { "name": "11111111-1111-1111-1111-111111111111", "query": "folder_name" } }
Törlések észlelése egyéni metaadatokkal
A OneLake files indexelő adatforrásdefiníciója helyreállítható törlési szabályzatot is tartalmazhat, ha azt szeretné, hogy az indexelő töröljön egy keresési dokumentumot, amikor a forrásdokumentumot törlésre jelölik meg.
Az automatikus fájltörlés engedélyezéséhez egyéni metaadatokkal jelezze, hogy el kell-e távolítani egy keresési dokumentumot az indexből.
A munkafolyamat három külön műveletet igényel:
- A fájl "helyreállítható törlése" a OneLake-ben
- Az indexelő törli a keresési dokumentumot az indexben
- A fájl "kemény törlése" a OneLake-ben
A "helyreállítható törlés" jelzi az indexelőnek, hogy mit kell tennie (törölje a keresési dokumentumot). Ha először törli a fizikai fájlt a OneLake-ben, az indexelőnek nincs mit olvasnia, és az indexben lévő megfelelő keresési dokumentum árva lesz.
A OneLake-ben és az Azure AI Searchben is vannak követendő lépések, de nincs más funkciófüggőség.
A lakehouse-fájlban adjon hozzá egy egyéni metaadatkulcs-érték párot a fájlhoz, amely jelzi, hogy a fájl törlésre van megjelölve. Elnevezheti például az "IsDeleted" tulajdonságot hamis értékre. Ha törölni szeretné a fájlt, módosítsa igazra.
Az Azure AI Searchben szerkessze az adatforrás definícióját úgy, hogy az tartalmazzon egy "dataDeletionDetectionPolicy" tulajdonságot. Az alábbi szabályzat például úgy véli, hogy egy fájl törölve van, ha az "IsDeleted" metaadat-tulajdonsága igaz:
PUT https://[service name].search.windows.net/datasources/file-datasource?api-version=2024-05-01-preview { "name" : "onelake-datasource", "type" : "onelake", "credentials": { "connectionString": "ResourceId={FabricWorkspaceGuid}" }, "container": { "name": "{lakehouseGuid}", "query": "{optionalLakehouseFolderOrShortcut}" }, "dataDeletionDetectionPolicy" : { "@odata.type" :"#Microsoft.Azure.Search.SoftDeleteColumnDeletionDetectionPolicy", "softDeleteColumnName" : "IsDeleted", "softDeleteMarkerValue" : "true" } }
Miután az indexelő futtatta és törölte a dokumentumot a keresési indexből, törölheti a fizikai fájlt a data lake-ben.
Néhány fontos pont a következők:
Az indexelő futtatásának ütemezése segít automatizálni ezt a folyamatot. Az összes növekményes indexelési forgatókönyv ütemezését javasoljuk.
Ha a törlésészlelési szabályzat nem lett beállítva az első indexelő futtatásakor, alaphelyzetbe kell állítania az indexelőt , hogy beolvassa a frissített konfigurációt.
Ne feledje, hogy a törlésészlelés nem támogatott az Amazon S3 és a Google Cloud Storage billentyűparancsai esetében az egyéni metaadatoktól való függőség miatt.
Keresési mezők hozzáadása indexhez
Egy keresési indexben adjon hozzá mezőket a OneLake data lake-fájlok tartalmának és metaadatainak elfogadásához.
Hozzon létre vagy frissítsen egy indexet a fájltartalmakat és metaadatokat tároló keresési mezők definiálásához:
{ "name" : "my-search-index", "fields": [ { "name": "ID", "type": "Edm.String", "key": true, "searchable": false }, { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false }, { "name": "metadata_storage_name", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true }, { "name": "metadata_storage_size", "type": "Edm.Int64", "searchable": false, "filterable": true, "sortable": true }, { "name": "metadata_storage_content_type", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true } ] }
Hozzon létre egy dokumentumkulcsmezőt ("key": true). A fájltartalmak esetében a legjobb jelöltek a metaadat-tulajdonságok.
metadata_storage_path
(alapértelmezett) az objektum vagy fájl teljes elérési útja. A kulcsmező ("Azonosító" ebben a példában) metadata_storage_path értékeivel van feltöltve, mert ez az alapértelmezett érték.metadata_storage_name
, csak akkor használható, ha a nevek egyediek. Ha ezt a mezőt szeretné kulcsként használni, lépjen"key": true
erre a meződefinícióra.A fájlokhoz hozzáadott egyéni metaadat-tulajdonság. Ehhez a beállításhoz a fájlfeltöltési folyamatnak hozzá kell adnia ezt a metaadat-tulajdonságot az összes blobhoz. Mivel a kulcs egy kötelező tulajdonság, az érték nélküli fájlok indexelése sikertelen. Ha egyéni metaadat-tulajdonságot használ kulcsként, ne módosítsa a tulajdonságot. Az indexelők duplikált dokumentumokat adnak hozzá ugyanahhoz a fájlhoz, ha a kulcstulajdonság megváltozik.
A metaadat-tulajdonságok gyakran tartalmaznak olyan karaktereket, például
/
és-
, amelyek érvénytelenek a dokumentumkulcsokhoz. Mivel az indexelő rendelkezik egy "base64EncodeKeys" tulajdonsággal (alapértelmezés szerint igaz), automatikusan kódolja a metaadat-tulajdonságot, konfiguráció vagy mezőleképezés nélkül.Adjon hozzá egy "content" mezőt az egyes fájlokból kinyert szöveg tárolásához a fájl "content" tulajdonságán keresztül. Ezt a nevet nem kell használnia, de így kihasználhatja az implicit mezőleképezések előnyeit.
Adjon hozzá mezőket a szabványos metaadat-tulajdonságokhoz. Az indexelő elolvashatja az egyéni metaadat-tulajdonságokat, a szabványos metaadat-tulajdonságokat és a tartalomspecifikus metaadat-tulajdonságokat .
A OneLake-fájlok indexelőjének konfigurálása és futtatása
Az index és az adatforrás létrehozása után készen áll az indexelő létrehozására. Az indexelő konfigurációja meghatározza a futási idő viselkedését vezérlő bemeneteket, paramétereket és tulajdonságokat. Megadhatja azt is, hogy a blob mely részeit indexelje.
Hozzon létre vagy frissítsen egy indexelőt úgy, hogy megad neki egy nevet, és hivatkozik az adatforrásra és a célindexre:
{ "name" : "my-onelake-indexer", "dataSourceName" : "my-onelake-datasource", "targetIndexName" : "my-search-index", "parameters": { "batchSize": null, "maxFailedItems": null, "maxFailedItemsPerBatch": null, "base64EncodeKeys": null, "configuration": { "indexedFileNameExtensions" : ".pdf,.docx", "excludedFileNameExtensions" : ".png,.jpeg", "dataToExtract": "contentAndMetadata", "parsingMode": "default" } }, "schedule" : { }, "fieldMappings" : [ ] }
Állítsa be a "batchSize" értéket, ha az alapértelmezett (10 dokumentum) a rendelkezésre álló erőforrások kihasználása vagy túlterhelése alatt áll. Az alapértelmezett kötegméretek adatforrás-specifikusak. A fájlindexelés a kötegméretet 10 dokumentumra állítja a nagyobb átlagos dokumentumméret elismeréseként.
A "konfiguráció" alatt szabályozhatja, hogy mely fájlok legyenek indexelve a fájltípus alapján, vagy hagyja meg nem határozottul az összes fájl lekéréséhez.
Ehhez
"indexedFileNameExtensions"
adja meg a fájlkiterjesztések vesszővel tagolt listáját (vezető ponttal). Ugyanezzel"excludedFileNameExtensions"
a módszerrel jelezheti, hogy mely bővítményeket kell kihagyni. Ha ugyanaz a bővítmény mindkét listában szerepel, akkor az indexelésből ki lesz zárva.A "konfiguráció" területen állítsa be a "dataToExtract" értéket a fájlok indexelt részeinek szabályozásához:
A "contentAndMetadata" az alapértelmezett érték. Megadja, hogy a fájlból kinyert összes metaadat és szöveges tartalom indexelve legyen.
A "storageMetadata" azt határozza meg, hogy csak a szabványos fájltulajdonságok és a felhasználó által megadott metaadatok legyenek indexelve. Bár a tulajdonságok dokumentálva vannak az Azure-blobok esetében, a fájltulajdonságok megegyeznek a OneLkae esetében, kivéve az SAS-hez kapcsolódó metaadatokat.
Az "allMetadata" azt határozza meg, hogy a rendszer kinyeri és indexeli a szabványos fájltulajdonságokat és a talált tartalomtípusok metaadatait.
A "konfiguráció" területen állítsa be a "parsingMode" értéket, ha a fájlokat több keresési dokumentumra kell leképezni, vagy ha egyszerű szövegből, JSON-dokumentumokból vagy CSV-fájlokból állnak.
Mezőleképezéseket adhat meg, ha a mezőnév vagy a típus eltérést mutat, vagy ha egy forrásmező több verziójára van szüksége a keresési indexben.
A fájlindexelés során gyakran kihagyhatja a mezőleképezéseket, mert az indexelő beépített támogatással rendelkezik a "tartalom" és a metaadat tulajdonságainak az index hasonló nevű és begépelt mezőihez való leképezéséhez. Metaadat-tulajdonságok esetén az indexelő automatikusan lecseréli a kötőjeleket
-
aláhúzásjelekre a keresési indexben.
További információ az egyéb tulajdonságokról: Indexelő létrehozása. A paraméterleírások teljes listáját lásd : Indexelő létrehozása (REST) a REST API-ban. A paraméterek megegyeznek a OneLake-hez.
Alapértelmezés szerint az indexelő automatikusan fut a létrehozásakor. Ezt a viselkedést úgy módosíthatja, hogy a "letiltva" értéket igazra állítja. Az indexelő végrehajtásának szabályozásához futtasson egy indexelőt igény szerint , vagy ütemezze.
Az indexelő állapotának ellenőrzése
Itt több módszert is megismerhet az indexelőzmények állapotának és végrehajtási előzményeinek monitorozásához.
Hibakezelés
Az indexelés során gyakran előforduló hibák közé tartoznak a nem támogatott tartalomtípusok, hiányzó tartalmak vagy túlméretezett fájlok. Alapértelmezés szerint a OneLake-fájlok indexelője leáll, amint nem támogatott tartalomtípusú fájlba ütközik. Előfordulhat azonban, hogy azt szeretné, hogy az indexelés akkor is folytatódjon, ha hibák történnek, majd később hibakeresést végezzen az egyes dokumentumokban.
A több platformot és terméket érintő megoldások esetében gyakoriak az átmeneti hibák. Ha azonban ütemezve tartja az indexelőt (például 5 percenként), az indexelőnek képesnek kell lennie a hibák helyreállítására a következő futtatás során.
Öt indexelőtulajdonság vezérli az indexelő válaszát hibák esetén.
{
"parameters" : {
"maxFailedItems" : 10,
"maxFailedItemsPerBatch" : 10,
"configuration" : {
"failOnUnsupportedContentType" : false,
"failOnUnprocessableDocument" : false,
"indexStorageMetadataOnlyForOversizedDocuments": false
}
}
}
Paraméter | Érvényes értékek | Leírás |
---|---|---|
"maxFailedItems" | -1, null vagy 0, pozitív egész szám | Folytassa az indexelést, ha hibák történnek a feldolgozás bármely pontján, akár blobok elemzésekor, akár dokumentumok indexhez való hozzáadásakor. Állítsa be ezeket a tulajdonságokat az elfogadható hibák számára. A feldolgozás a hibák számától -1 függetlenül lehetővé teszi a feldolgozást. Ellenkező esetben az érték pozitív egész szám. |
"maxFailedItemsPerBatch" | -1, null vagy 0, pozitív egész szám | Ugyanaz, mint a fenti, de kötegelt indexeléshez használatos. |
"failOnUnsupportedContentType" | igaz vagy hamis | Ha az indexelő nem tudja meghatározni a tartalomtípust, adja meg, hogy folytatja-e a feladatot, vagy nem. |
"failOnUnprocessableDocument" | igaz vagy hamis | Ha az indexelő nem tud feldolgozni egy egyébként támogatott tartalomtípusú dokumentumot, adja meg, hogy folytatja-e a feladatot, vagy nem. |
"indexStorageMetadataOnlyForOversizedDocuments" | igaz vagy hamis | A túlméretezett blobokat alapértelmezés szerint hibaként kezeli a rendszer. Ha igaz értékre állítja ezt a paramétert, az indexelő akkor is megpróbálja indexelni a metaadatait, ha a tartalom nem indexelhető. A blob méretére vonatkozó korlátozásokért tekintse meg a szolgáltatás korlátait. |
Következő lépések
Tekintse át az Adatok importálása és vektorizálása varázsló működését, és próbálja ki az indexelőhöz. Az integrált vektorizálással beágyazásokat hozhat létre vektoros vagy hibrid kereséshez egy alapértelmezett sémával.