Megosztás a következőn keresztül:


Adatok indexelése OneLake-fájlokból és parancsikonokból

Ebből a cikkből megtudhatja, hogyan konfigurálhat oneLake-fájlindexelőt a kereshető adatok és metaadatok kinyeréséhez a OneLake tetején található tóházból.

Az indexelő konfigurálásához és futtatásához a következőt használhatja:

Ez a cikk a REST API-kat használja az egyes lépések szemléltetésére.

Előfeltételek

Támogatott tevékenységek

Ezt az indexelőt a következő feladatokhoz használhatja:

  • Adatindexelés és növekményes indexelés: Az indexelő képes indexelni a fájlokat és a kapcsolódó metaadatokat a lakehouse-beli adatelérési utakról. Az új és frissített fájlokat és metaadatokat a beépített változásészlelés segítségével észleli. Az adatfrissítést ütemezés szerint vagy igény szerint konfigurálhatja.
  • Törlésészlelés: Az indexelő a legtöbb fájl és parancsikon egyéni metaadataival észlelheti a törléseket. Ehhez metaadatokat kell hozzáadni a fájlokhoz, hogy jelezzék, hogy "helyreállíthatóan törölték" őket, ami lehetővé teszi az eltávolításukat a keresési indexből. Jelenleg nem lehet észlelni a Törléseket a Google Cloud Storage-ban vagy az Amazon S3-ban, mert ezek az adatforrások nem támogatják az egyéni metaadatokat.
  • Alkalmazott AI készségkészleteken keresztül:A készségkészleteket teljes mértékben támogatja a OneLake-fájlok indexelője. Ide tartoznak az olyan kulcsfontosságú funkciók, mint az integrált vektorizálás , amely adattömböket és beágyazási lépéseket ad hozzá.
  • Elemzési módok: Az indexelő támogatja a JSON-elemzési módokat , ha JSON-tömböket vagy sorokat szeretne elemezni az egyes keresési dokumentumokban. Támogatja a Markdown-elemzési módot is.
  • Kompatibilitás más funkciókkal: A OneLake indexelő úgy lett kialakítva, hogy zökkenőmentesen működjön más indexelő funkciókkal, például hibakeresési munkamenetekkel, indexelő gyorsítótárral a növekményes bővítéshez és a tudástárhoz.

Támogatott dokumentumformátumok

A OneLake-fájlok indexelője a következő dokumentumformátumokból tud szöveget kinyerni:

  • CSV (lásd : CSV-blobok indexelése)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (lásd : JSON-blobok indexelése)
  • KML (XML földrajzi ábrázolásokhoz)
  • Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
  • Dokumentumformátumok megnyitása: ODT, ODS, ODP
  • PDF
  • Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
  • RTF
  • XML
  • FÜTYÜLÉS

Támogatott billentyűparancsok

A OneLake-fájlok indexelője a következő OneLake-parancsikonokat támogatja:

Az előzetes verzió korlátozásai

  • A parquet -fájltípusok (beleértve a delta parquetet) jelenleg nem támogatottak.

  • Az Amazon S3 és a Google Cloud Storage billentyűparancsai nem támogatják a fájlok törlését.

  • Ez az indexelő nem támogatja a OneLake-munkaterület táblahelyének tartalmát.

  • Ez az indexelő nem támogatja az SQL-lekérdezéseket, de az adatforrás konfigurációjában használt lekérdezés kizárólag a hozzáféréshez szükséges mappát vagy parancsikont adja hozzá.

  • A OneLake-ben nem támogatott fájlok betöltése a Saját munkaterület munkaterületről, mivel ez egy felhasználónkénti személyes adattár.

Adatok előkészítése indexelésre

Mielőtt beállítja az indexelést, tekintse át a forrásadatokat, és állapítsa meg, hogy a módosításokat elöl kell-e elvégezni. Az indexelők egyszerre egyetlen tárolóból is indexelhetik a tartalmat. Alapértelmezés szerint a tárolóban lévő összes fájl feldolgozása történik. A szelektív feldolgozás több lehetőséggel is rendelkezik:

  • Fájlok elhelyezése virtuális mappába. Az indexelő adatforrásdefiníciója tartalmaz egy "lekérdezési" paramétert, amely lehet egy lakehouse almappája vagy parancsikonja. Ha ez az érték meg van adva, a rendszer csak az almappában vagy a lakehouse-ban lévő parancsikonban lévő fájlokat indexeli.

  • Fájlok belefoglalása vagy kizárása fájltípus szerint. A támogatott dokumentumformátumok listája segíthet meghatározni, hogy mely fájlokat zárja ki. Előfordulhat például, hogy ki szeretné zárni azokat a kép- vagy hangfájlokat, amelyek nem nyújtanak kereshető szöveget. Ezt a képességet az indexelő konfigurációs beállításai vezérlik.

  • Tetszőleges fájlok belefoglalása vagy kizárása. Ha valamilyen okból ki szeretne hagyni egy adott fájlt, metaadat-tulajdonságokat és értékeket adhat hozzá a OneLake lakehouse-ban lévő fájlokhoz. Amikor egy indexelő találkozik ezzel a tulajdonságmal, kihagyja a fájlt vagy annak tartalmát az indexelési futtatás során.

A fájlbefoglalást és a kizárást az indexelő konfigurációs lépése ismerteti. Ha nem állít be feltételeket, az indexelő hibaként jelent egy nem jogosult fájlt, és továbblép. Ha elegendő hiba történik, a feldolgozás leállhat. Az indexelő konfigurációs beállításaiban megadhatja a hibatűrést.

Az indexelők általában fájlonként egy keresési dokumentumot hoznak létre, ahol a szöveges tartalom és a metaadatok kereshető mezőkként vannak rögzítve egy indexben. Ha a fájlok teljes fájlok, több keresési dokumentumba is elemezheti őket. Elemezheti például egy CSV-fájl sorait, hogy soronként egy keresési dokumentumot hozzon létre. Ha egyetlen dokumentumot kisebb részekre kell bontania az adatok vektorizálásához, fontolja meg az integrált vektorizáció használatát.

Fájl metaadatainak indexelése

A fájl metaadatai indexelhetők is, és ez akkor hasznos, ha úgy gondolja, hogy a standard vagy egyéni metaadat-tulajdonságok bármelyike hasznos a szűrőkben és a lekérdezésekben.

A rendszer szó szerint kinyeri a felhasználó által megadott metaadat-tulajdonságokat. Az értékek fogadásához meg kell határoznia a típus keresési indexében Edm.Stringlévő mezőt, amelynek neve megegyezik a blob metaadatkulcsával. Ha például egy blob rendelkezik értékekkel rendelkező metaadat-kulccsalPriority, meg kell adnia egy, a keresési indexben elnevezett Priority mezőt, amely az értékkel Highlesz feltöltve.High

A standard fájl metaadat-tulajdonságai az alábbi módon kinyerhetők hasonlóan elnevezett és beírt mezőkbe. A OneLake-fájlok indexelője automatikusan belső mezőleképezéseket hoz létre ezekhez a metaadat-tulajdonságokhoz, és az eredeti kötőjeles nevet ("metadata-storage-name") egy alászúrt egyenértékű névvé ("metadata_storage_name") konvertálja.

Továbbra is hozzá kell adnia az alábecsült mezőket az indexdefinícióhoz, de kihagyhatja az indexelő mezőleképezéseit , mert az indexelő automatikusan társítja a társításokat.

  • metadata_storage_name (Edm.String) – a fájl neve. Ha például van egy fájlja /mydatalake/my-folder/subfolder/resume.pdf, akkor ennek a mezőnek az értéke.resume.pdf

  • metadata_storage_path (Edm.String) - a blob teljes URI-ja, beleértve a tárfiókot is. Például: https://myaccount.blob.core.windows.net/my-container/my-folder/subfolder/resume.pdf

  • metadata_storage_content_type (Edm.String) – a blob feltöltéséhez használt kód által megadott tartalomtípus. Például: application/octet-stream.

  • metadata_storage_last_modified (Edm.DateTimeOffset) – a blob utolsó módosított időbélyege. Az Azure AI Search ezzel az időbélyegzővel azonosítja a módosított blobokat, hogy elkerülje a kezdeti indexelés utáni újraindexelést.

  • metadata_storage_size (Edm.Int64) – a blob mérete bájtban.

  • metadata_storage_content_md5 (Edm.String) – A blobtartalom MD5 kivonata, ha elérhető.

Végül az indexelt fájlok dokumentumformátumára vonatkozó metaadat-tulajdonságok is megjeleníthetők az indexsémában. A tartalomspecifikus metaadatokról további információt a Tartalom metaadatainak tulajdonságai című témakörben talál.

Fontos kiemelni, hogy nem kell mezőket definiálnia a keresési indexben szereplő összes fenti tulajdonsághoz – csak rögzítse az alkalmazáshoz szükséges tulajdonságokat.

Engedélyek megadása

A OneLake indexelő jogkivonat-hitelesítést és szerepköralapú hozzáférést használ a OneLake-hez való kapcsolatokhoz. Az engedélyek a OneLake-ben vannak hozzárendelve. A parancsikonokat biztonsági másolatot készítő fizikai adattárakra nem vonatkoznak engedélykövetelmények. Ha például az AWS-ből indexel, nem kell keresési szolgáltatási engedélyeket adnia az AWS-ben.

A keresési szolgáltatás identitásának minimális szerepkör-hozzárendelése a Közreműködő.

  1. Konfiguráljon egy rendszert vagy felhasználó által felügyelt identitást az AI-Search szolgáltatás.

    Az alábbi képernyőképen egy rendszer által felügyelt identitás látható egy "onelake-demo" nevű keresési szolgáltatáshoz.

    Képernyőkép a keresési szolgáltatás rendszeridentitásának az Azure Portalon való megjelenítéséről.

    Ez a képernyőkép egy felhasználó által felügyelt identitást jelenít meg ugyanahhoz a keresési szolgáltatáshoz.

    Képernyőkép a keresési szolgáltatás felhasználó által hozzárendelt felügyelt identitásról az Azure Portalon.

  2. Adjon engedélyt a keresési szolgáltatásnak a Fabric-munkaterülethez való hozzáféréséhez . A keresési szolgáltatás az indexelő nevében hozza létre a kapcsolatot.

    Ha rendszer által hozzárendelt felügyelt identitást használ, keresse meg az AI-Search szolgáltatás nevét. Felhasználó által hozzárendelt felügyelt identitás esetén keresse meg az identitáserőforrás nevét.

    Az alábbi képernyőképen egy közreműködői szerepkör hozzárendelése látható egy rendszer által felügyelt identitás használatával.

    Képernyőkép egy közreműködői szerepkör-hozzárendelésről egy keresési szolgáltatásrendszer-identitáshoz az Azure Portalon.

    Ez a képernyőkép egy közreműködői szerepkör-hozzárendelést jelenít meg egy felhasználó által hozzárendelt felügyelt identitás használatával:

    Képernyőkép egy közreműködői szerepkör-hozzárendelésről a keresési szolgáltatás felhasználó által hozzárendelt felügyelt identitásához az Azure Portalon.

Az adatforrás meghatározása

Egy adatforrás független erőforrásként van definiálva, így több indexelő is használhatja. Az adatforrás létrehozásához a 2024-05-01-preview REST API-t kell használnia.

  1. A definíció beállításához használja az adatforrás REST API-jának létrehozását vagy frissítését. Ezek a definíció legfontosabb lépései.

  2. Állítsa be a (kötelező) értéket "type""onelake" .

  3. A Microsoft Fabric-munkaterület GUID-azonosítójának és a lakehouse GUID-jának lekérése:

    • Lépjen arra a tóházra, ahol adatokat szeretne importálni az URL-címéről. Ennek a példához hasonlóan kell kinéznie: "https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=power-bi". Másolja ki az adatforrás-definícióban használt alábbi értékeket:

    • Másolja ki a meghívni kívánt {FabricWorkspaceGuid}munkaterület GUID azonosítóját, amely közvetlenül a "csoportok" után jelenik meg az URL-címben. Ebben a példában 000000000-0000-0000-0000-00000000000.

      Képernyőkép a Fabric-munkaterület GUID azonosítójáról az Azure Portalon.

    • Másolja ki a meghívni {lakehouseGuid}kívánt lakehouse GUID-t, amely közvetlenül a "lakehouses" után jelenik meg az URL-címben. Ebben a példában a következő lenne: 111111111-1111-1111-1111-11111111111.

      Képernyőkép a lakehouse GUID-járól az Azure Portalon.

  4. Állítsa be "credentials" a Microsoft Fabric-munkaterület GUID azonosítójának értékét az előző lépésben másolt értékre cserélve {FabricWorkspaceGuid} . Ez a OneLake az útmutató későbbi részében beállított felügyelt identitással való hozzáféréshez.

    "credentials": {  
    "connectionString": "ResourceId={FabricWorkspaceGuid}"  
    }
    
  5. Állítsa be "container.name" a lakehouse GUID értékét az előző lépésben kimásolt értékre cserélve {lakehouseGuid} . Lehetőség "query" van egy tóház almappájának vagy parancsikonjának megadására.

      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      }
    
  6. Állítsa be a hitelesítési módszert a felhasználó által hozzárendelt felügyelt identitással, vagy ugorjon a rendszer által felügyelt identitás következő lépésére.

    {    
      "name": "{dataSourceName}",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId={FabricWorkspaceGuid}"  
      },  
      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      },  
      "identity": {  
        "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity",  
        "userAssignedIdentity": "{userAssignedManagedIdentity}"  
      }  
    }
    

    Az userAssignedIdentity érték az erőforráshoz való hozzáféréssel, a {userAssignedManagedIdentity} Tulajdonságok területen található, és a neve Id.

    Képernyőkép a felhasználó által hozzárendelt identitásazonosító tulajdonságról.

    Példa:

    {    
      "name": "mydatasource",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId=a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1"  
      },  
      "container": {  
        "name": "11111111-1111-1111-1111-111111111111",  
        "query": "folder_name"  
      },  
      "identity": {  
        "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity",  
        "userAssignedIdentity": "/subscriptions/333333-3333-3333-3333-33333333/resourcegroups/myresourcegroup/providers/Microsoft.ManagedIdentity/userAssignedIdentities/demo-mi"  
      }  
    }
    
  7. Ha szeretné, használjon inkább rendszer által hozzárendelt felügyelt identitást. Ha rendszer által hozzárendelt felügyelt identitást használ, az "identitás" el lesz távolítva a definícióból.

    {    
      "name": "{dataSourceName}",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId={FabricWorkspaceGuid}"  
      },  
      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      }  
    }
    

    Példa:

    {    
      "name": "mydatasource",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId=a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1"  
      },  
      "container": {  
        "name": "11111111-1111-1111-1111-111111111111",  
        "query": "folder_name"  
      }
    } 
    

Törlések észlelése egyéni metaadatokkal

A OneLake files indexelő adatforrásdefiníciója helyreállítható törlési szabályzatot is tartalmazhat, ha azt szeretné, hogy az indexelő töröljön egy keresési dokumentumot, amikor a forrásdokumentumot törlésre jelölik meg.

Az automatikus fájltörlés engedélyezéséhez egyéni metaadatokkal jelezze, hogy el kell-e távolítani egy keresési dokumentumot az indexből.

A munkafolyamat három külön műveletet igényel:

  • A fájl "helyreállítható törlése" a OneLake-ben
  • Az indexelő törli a keresési dokumentumot az indexben
  • A fájl "kemény törlése" a OneLake-ben

A "helyreállítható törlés" jelzi az indexelőnek, hogy mit kell tennie (törölje a keresési dokumentumot). Ha először törli a fizikai fájlt a OneLake-ben, az indexelőnek nincs mit olvasnia, és az indexben lévő megfelelő keresési dokumentum árva lesz.

A OneLake-ben és az Azure AI Searchben is vannak követendő lépések, de nincs más funkciófüggőség.

  1. A lakehouse-fájlban adjon hozzá egy egyéni metaadatkulcs-érték párot a fájlhoz, amely jelzi, hogy a fájl törlésre van megjelölve. Elnevezheti például az "IsDeleted" tulajdonságot hamis értékre. Ha törölni szeretné a fájlt, módosítsa igazra.

    Képernyőkép az IsDeleted egyéni metaadatait tartalmazó fájlról.

  2. Az Azure AI Searchben szerkessze az adatforrás definícióját úgy, hogy az tartalmazzon egy "dataDeletionDetectionPolicy" tulajdonságot. Az alábbi szabályzat például úgy véli, hogy egy fájl törölve van, ha az "IsDeleted" metaadat-tulajdonsága igaz:

    PUT https://[service name].search.windows.net/datasources/file-datasource?api-version=2024-05-01-preview
    {
        "name" : "onelake-datasource",
        "type" : "onelake",
         "credentials": {  
            "connectionString": "ResourceId={FabricWorkspaceGuid}"  
        },  
        "container": {  
            "name": "{lakehouseGuid}",  
            "query": "{optionalLakehouseFolderOrShortcut}"  
        },  
        "dataDeletionDetectionPolicy" : {
            "@odata.type" :"#Microsoft.Azure.Search.SoftDeleteColumnDeletionDetectionPolicy",
            "softDeleteColumnName" : "IsDeleted",
            "softDeleteMarkerValue" : "true"
        }
    }
    

Miután az indexelő futtatta és törölte a dokumentumot a keresési indexből, törölheti a fizikai fájlt a data lake-ben.

Néhány fontos pont a következők:

  • Az indexelő futtatásának ütemezése segít automatizálni ezt a folyamatot. Az összes növekményes indexelési forgatókönyv ütemezését javasoljuk.

  • Ha a törlésészlelési szabályzat nem lett beállítva az első indexelő futtatásakor, alaphelyzetbe kell állítania az indexelőt , hogy beolvassa a frissített konfigurációt.

  • Ne feledje, hogy a törlésészlelés nem támogatott az Amazon S3 és a Google Cloud Storage billentyűparancsai esetében az egyéni metaadatoktól való függőség miatt.

Keresési mezők hozzáadása indexhez

Egy keresési indexben adjon hozzá mezőket a OneLake data lake-fájlok tartalmának és metaadatainak elfogadásához.

  1. Hozzon létre vagy frissítsen egy indexet a fájltartalmakat és metaadatokat tároló keresési mezők definiálásához:

    {
        "name" : "my-search-index",
        "fields": [
            { "name": "ID", "type": "Edm.String", "key": true, "searchable": false },
            { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false },
            { "name": "metadata_storage_name", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_size", "type": "Edm.Int64", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_content_type", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true }     
        ]
    }
    
  2. Hozzon létre egy dokumentumkulcsmezőt ("key": true). A fájltartalmak esetében a legjobb jelöltek a metaadat-tulajdonságok.

    • metadata_storage_path (alapértelmezett) az objektum vagy fájl teljes elérési útja. A kulcsmező ("Azonosító" ebben a példában) metadata_storage_path értékeivel van feltöltve, mert ez az alapértelmezett érték.

    • metadata_storage_name, csak akkor használható, ha a nevek egyediek. Ha ezt a mezőt szeretné kulcsként használni, lépjen "key": true erre a meződefinícióra.

    • A fájlokhoz hozzáadott egyéni metaadat-tulajdonság. Ehhez a beállításhoz a fájlfeltöltési folyamatnak hozzá kell adnia ezt a metaadat-tulajdonságot az összes blobhoz. Mivel a kulcs egy kötelező tulajdonság, az érték nélküli fájlok indexelése sikertelen. Ha egyéni metaadat-tulajdonságot használ kulcsként, ne módosítsa a tulajdonságot. Az indexelők duplikált dokumentumokat adnak hozzá ugyanahhoz a fájlhoz, ha a kulcstulajdonság megváltozik.

    A metaadat-tulajdonságok gyakran tartalmaznak olyan karaktereket, például / és -, amelyek érvénytelenek a dokumentumkulcsokhoz. Mivel az indexelő rendelkezik egy "base64EncodeKeys" tulajdonsággal (alapértelmezés szerint igaz), automatikusan kódolja a metaadat-tulajdonságot, konfiguráció vagy mezőleképezés nélkül.

  3. Adjon hozzá egy "content" mezőt az egyes fájlokból kinyert szöveg tárolásához a fájl "content" tulajdonságán keresztül. Ezt a nevet nem kell használnia, de így kihasználhatja az implicit mezőleképezések előnyeit.

  4. Adjon hozzá mezőket a szabványos metaadat-tulajdonságokhoz. Az indexelő elolvashatja az egyéni metaadat-tulajdonságokat, a szabványos metaadat-tulajdonságokat és a tartalomspecifikus metaadat-tulajdonságokat .

A OneLake-fájlok indexelőjének konfigurálása és futtatása

Az index és az adatforrás létrehozása után készen áll az indexelő létrehozására. Az indexelő konfigurációja meghatározza a futási idő viselkedését vezérlő bemeneteket, paramétereket és tulajdonságokat. Megadhatja azt is, hogy a blob mely részeit indexelje.

  1. Hozzon létre vagy frissítsen egy indexelőt úgy, hogy megad neki egy nevet, és hivatkozik az adatforrásra és a célindexre:

    {
      "name" : "my-onelake-indexer",
      "dataSourceName" : "my-onelake-datasource",
      "targetIndexName" : "my-search-index",
      "parameters": {
          "batchSize": null,
          "maxFailedItems": null,
          "maxFailedItemsPerBatch": null,
          "base64EncodeKeys": null,
          "configuration": {
              "indexedFileNameExtensions" : ".pdf,.docx",
              "excludedFileNameExtensions" : ".png,.jpeg",
              "dataToExtract": "contentAndMetadata",
              "parsingMode": "default"
          }
      },
      "schedule" : { },
      "fieldMappings" : [ ]
    }
    
  2. Állítsa be a "batchSize" értéket, ha az alapértelmezett (10 dokumentum) a rendelkezésre álló erőforrások kihasználása vagy túlterhelése alatt áll. Az alapértelmezett kötegméretek adatforrás-specifikusak. A fájlindexelés a kötegméretet 10 dokumentumra állítja a nagyobb átlagos dokumentumméret elismeréseként.

  3. A "konfiguráció" alatt szabályozhatja, hogy mely fájlok legyenek indexelve a fájltípus alapján, vagy hagyja meg nem határozottul az összes fájl lekéréséhez.

    Ehhez "indexedFileNameExtensions"adja meg a fájlkiterjesztések vesszővel tagolt listáját (vezető ponttal). Ugyanezzel "excludedFileNameExtensions" a módszerrel jelezheti, hogy mely bővítményeket kell kihagyni. Ha ugyanaz a bővítmény mindkét listában szerepel, akkor az indexelésből ki lesz zárva.

  4. A "konfiguráció" területen állítsa be a "dataToExtract" értéket a fájlok indexelt részeinek szabályozásához:

    • A "contentAndMetadata" az alapértelmezett érték. Megadja, hogy a fájlból kinyert összes metaadat és szöveges tartalom indexelve legyen.

    • A "storageMetadata" azt határozza meg, hogy csak a szabványos fájltulajdonságok és a felhasználó által megadott metaadatok legyenek indexelve. Bár a tulajdonságok dokumentálva vannak az Azure-blobok esetében, a fájltulajdonságok megegyeznek a OneLkae esetében, kivéve az SAS-hez kapcsolódó metaadatokat.

    • Az "allMetadata" azt határozza meg, hogy a rendszer kinyeri és indexeli a szabványos fájltulajdonságokat és a talált tartalomtípusok metaadatait.

  5. A "konfiguráció" területen állítsa be a "parsingMode" értéket, ha a fájlokat több keresési dokumentumra kell leképezni, vagy ha egyszerű szövegből, JSON-dokumentumokból vagy CSV-fájlokból állnak.

  6. Mezőleképezéseket adhat meg, ha a mezőnév vagy a típus eltérést mutat, vagy ha egy forrásmező több verziójára van szüksége a keresési indexben.

    A fájlindexelés során gyakran kihagyhatja a mezőleképezéseket, mert az indexelő beépített támogatással rendelkezik a "tartalom" és a metaadat tulajdonságainak az index hasonló nevű és begépelt mezőihez való leképezéséhez. Metaadat-tulajdonságok esetén az indexelő automatikusan lecseréli a kötőjeleket - aláhúzásjelekre a keresési indexben.

További információ az egyéb tulajdonságokról: Indexelő létrehozása. A paraméterleírások teljes listáját lásd : Indexelő létrehozása (REST) a REST API-ban. A paraméterek megegyeznek a OneLake-hez.

Alapértelmezés szerint az indexelő automatikusan fut a létrehozásakor. Ezt a viselkedést úgy módosíthatja, hogy a "letiltva" értéket igazra állítja. Az indexelő végrehajtásának szabályozásához futtasson egy indexelőt igény szerint , vagy ütemezze.

Az indexelő állapotának ellenőrzése

Itt több módszert is megismerhet az indexelőzmények állapotának és végrehajtási előzményeinek monitorozásához.

Hibakezelés

Az indexelés során gyakran előforduló hibák közé tartoznak a nem támogatott tartalomtípusok, hiányzó tartalmak vagy túlméretezett fájlok. Alapértelmezés szerint a OneLake-fájlok indexelője leáll, amint nem támogatott tartalomtípusú fájlba ütközik. Előfordulhat azonban, hogy azt szeretné, hogy az indexelés akkor is folytatódjon, ha hibák történnek, majd később hibakeresést végezzen az egyes dokumentumokban.

A több platformot és terméket érintő megoldások esetében gyakoriak az átmeneti hibák. Ha azonban ütemezve tartja az indexelőt (például 5 percenként), az indexelőnek képesnek kell lennie a hibák helyreállítására a következő futtatás során.

Öt indexelőtulajdonság vezérli az indexelő válaszát hibák esetén.

{
  "parameters" : { 
    "maxFailedItems" : 10, 
    "maxFailedItemsPerBatch" : 10,
    "configuration" : { 
        "failOnUnsupportedContentType" : false, 
        "failOnUnprocessableDocument" : false,
        "indexStorageMetadataOnlyForOversizedDocuments": false
    }
  }
}
Paraméter Érvényes értékek Leírás
"maxFailedItems" -1, null vagy 0, pozitív egész szám Folytassa az indexelést, ha hibák történnek a feldolgozás bármely pontján, akár blobok elemzésekor, akár dokumentumok indexhez való hozzáadásakor. Állítsa be ezeket a tulajdonságokat az elfogadható hibák számára. A feldolgozás a hibák számától -1 függetlenül lehetővé teszi a feldolgozást. Ellenkező esetben az érték pozitív egész szám.
"maxFailedItemsPerBatch" -1, null vagy 0, pozitív egész szám Ugyanaz, mint a fenti, de kötegelt indexeléshez használatos.
"failOnUnsupportedContentType" igaz vagy hamis Ha az indexelő nem tudja meghatározni a tartalomtípust, adja meg, hogy folytatja-e a feladatot, vagy nem.
"failOnUnprocessableDocument" igaz vagy hamis Ha az indexelő nem tud feldolgozni egy egyébként támogatott tartalomtípusú dokumentumot, adja meg, hogy folytatja-e a feladatot, vagy nem.
"indexStorageMetadataOnlyForOversizedDocuments" igaz vagy hamis A túlméretezett blobokat alapértelmezés szerint hibaként kezeli a rendszer. Ha igaz értékre állítja ezt a paramétert, az indexelő akkor is megpróbálja indexelni a metaadatait, ha a tartalom nem indexelhető. A blob méretére vonatkozó korlátozásokért tekintse meg a szolgáltatás korlátait.

Következő lépések

Tekintse át az Adatok importálása és vektorizálása varázsló működését, és próbálja ki az indexelőhöz. Az integrált vektorizálással beágyazásokat hozhat létre vektoros vagy hibrid kereséshez egy alapértelmezett sémával.