Megosztás a következőn keresztül:


Adatimportálási varázslók az Azure Portalon

Az Azure AI Search két importálási varázslóval rendelkezik, amelyek automatizálják az indexelést és az objektumok létrehozását, hogy azonnal megkezdhesse a lekérdezést. Ha még csak most ismerkedik az Azure AI Search szolgáltatással, ezek a varázslók a rendelkezésére álló leghatékonyabb funkciók egyike. Minimális erőfeszítéssel létrehozhat egy indexelési vagy bővítési folyamatot, amely az Azure AI Search legtöbb funkcióját gyakorolja.

  • Az Adatimportálás varázsló támogatja a nem közreműködő munkafolyamatokat. A nyers dokumentumokból szöveget és számokat nyerhet ki. Az alkalmazott AI-t és beépített képességeket is konfigurálhatja, amelyek strukturált és kereshető tartalmat hoznak létre képfájlokból és strukturálatlan adatokból.

  • Az Adatok importálása és vektorizálása varázsló adattömböket és vektorizálást ad hozzá. Meg kell adnia egy beágyazási modell meglévő üzembe helyezését, de a varázsló elvégzi a kapcsolatot, összeállítja a kérést, és kezeli a választ. Vektortartalmat hoz létre szöveg- vagy képtartalmakból.

Ha a varázslót használja a megvalósíthatósági vizsgálathoz, ez a cikk ismerteti a varázslók belső működését, hogy hatékonyabban tudja használni őket.

Ez a cikk nem lépésről lépésre. A varázsló mintaadatokkal való használatával kapcsolatos segítségért lásd:

Támogatott adatforrások és forgatókönyvek

A varázslók támogatják az indexelők által támogatott adatforrások többségét.

Adatok Adatok importálása varázsló Adatok importálása és vektorizálása varázsló
ADLS Gen2
Azure Blob Storage
Azure File Storage
Azure Table Storage
Azure SQL Database és felügyelt példány
Cosmos DB for NoSQL
Cosmos DB a MongoDB-hez
Cosmos DB az Apache Gremlinhez
MySQL
OneLake
SharePoint Online
SQL Server on Virtual Machines

Mintaadatok

A Microsoft mintaadatokat tárol, így kihagyhat egy adatforráskonfigurációs lépést egy varázsló munkafolyamatában.

Mintaadatok Adatok importálása varázsló Adatok importálása és vektorizálása varázsló
szállodák
ingatlan

Szakértelem

Ez a szakasz azokat a készségeket sorolja fel, amelyek egy varázsló által létrehozott képességkészletben jelenhetnek meg. A varázslók a kiválasztott beállítások alapján létrehoznak egy készségkészletet és egy kimeneti mezőleképezést. A képességkészlet létrehozása után módosíthatja annak JSON-definícióját, hogy további készségeket adjon hozzá.

Íme néhány szempont, amit szem előtt kell tartani az alábbi listában szereplő készségekkel kapcsolatban:

  • Az OCR és a képelemzési lehetőségek az Azure Storage-ban lévő blobokhoz és a OneLake-fájlokhoz érhetők el, feltételezve az alapértelmezett elemzési módot. A képek képtartalom-típusok (például PNG vagy JPG) vagy beágyazott kép egy alkalmazásfájlban (például PDF).
  • A rendszer hozzáadja a Shapert, ha egy tudástárat konfigurál.
  • Ha beágyazási modellt választ, a szöveg felosztása és a szövegegyesítés az adattömbhöz lesz hozzáadva. Ha a forrásmező részletessége oldalakra vagy mondatokra van állítva, más nem beágyazási képességekhez lesznek hozzáadva.
Szakértelem Adatok importálása varázsló Adatok importálása és vektorizálása varázsló
AI Vision multimodális
Azure OpenAI-beágyazás
Azure Machine Learning (Azure AI Foundry-modellkatalógus)
Dokumentumelrendezés
Entitásfelismerés
Képelemzés (blobokra, alapértelmezett elemzésre, teljes fájlindexelésre vonatkozik)
Kulcsszó kinyerése
Nyelvfelismerés
Szövegfordítás
OCR (blobokra vonatkozik, alapértelmezett elemzésre, teljes fájlindexelésre)
PII-észlelés
Hangulatelemzés
Shaper (a tudástárra vonatkozik)
Szöveg felosztása
Szövegegyesítés

Tudástár

Létrehozhat egy tudástárat a bővített (készségek által létrehozott) tartalmak másodlagos tárolásához. Előfordulhat, hogy olyan információlekérési munkafolyamatok tudásbázisát szeretné használni, amelyekhez nincs szükség keresőmotorra.

Tudástár Adatok importálása varázsló Adatok importálása és vektorizálása varázsló
tárterület

A varázslók létrehozása

Az importálási varázslók az alábbi táblázatban leírt objektumokat hozzák létre. Az objektumok létrehozása után áttekintheti a JSON-definíciókat az Azure Portalon, vagy meghívhatja őket kódból.

Az objektumok megtekintése a varázsló futtatása után:

  1. Jelentkezzen be az Azure Portalra , és keresse meg a keresési szolgáltatást.

  2. A menüBen válassza a Kereséskezelés lehetőséget az indexek, indexelők, adatforrások és képességkészletek lapjainak megkereséséhez.

Objektum Leírás
Indexelő Egy konfigurációs objektum, amely megadja az adatforrást, a célindexet, az opcionális képességkészletet, az opcionális ütemezést, valamint a hibaátadáshoz és a base-64 kódoláshoz szükséges opcionális konfigurációs beállításokat.
Adatforrás Megőrzi a kapcsolati adatokat egy támogatott adatforráshoz az Azure-ban. Az adatforrás-objektumokat kizárólag indexelők használják.
Index A teljes szöveges kereséshez és más lekérdezésekhez használt fizikai adatstruktúra.
Készségkészlet Opcionális. A tartalom manipulálására, átalakítására és alakítására vonatkozó utasítások teljes készlete, beleértve a képfájlokból származó információk elemzését és kinyerését. Az integrált vektorizáláshoz készségkészleteket is használnak. Hacsak a munka mennyisége nem esik az indexelőnkénti napi 20 tranzakciós korlát alá, a képességkészletnek tartalmaznia kell egy, a bővítést biztosító Többszolgáltatásos Azure AI-erőforrásra mutató hivatkozást. Az integrált vektorizáláshoz használhatja az Azure AI Visiont vagy egy beágyazási modellt az Azure AI Foundry modellkatalógusában.
Tudástár Opcionális. Csak az Adatok importálása varázslóban érhető el. Az Azure Storage-ban lévő táblákból és blobokból származó bővített képességkészlet-kimeneteket tárolja független elemzéshez vagy alsóbb rétegbeli feldolgozáshoz nemarchitektív forgatókönyvekben.

Juttatások

A kód írása előtt használhatja a varázslókat a prototípus- és a megvalósíthatósági vizsgálathoz. A varázslók külső adatforrásokhoz csatlakoznak, mintát vesz az adatokból egy kezdeti index létrehozásához, majd JSON-dokumentumként importálják és igény szerint vektorizálják az adatokat egy Indexbe az Azure AI Searchben.

A képességkészletek kiértékelése esetén a varázsló kezeli a kimeneti mezők leképezését, és segédfüggvényeket ad hozzá használható objektumok létrehozásához. Ha elemzési módot ad meg, szövegfelosztás lesz hozzáadva. A szövegegyesítés akkor lesz hozzáadva, ha képelemzést választott, hogy a varázsló újra egyesítse a szövegleírásokat képtartalommal. Ha a tudástár lehetőséget választja, az alakzatkezelő készségek hozzá lesznek adva az érvényes előrejelzések támogatásához. A fenti feladatok mindegyike tanulási görbével rendelkezik. Ha még csak most ismerkedik a bővítéssel, a lépések végrehajtásának lehetősége lehetővé teszi a képesség értékének mérését anélkül, hogy sok időt és energiát kellene fektetnie.

A mintavételezés az a folyamat, amellyel az indexséma kikövetkeztetett, és bizonyos korlátozásokkal rendelkezik. Az adatforrás létrehozásakor a varázsló kiválaszt egy véletlenszerű dokumentummintát, hogy eldöntse, mely oszlopok tartoznak az adatforráshoz. Nem minden fájl van beolvasva, mivel ez akár órákat is igénybe vehet a nagyon nagy méretű adatforrások esetében. A dokumentumok kiválasztásával a forrás metaadatai, például a mezőnév vagy a típus mezőgyűjtemények létrehozására szolgálnak egy indexsémában. A forrásadatok összetettségétől függően előfordulhat, hogy módosítania kell a kezdeti sémát a pontosság érdekében, vagy ki kell terjesztenie a teljesség érdekében. A módosításokat beágyazottan is elvégezheti az indexdefiníció oldalán.

Összességében a varázsló használatának előnyei egyértelműek: amíg a követelmények teljesülnek, percek alatt létrehozhat egy lekérdezhető indexet. Az indexelés néhány összetettségét, például az adatok JSON-dokumentumokként való szerializálását a varázslók kezelik.

Korlátozások

Az importálási varázslók nem korlátozások nélküliek. A korlátozások a következőképpen vannak összegezve:

  • A varázslók nem támogatják az iterációt vagy az újbóli használatot. A varázsló minden áthaladása új index-, képességkészlet- és indexelőkonfigurációt hoz létre. A varázslóban csak adatforrások tárolhatók és használhatók fel újra. Más objektumok szerkesztéséhez vagy finomításához törölje az objektumokat, és kezdje újra, vagy használja a REST API-kat vagy a .NET SDK-t a struktúrák módosításához.

  • A forrástartalomnak támogatott adatforrásban kell lennie.

  • A mintavételezés a forrásadatok egy részhalmazán keresztül történik. Nagy adatforrások esetén előfordulhat, hogy a varázsló kihagyja a mezőket. Előfordulhat, hogy ki kell terjesztenie a sémát, vagy ki kell javítania a kikövetkeztetett adattípusokat, ha a mintavételezés nem elegendő.

  • Az Azure Portalon közzétett AI-bővítés a beépített képességek egy részhalmazára korlátozódik.

  • Az Adatok importálása varázsló által létrehozható tudástár néhány alapértelmezett előrejelzésre korlátozódik, és egy alapértelmezett elnevezési konvencióval rendelkezik. Ha testre szeretné szabni a neveket vagy az előrejelzéseket, létre kell hoznia a tudástárat a REST API-val vagy az SDK-kkal.

Biztonságos kapcsolatok

Az importálási varázslók kimenő kapcsolatokat hoznak létre az Azure Portal-vezérlő és a nyilvános végpontok használatával. Nem használhatja a varázslókat, ha az Azure-erőforrások privát kapcsolaton vagy megosztott privát kapcsolaton keresztül érhetők el.

A varázslók korlátozott nyilvános kapcsolatokon keresztül is használhatók, de nem minden funkció érhető el.

  • A keresési szolgáltatásban a beépített mintaadatok importálásához nyilvános végpontra és tűzfalszabályokra van szükség.

    A mintaadatokat a Microsoft üzemelteti adott Azure-erőforrásokon. Az Azure Portal-vezérlő nyilvános végponton keresztül csatlakozik ezekhez az erőforrásokhoz. Ha tűzfal mögé helyezi a keresési szolgáltatást, a következő hibaüzenet jelenik meg a beépített mintaadatok lekérésekor: Import configuration failed, error creating Data Sourcemajd a "An error has occured."következő.

  • A tűzfalak által védett támogatott Azure-adatforrások esetében lekérheti az adatokat, ha a megfelelő tűzfalszabályok vannak érvényben.

    Az Azure-erőforrásnak el kell fogadnia a kapcsolaton használt eszköz IP-címéről érkező hálózati kéréseket. Az Azure AI Searcht megbízható szolgáltatásként is fel kell sorolnia az erőforrás hálózati konfigurációjában. Az Azure Storage-ban például megbízható szolgáltatásként listázhatja Microsoft.Search/searchServices .

  • Az Ön által megadott Többszolgáltatásos Azure AI-fiókkal létesített kapcsolatokon vagy az Azure AI Foundry portálon vagy az Azure OpenAI-ban üzembe helyezett beágyazási modellekhez kapcsolódó kapcsolatokon a nyilvános internetkapcsolatot engedélyezni kell, kivéve, ha a keresési szolgáltatás megfelel a privát kapcsolatok létrehozási dátumára, rétegére és régiójára vonatkozó követelményeknek. További információ ezekről a követelményekről: Kimenő kapcsolatok létrehozása megosztott privát kapcsolaton keresztül.

    Az Azure AI többszolgáltatásos kapcsolatai számlázási célokra szolgálnak. Számlázás akkor történik, ha az API-hívások túllépik az ingyenes tranzakciószámot (indexelőnkénti futtatásonként 20) az Adatok importálása varázsló vagy az Adatok importálása és vektorizálása varázsló integrált vektorizálása által meghívott beépített képességekhez.

    Ha az Azure AI Search nem tud csatlakozni:

    • Az Adatok importálása és vektorizálása varázslóban a hiba a következő:"Access denied due to Virtual Network/Firewall rules."

    • Az Adatok importálása varázslóban nincs hiba, de a készségkészlet nem jön létre.

Ha a tűzfalbeállítások megakadályozzák a varázsló munkafolyamatainak sikerességét, fontolja meg inkább a szkriptes vagy programozott megközelítéseket.

Munkafolyamat

A varázsló négy fő lépésből áll:

  1. Csatlakozzon egy támogatott Azure-adatforráshoz.

  2. Hozzon létre egy indexsémát a forrásadatok mintavételezésével.

  3. Igény szerint bővíti a tartalom és a struktúra kinyeréséhez vagy létrehozásához szükséges készségeket. Ebben a lépésben gyűjtjük össze a tudástár létrehozásához szükséges bemeneteket.

  4. Futtassa a varázslót objektumok létrehozásához, opcionálisan adatok vektorizálásához, adatok indexbe való betöltéséhez, ütemezés és egyéb konfigurációs beállítások beállításához.

A munkafolyamat egy folyamat, így ez az egyik módja. A varázslóval nem szerkesztheti a létrehozott objektumokat, de más portáleszközöket, például az indexelőt vagy az indexelő tervezőt vagy a JSON-szerkesztőket is használhatja az engedélyezett frissítésekhez.

A varázslók indítása

Így indíthatja el a varázslókat.

  1. Az Azure Portalon nyissa meg a keresési szolgáltatás lapját az irányítópulton, vagy keresse meg a szolgáltatást a szolgáltatáslistában.

  2. A felül található Szolgáltatás áttekintése lapon válassza az Adatok importálása vagy Az adatok importálása és vektorizálása lehetőséget.

    Képernyőkép az importálási varázsló beállításairól.

    A varázslók teljesen ki vannak bontva a böngészőablakban, hogy több hely legyen a munkához.

  3. Ha az Adatok importálása lehetőséget választotta, a Minták lehetőséget választva indexelheti a Microsoft által üzemeltetett adathalmazokat egy támogatott adatforrásból.

    Képernyőkép az adatimportálási oldalról a kiválasztott mintabeállítással.

  4. Az index és az indexelő létrehozásához kövesse a varázsló további lépéseit.

Az Importálási adatokat más Azure-szolgáltatásokból is elindíthatja, például az Azure Cosmos DB-ből, az Azure SQL Database-ből, a felügyelt SQL-példányból és az Azure Blob Storage-ból. Keresse meg az Azure AI Search hozzáadása lehetőséget a szolgáltatás áttekintési oldalán, a bal oldali navigációs panelen.

Adatforrás-konfiguráció a varázslóban

A varázslók egy külső támogatott adatforráshoz csatlakoznak az Azure AI Search indexelői által biztosított belső logikával, amely alkalmas a forrás mintájára, metaadatok olvasására, dokumentumok feltörésére a tartalom és a struktúra olvasásához, valamint a tartalom JSON-ként való szerializálására az Azure AI Searchbe való későbbi importáláshoz.

Beilleszthet egy kapcsolatot egy másik előfizetésben vagy régióban lévő támogatott adatforráshoz, de a Meglévő kapcsolatválasztó kiválasztása lehetőség az aktív előfizetésre van korlátozva.

Képernyőkép a Csatlakozás az adatokhoz lapról.

Nem minden előzetes verziójú adatforrás érhető el a varázslóban. Mivel az egyes adatforrások más módosításokat is bevezethetnek az alsóbb rétegben, az előzetes verziójú adatforrás csak akkor lesz hozzáadva az adatforrások listájához, ha teljes mértékben támogatja a varázsló összes funkcióját, például a képességkészlet definícióját és az indexséma következtetését.

Csak egyetlen táblából, adatbázisnézetből vagy azzal egyenértékű adatstruktúrából importálhat, de a struktúra hierarchikus vagy beágyazott alstruktúrákat is tartalmazhat. További információ: Összetett típusok modellezése.

Képességkészlet konfigurálása a varázslóban

A képességkészlet konfigurálása az adatforrás definíciója után történik, mivel az adatforrás típusa bizonyos beépített képességek rendelkezésre állását jelzi. Különösen, ha blobtárolóból indexel fájlokat, a fájlok elemzési módjának kiválasztása határozza meg, hogy elérhető-e a hangulatelemzés.

A varázsló hozzáadja a választott készségeket. Emellett további készségeket is hozzáad, amelyek szükségesek a sikeres eredmény eléréséhez. Ha például egy tudástárat ad meg, a varázsló hozzáad egy Shaper-képességet a kivetítések (vagy fizikai adatstruktúrák) támogatásához.

A készségkészletek nem kötelezőek, és az oldal alján található gomb segítségével továbbléphet, ha nem szeretné az AI-bővítést.

Indexséma konfigurálása a varázslóban

A varázslók mintát adnak az adatforrásból a mezők és a mezőtípus észleléséhez. Az adatforrástól függően a metaadatok indexelését szolgáló mezőket is kínálhat.

Mivel a mintavételezés pontatlan gyakorlat, tekintse át az indexet az alábbi szempontok alapján:

  1. Pontos a mezőlista? Ha az adatforrás olyan mezőket tartalmaz, amelyeket nem vett fel a mintavételezés során, manuálisan hozzáadhat minden olyan új mezőt, amelyet a mintavételezés kihagyott, és eltávolíthat minden olyan mezőt, amely nem ad értéket a keresési élményhez, vagy amelyeket nem használ a szűrőkifejezésekben vagy a pontozási profilban.

  2. Megfelelő az adattípus a bejövő adatokhoz? Az Azure AI Search támogatja az entitás adatmodell (EDM) adattípusokat. Az Azure SQL-adatok esetében van egy leképezési diagram , amely egyenértékű értékeket határoz meg. További háttér : Mezőleképezések és -átalakítások.

  3. Van egy mezője, amely kulcsként szolgálhat? Ennek a mezőnek Edm.sztringnek kell lennie, és egyedileg kell azonosítania egy dokumentumot. A relációs adatok esetében előfordulhat, hogy az elsődleges kulcsra van leképezve. Blobok esetén ez lehet a metadata-storage-path. Ha a mezőértékek szóközöket vagy szaggatott kötőjeleket tartalmaznak, az Indexelő létrehozása lépésben a Base-64 Kódolási kulcs beállítást be kell állítania a Speciális beállítások területen, hogy ne lehessen ellenőrizni ezeket a karaktereket.

  4. Attribútumok beállítása annak meghatározásához, hogy a mező hogyan legyen használva egy indexben.

    Szánjon időt erre a lépésre, mert az attribútumok határozzák meg az index mezőinek fizikai kifejezését. Ha később, akár programozott módon is módosítani szeretné az attribútumokat, szinte mindig le kell dobnia és újra kell építenie az indexet. Az olyan alapvető attribútumok, mint a Kereshető és a Lekérdezhető , elhanyagolható hatással vannak a tárolásra. A szűrők engedélyezése és a javaslattevők használata növeli a tárolási követelményeket.

    • A kereshető funkció lehetővé teszi a teljes szöveges keresést. Minden szabad formátumú lekérdezésben vagy lekérdezési kifejezésben használt mezőnek rendelkeznie kell ezzel az attribútummal. A program invertált indexeket hoz létre minden olyan mezőhöz, amelyet kereshetőként jelöl meg.

    • A beolvasható a keresési eredményekben szereplő mezőt adja vissza. Minden olyan mezőnek, amely tartalmat biztosít a keresési eredményekhez, rendelkeznie kell ezzel az attribútummal. A mező beállítása nem befolyásolja jelentősen az index méretét.

    • A szűrhető lehetővé teszi a mező szűrési kifejezésekben való hivatkozását. A $filter kifejezésben használt összes mezőnek rendelkeznie kell ezzel az attribútummal. A szűrőkifejezések pontos egyezéseket jelentenek. Mivel a szöveges sztringek érintetlenek maradnak, több tárhelyre van szükség a szó szerinti tartalom tárolásához.

    • A facetable lehetővé teszi a mezőt a faceted navigációhoz. Csak a szűrhetőként megjelölt mezők jelölhetők facetableként.

    • A rendezhető mező lehetővé teszi a mező rendezését. Az $Orderby kifejezésben használt összes mezőnek rendelkeznie kell ezzel az attribútummal.

  5. Szüksége van lexikális elemzésre? A kereshető Edm.string mezők esetében beállíthatja az elemzőt, ha nyelvvel bővített indexelést és lekérdezést szeretne.

    Az alapértelmezett a Standard Lucene , de választhatja a Microsoft Angol nyelvet , ha a Microsoft elemzőjét szeretné használni a speciális lexikális feldolgozáshoz, például a szabálytalan főnév és az igealakok feloldásához. Az Azure Portalon csak nyelvelemzők adhatók meg. Ha egyéni elemzőt vagy nem nyelvi elemzőt használ, például kulcsszót, mintát stb., akkor azt programozott módon kell létrehoznia. Az elemzőkről további információt a Nyelvelemzők hozzáadása című témakörben talál.

  6. Szükség van a typeahead funkcióra automatikus kiegészítés vagy javasolt eredmények formájában? Jelölje be a Javaslattevő jelölőnégyzetet a típusfejléces lekérdezési javaslatok engedélyezéséhez és a kijelölt mezők automatikus kiegészítéséhez . A javaslattevők hozzáadják az indexben lévő tokenizált kifejezések számát, és így több tárhelyet használnak fel.

Indexelő konfigurálása a varázslóban

A varázsló utolsó oldala összegyűjti az indexelő konfigurációjának felhasználói bemeneteit. Megadhat ütemezést, és egyéb beállításokat is megadhat, amelyek az adatforrás típusától függően változnak.

A varázsló belsőleg a következő definíciókat is beállítja, amelyek csak a létrehozás után láthatók az indexelőben:

A varázslók kipróbálása

A varázsló előnyeinek és korlátainak megértéséhez a legjobb módszer, ha végiglépked rajta. Íme néhány rövid útmutató, amelyek a varázslón alapulnak.