Megosztás a következőn keresztül:


Kiszolgált modellek monitorozása AI Gateway-kompatibilis következtetési táblák használatával

Fontos

Ez a funkció a nyilvános előzetes verzióban van.

Fontos

Ez a cikk olyan témaköröket ismertet, amelyek külső modellek, kiosztott átviteli sebesség számítási feladatok vagy ügynökmodellek következtetési tábláira vonatkoznak. Az egyéni modellekesetében lásd a következtetési táblázatokat a modellekfigyelésére és hibakeresésére.

Ez a cikk az AI Gateway által engedélyezett következtetési táblákat ismerteti a kiszolgált modellek monitorozásához. A következtetési tábla automatikusan rögzíti a végpont bejövő kéréseit és kimenő válaszait, és Unity Catalog Delta-táblaként naplózza őket. A táblázat adataival monitorozhat, értékelhet, összehasonlíthat és finomhangolhat gépi tanulási modelleket.

Mik azok az AI Gateway-kompatibilis következtetési táblák?

Az AI Gateway-kompatibilis következtetési táblák leegyszerűsítik a modellek monitorozását és diagnosztikáját azáltal, hogy folyamatosan naplóznak kérésbemeneteket és válaszokat (előrejelzéseket) a Mozaik AI-modell végpontjaiból, és menti őket egy Delta-táblába a Unity Catalogban. Ezután a Databricks platform összes funkcióját használhatja, például a Databricks SQL-lekérdezéseit és jegyzetfüzeteit a modellek monitorozásához, hibakereséséhez és optimalizálásához.

Engedélyezheti a következtetési táblákat a végpontot kiszolgáló meglévő vagy újonnan létrehozott modellen, és a rendszer automatikusan naplózza az adott végpontra irányuló kérelmeket a Unity Catalog egyik táblájában.

A következtetési táblák néhány gyakori alkalmazása a következő:

  • Hozzon létre egy betanítási korpuszt. A következtetési táblák alapigazság-címkékkel való összekapcsolásával létrehozhat egy betanítási korpuszt, amellyel újrataníthatja vagy finomhangolhatja és továbbfejlesztheti a modellt. A Databricks Jobs használatával folyamatos visszajelzési ciklust állíthat be, és automatizálhatja az újratanítást.
  • Az adatok és a modell minőségének monitorozása. A Lakehouse Monitor használatával folyamatosan monitorozhatja a modell teljesítményét és az adatok sodródását. A Lakehouse Monitor automatikusan létrehoz adatokat és modellminőségi irányítópultokat, amelyeket megoszthat az érdekelt felekkel. Emellett engedélyezheti a riasztások használatát, hogy megtudja, mikor kell újra tanítania a modellt a bejövő adatok eltolódása vagy a modell teljesítményének csökkenése esetén.
  • Üzemeltetési problémák elhárítása. A következtetési táblák naplóadatai, például HTTP-állapotkódok, kérelem- és válasz JSON-kód, modellfuttatási idők és nyomon követik a modell futási ideje alatt kimenetet. Ezeket a teljesítményadatokat hibakeresési célokra használhatja. Az előzményadatok következtetési tábláinak használatával összehasonlíthatja a modell teljesítményét az előzménykérelmek esetében.

követelmények

Figyelmeztetés

A következtetési tábla leállíthatja a naplózási adatokat, vagy megsérülhet, ha az alábbiak valamelyikét teszi:

  • Módosítsa a táblázatsémát.
  • Módosítsa a tábla nevét.
  • Törölje a táblát.
  • Elveszítheti a Unity Catalog katalógushoz vagy sémához való hozzáférést.

Következtetési táblák engedélyezése és letiltása

Ez a szakasz bemutatja, hogyan engedélyezheti vagy tilthatja le a következtetési táblákat a kiszolgáló felhasználói felületén. A következtetési táblák tulajdonosa a végpontot létrehozó felhasználó. A táblázatban szereplő összes hozzáférés-vezérlési lista (ACL) a unitykatalógus szabványos engedélyeit követi, és a tábla tulajdonosa módosíthatja.

Ha következtetési táblákat szeretne engedélyezni a végpont létrehozása során, kövesse az alábbi lépéseket:

  1. Kattintson a szolgáltatásra a Databricks Mosaic AI felhasználói felületén.
  2. Kattintson a Szolgáltatási végpont létrehozásagombra.
  3. Az AI-átjáró szakaszban válassza a Következtetéstáblák engedélyezéselehetőséget.

A következtetési táblákat egy meglévő végponton is engedélyezheti. Meglévő végpontkonfiguráció szerkesztéséhez tegye a következőket:

  1. Az AI-átjáró szakaszban kattintson AI-átjáró szerkesztéseelemre.
  2. Válassza a Inferenciatáblák engedélyezéselehetőséget.

A következtetési táblák letiltásához kövesse az alábbi utasításokat:

  1. Nyissa meg a végpont oldalát.
  2. Kattintson Az AI-átjárószerkesztése elemre.
  3. Kattintson a Következtetési táblázat engedélyezése elemre a pipa eltávolításához.
  4. Miután elégedett az AI-átjáró specifikációival, kattintson Frissítésgombra.

Eredmények lekérdezése és elemzése a következtetési táblában

Miután elkészültek a kiszolgált modellek, a rendszer automatikusan naplózza a modellekhez érkező összes kérést a következtetési táblába, a válaszok mellett. Megtekintheti a táblát a felhasználói felületen, lekérdezheti a táblát a Databricks SQL-ből vagy egy jegyzetfüzetből, vagy lekérdezheti a táblát a REST API használatával.

Ha meg szeretné tekinteni a táblát a felhasználói felületen: A végpontoldalon kattintson a következtetési tábla nevére a táblázat katalóguskezelőben való megnyitásához.

hivatkozás a következtetési tábla nevére a végpontoldalon

A tábla Databricks SQL-ből vagy Databricks-jegyzetfüzetből való lekérdezéséhez: A következtetési tábla lekérdezéséhez az alábbihoz hasonló kódot futtathat.

SELECT * FROM <catalog>.<schema>.<payload_table>

** Ha a következtetési tábla adatait a végponton kiszolgált alapmodell részleteivel szeretné összekapcsolni:** Az alapmodell részleteit a rendszer a system.serving.served_entities rendszertáblában rögzíti.

SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id

AI Gateway-kompatibilis következtetési táblaséma

Az AI Gateway használatával engedélyezett következtetési táblák a következő sémával rendelkeznek:

Oszlop neve Leírás Típus
request_date A dátum (UTC), amikor a modellszolgáltatási kérelmet megkapták. DÁTUM
databricks_request_id Egy Azure Databricks által létrehozott kérésazonosító, amely az összes kérést kiszolgáló modellhez van csatolva. HÚR
request_time A kérés beérkezési időbélyege. IDŐBÉLYEG
status_code A modellből visszaadott HTTP-állapotkód. INT
sampling_fraction Kérelem alulmintavételezése esetén használt mintavételezési arány. Ez az érték 0 és 1 között van, ahol az 1 azt jelzi, hogy a bejövő kérések 100% szerepeltek benne. DUPLA
execution_duration_ms Az az idő ezredmásodpercben, amelyre a modell következtetést hajtott végre. Ez nem tartalmazza a hálózati késéseket, és csak azt az időt jelöli, amíg a modell előrejelzéseket hoz létre. BIGINT
request A végpontot kiszolgáló modellnek küldött nyers kérelem JSON-törzse. HÚR
response A végpontot kiszolgáló modell által visszaadott nyers válasz JSON-törzse. HÚR
served_entity_id A kiszolgált entitás egyedi azonosítója. HÚR
logging_error_codes Azok a hibák, amelyek akkor következtek be, amikor az adatok nem naplózhatók. A hibakódok közé tartozik a MAX_REQUEST_SIZE_EXCEEDED és a MAX_RESPONSE_SIZE_EXCEEDED. TÖMB
requester Annak a felhasználónak vagy szolgáltatásnévnek az azonosítója, akinek az engedélyeit a kiszolgáló végpont meghívási kéréséhez használják. HÚR

korlátozások

  • Előre kiosztott átbocsátóképességgel rendelkező munkaterhelések:

    • Ha egy új, kiosztott átviteli sebességet használó végpontot kiszolgáló modellt hoz létre, csak az AI-átjáró által engedélyezett következtetési táblák támogatottak.
    • Ha rendelkezik egy meglévő, kiosztott átviteli sebességet használó végpontot kiszolgáló modellel, és korábban még nem konfigurált következtetési táblákat, frissítheti az AI Gateway-kompatibilis következtetési táblák használatára.
    • Ha már rendelkezik kiosztott átviteli sebességet használó, meglévő modellkiszolgalati végpontgal, és jelenleg vagy korábban konfigurált következtetési táblákat használ, nem frissíteni az AI Gateway-kompatibilis következtetési táblák használatára.
    • Az AI ügynök válasznaplóinak folyamatos továbbítása esetén csak a ChatCompletion-kompatibilis mezők és nyomkövetések kerülnek összegzésre.
  • A következtetési táblák naplózása jelenleg a legjobb megoldás, de a kérést követő 1 órán belül várható, hogy a naplók elérhetők lesznek. További információért forduljon a Databricks-fiók csapatához.

  • A naplózott kérelmek és válaszok maximális mérete 1 MiB (1 048 576 bájt). Az ezt meghaladó kérelmek és válaszok null, a logging_error_codes pedig MAX_REQUEST_SIZE_EXCEEDED vagy MAX_RESPONSE_SIZE_EXCEEDEDlesznek kitöltve.

Az AI-átjáróra vonatkozó korlátozásokért lásd Korlátozásokcímű témakört. Az általános modellkiszolgálási végpontkorlátokat lásd a Modellkiszolgálási korlátok és régiókrészben.