Sdílet prostřednictvím


Nasazení modelů s využitím obsluhy modelů Mosaic AI

Tento článek popisuje Mosaic AI Model Serving, řešení Databricks pro nasazování modelů AI a ML pro služby v reálném čase a dávkové inferencování.

Co je služba modelu AI od společnosti Mosaic?

Služba Mosaic AI Model Serving poskytuje jednotné rozhraní pro nasazování, správu a dotazování modelů AI pro inference v reálném čase a dávkovou inference. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace.

Poskytování modelů poskytuje vysoce dostupnou službu s nízkou latencí pro nasazování modelů. Služba automaticky vertikálně navyšuje nebo snižuje kapacitu tak, aby splňovala změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Tato funkce využívá výpočetní prostředky bez serveru. Další podrobnosti najdete na stránce s cenami služby Model Service.

Obsluha modelů nabízí jednotné rozhraní REST API a rozhraní API pro nasazení MLflow pro úlohy CRUD a dotazování. Kromě toho poskytuje jedno uživatelské rozhraní pro správu všech vašich modelů a jejich příslušných koncových bodů obsluhy. K modelům můžete přistupovat také přímo z SQL pomocí funkcí AI pro snadnou integraci do analytických pracovních postupů.

Pokud chcete začít, podívejte se na následující příručky:

Modely, které můžete nasadit

Obsluha modelů podporuje odvozování v reálném čase a dávkové odvozování pro následující typy modelů:

  • Vlastní modely. Jedná se o modely Pythonu zabalené ve formátu MLflow. Můžou být zaregistrované buď v katalogu Unity, nebo v registru modelu pracovního prostoru. Mezi příklady patří modely scikit-learn, XGBoost, PyTorch a Hugging Face Transformer.
  • základní modely.
    • Základní modely hostované na Databricks jako Meta Llama. Tyto modely jsou k dispozici pomocí rozhraní API modelu Foundation. Tyto modely jsou kurátorované základní architektury modelů, které podporují optimalizované odvozování. Základní modely, jako je Meta-Llama-3.3-70B-Instruct, GTE-Large a Mistral-7B, jsou k dispozici pro okamžité použití s platbami za token na bázi průběžného zúčtování a úlohy, které vyžadují záruky výkonu a jemně vyladěné varianty modelu, je možné nasadit s rezervovanou propustností.
    • Základní modely hostované mimo prostředí Databricks jako GPT-4 od OpenAI. Tyto modely jsou přístupné pomocí externích modelů . Koncové body, které obsluhují tyto modely, se dají centrálně řídit z Azure Databricks, takže můžete v rámci vaší organizace zjednodušit používání a správu různých poskytovatelů LLM, jako jsou OpenAI a Anthropic.

Poznámka:

S podporovanými velkými jazykovými modely můžete pracovat pomocí AI Playgroundu. AI Playground je prostředí podobné chatu, ve kterém můžete testovat, zadávat pokyny a porovnávat LLM. Tato funkce je dostupná ve vašem pracovním prostoru Azure Databricks.

Proč používat obsluhu modelů?

  • Nasazení a dotazování libovolného modelu: Obsluha modelů poskytuje jednotné rozhraní, které umožňuje spravovat všechny modely na jednom místě a dotazovat se na ně jediným rozhraním API bez ohledu na to, jestli jsou hostované v Databricks nebo externě. Tento přístup zjednodušuje proces experimentování s modely, přizpůsobení a nasazování modelů v produkčním prostředí napříč různými cloudy a poskytovateli.
  • Bezpečné přizpůsobení modelů s využitím privátních dat: Služba Model Serving na platformě Data Intelligence zjednodušuje integraci funkcí a vkládání do modelů prostřednictvím nativní integrace s úložištěm funkcí Databricks a vektorovým vyhledáváním v Prostředí pro architekturu Mosaic. Pro dosažení ještě lepší přesnosti a kontextového porozumění lze modely vyladit pomocí proprietárních dat a snadno nasadit na službu pro modely.
  • Řízení a monitorování modelů: Obslužné uživatelské rozhraní umožňuje centrálně spravovat všechny koncové body modelu na jednom místě, včetně těch, které jsou externě hostované. Můžete spravovat oprávnění, sledovat a nastavit limity používání a monitorovat kvalitu všech typů modelů pomocí AI Gateway. To vám umožní demokratizovat přístup k SaaS a otevírat LLM ve vaší organizaci a zároveň zajistit, aby byly zavedeny vhodné mantinely.
  • Snížení nákladů s optimalizovaným odvozováním a rychlým škálováním: Služba Databricks implementovala řadu optimalizací, abyste zajistili nejlepší propustnost a latenci pro velké modely. Koncové body se automaticky škálují nahoru nebo dolů, aby splňovaly změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Sledujte náklady na provozování modelu.

Poznámka:

U úloh, které jsou citlivé na latenci nebo zahrnují vysoký počet dotazů za sekundu, doporučuje Databricks použít optimalizaci tras u vlastních koncových bodů obsluhy modelu. Spojte se s týmem pro správu účtu Databricks a ujistěte se, že je váš pracovní prostor nastavený na zajištění vysoké škálovatelnosti.

  • Přineste spolehlivost a bezpečnost do obsluhy modelů: Obsluha modelů je navržena pro použití v produkčním prostředí s vysokou dostupností, nízkou latencí a může podporovat více než 25 tisíc dotazů za sekundu s režijní latencí menší než 50 ms. Obsluhované úlohy jsou chráněny několika vrstvami zabezpečení a zajišťují bezpečné a spolehlivé prostředí pro i nejcitlivější úlohy.

Poznámka:

Obsluha modelů neposkytuje opravy zabezpečení stávajícím obrazům modelů kvůli riziku destabilizace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.

Požadavky

Povolení obsluhy modelů pro váš pracovní prostor

K povolení služby Model Serving ve vašem pracovním prostoru nejsou potřeba žádné další kroky.

Omezení a dostupnost oblastí

Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Viz Omezení a oblasti služby Model Serving. Pokud máte zpětnou vazbu k těmto limitům nebo koncovému bodu v nepodporované oblasti, obraťte se na svůj tým účtů Databricks.

Ochrana dat ve službě Model Serving

Databricks bere zabezpečení dat vážně. Databricks rozumí důležitosti dat, která analyzujete pomocí obsluhy modelu Mosaic AI, a implementuje následující bezpečnostní prvky, které chrání vaše data.

  • Každá žádost zákazníka o poskytování modelu je logicky izolovaná, ověřená a autorizovaná.
  • Obsluha modelu Mosaic AI šifruje všechna neaktivní data (AES-256) a data při přenosu (TLS 1.2+).

U všech placených účtů služba Mosaic AI Model Serving nepoužívá uživatelské vstupy odeslané do služby ani výstupy ze služby k trénování jakýchkoli modelů nebo ke zlepšení služeb Databricks.

Pro rozhraní API modelu Foundation Databricks, která jsou součástí poskytování služby, může Databricks dočasně zpracovávat a ukládat vstupy a výstupy za účelem prevence, zjišťování a zmírnění zneužití nebo škodlivého použití. Vaše vstupy a výstupy jsou izolované od těch ostatních zákazníků, které jsou uložené ve stejné oblasti jako váš pracovní prostor po dobu až třiceti (30) dnů a jsou přístupné pouze pro detekci a reakci na obavy z zabezpečení nebo zneužití. Rozhraní API základních modelů je služba určená Databricks, což znamená, že dodržuje datové rezidenční hranice, které implementuje Databricks Geos.

Další materiály