Adatplatform AI-számítási feladatokhoz az Azure-ban
Az adatplatformok olyan integrált technológiák, amelyek a számítási feladatok követelményeinek kezelésére szolgálnak a forrásadatok betöltésével, majd szűréssel, összesítéssel és a felhasználásra való előkészítésével.
Az adatok különböző jellemzőkkel rendelkeznek, amelyek a rendeltetéseiken alapulnak. Javasoljuk, hogy a cikk által leírt technológiai képességek megismerése előtt ismerje meg a jó adatfolyam-tervezés alapelveit. További információ: Adattervezés betanítása és adattervezés.
A platform akkor is kielégíti a tárolási igényeket, ha az adatok a folyamat bizonyos pontjain pihennek. Ha a számítási feladat összetett, és nagy léptékű adatokat kezel, a folyamatfeladatokat különböző összetevők között oszthatja el. Egyszerűbb használati esetek esetén értékelje ki, hogy használhatja-e a forrásadatokat egy olyan tárolóban, amely ezeket a kombinált képességeket kínálja.
Tegye fel magának a következő kérdéseket, hogy elkerülhesse az adatplatform túlságosan összetett architektúrájának tervezését. Mindig a legjobb, ha egyszerűnek tartod a dolgokat, amikor csak tudod.
- Az alkalmazás rendelkezhet a várt prediktív teljesítménnyel, ha egyetlen forrásból származó adatokat használ?
- A kezdeti adattárválasztás támogatja az adattárházi képességeket?
- A forrásadatok már optimalizálva van az AI-keresésekhez?
Ha igennel válaszol ezekre a kérdésekre, egyszerűsítheti az architektúrát, ha lehetővé teszi az alkalmazás számára, hogy közvetlenül hozzáférjen az adatforráshoz. Ez a megközelítés kiküszöböli az olyan big data-architektúra-összetevők szükségességét, mint az adatbetöltés, az elemzési tár integrációja és a külső adatfeldolgozás. Ha a forrásadatbázis képes kezelni a szükséges kereséseket, a keresési index képességének közvetlen integrálása a forrásadatbázisba gyakorlati megoldás lehet. Győződjön meg arról, hogy a forrás költséghatékonyan méretezhető az új igényeknek megfelelően.
Az Azure Cosmos DB például támogatja a vektorkeresést, így előfordulhat, hogy nincs szükség másik indexre. Egy másik használati eset az olvasási replikák használata végpontként a keresési műveletekhez. Olvasási replikákkal rendelkező SQL-adatbázisok esetében a replikákra irányuló közvetlen keresések optimalizálhatják a teljesítményt. Használja ki az adatbázis beépített képességeit, hogy a lehető legnagyobb mértékben leegyszerűsítse az architektúrát.
A nagy méretű számítási feladatok adatplatform-architektúrája összetettebb.
Az adatok több adatforrásból való betöltése és a különböző platformokon végzett keresések vezénylése összetetté és nem hatékonysá válhat. Emellett továbbra is szüksége van némi kinyerési, átalakítási és betöltési (ETL) elemre; kinyerés, betöltés és átalakítás (ELT); vagy kinyeri és betölti az (EL) folyamatokat az adattárban lévő adatok újraformálásához. A forgatókönyv összetettebbé válik, mivel az adatok további feldolgozást igényelnek. Számos összetevőt kell hozzáadnia az architektúrához, hogy kezelni tudja a végpontok közötti folyamatot a betöltéstől a lekérdezések kiszolgálásán át. Számos big data-technológia rendkívül specializált, és ezeket a feldolgozási feladatokat hatékonyan kezeli.
Az egyik ilyen technológia a keresési index. A különálló indexek hozzáadásának elsődleges előnye, hogy hatékonyan kezelheti a lekérdezéseket, és nagy mennyiségű, nagy átviteli sebességgel rendelkező adatot dolgoz fel. Ez a függvény kiveszi az AI-képességeket az eredeti adatforrásból, hogy az index a lekérdezéseket kiszolgáló fő függvényére összpontosíthasson.
Válasszon ki egy platformot az adott funkció és cél alapján, és vegye figyelembe a funkcionális és műszaki követelményeket. Ha az architektúra folyamatosan fejlődik az összetett használati esetek kezelése érdekében, a következő szakaszokra összpontosítson az összesített adattárakról, a feldolgozási folyamatokról és a keresési indexekről.
Ajánlások
Íme a cikkben szereplő javaslatok összegzése.
Ajánlás | Leírás |
---|---|
Biztonságos, hatékony és költséghatékony adattárak létrehozása. | Az adatplatform kulcsfontosságú része egy adattár, amely több forrásból származó adatokat összesít, és lehetővé teszi a különböző integrációs feladatokkal való integrációt. Ez segít a számítási feladat nagy léptékű végrehajtásában. A költséghatékony üzembe helyezés biztosítása érdekében mindenképpen tekintse át az adattár különböző funkcionális és nem funkcionális követelményeit. ▪ Az összesített adatok tárolásának szempontjai |
Kövesse az adatbetöltés és -feldolgozás ajánlott eljárásait. | A magas minőségű adatok segítenek javítani a számítási feladatok megbízhatóságát és a végfelhasználói élményt. Vegye figyelembe a számítási feladat követelményeit, valamint az ajánlott eljárásokat a hatékony betöltési és adatáttovábbítási folyamatok létrehozásához, amelyek segítenek fenntartani a kiváló minőségű sávot. ▪ Az adatok feldolgozásának szempontjai |
Megbízható és releváns keresési indexek tervezése. | Törekedjen egy nagy teljesítményű, egyszer írható, több olvasási szintű adattárra, amely hatékonyan kezeli a rögtönzött és homályos lekérdezéseket, és releváns eredményeket biztosít a felhasználói bázisnak, még akkor is, ha a lekérdezések nem pontosak. ▪ Keresési indexek megfontolandó szempontjai |
Győződjön meg arról, hogy a funkcionális adattárak nagy léptékben működnek. | A számítási feladat funkcionális követelményeitől függően előfordulhat, hogy funkcionális adattárakat kell létrehoznia, például offline következtetéshez. Fontos, hogy a kijelölt funkcióval rendelkező adattárakat hozzon létre, és alkalmazza a függvényre vonatkozó ajánlott eljárásokat. ▪ Szolgáltatástárolók megfontolandó szempontjai ▪ Offline következtetéses adattár megfontolandó szempontjai |
Az összesített adatok tárolásának szempontjai
Az AI-számítási feladatokban az adatok a tárolás és a feldolgozás különböző szakaszain haladnak át a munkafolyamatokat vezénylő folyamatok segítségével ezen szakaszok között. Az egyik kulcsszakasz egy olyan adattár, amely több forrásból betöltött és összesített adatokat tartalmaz. Erre a tárolóra szüksége van a feldolgozáshoz, amíg az adatok nem érik el a megfelelő állapotot a betanításhoz vagy az indexeléshez. Az elsődleges szempont annak biztosítása, hogy az adatok pontosan tükrözzék a forrását.
Feljegyzés
Egy másik módszer az adatforrások közvetlen elérése. Ez a megközelítés azonban teljesítményproblémákhoz vezethet, mert túlterhelheti a forrásrendszereket AI-funkciókkal. Adathozzáférési problémák is lehetnek. A problémák elkerülése érdekében javasoljuk, hogy másolja az adatokat ebbe az áruházba.
Az adattár adatplatformjának meg kell felelnie az adatforrásokra alkalmazott biztonsági szabványoknak, költséghatékonynak kell lennie, és támogatnia kell az ETL- és EL-feldolgozási feladatokkal való integrációt. A lehetőségek az alapszintű tárolástól a big data-technológiákig terjednek az adatmennyiség alapján. Válassza ki a gazdaságos tárolást, amely segít a megfelelő megbízhatóság és teljesítmény elérésében.
Az alábbi szakasz útmutatást nyújt az adattár-technológia kiválasztásakor figyelembe veendő képességekről. További információ: Adatfeldolgozási folyamatok.
Funkcionális követelmények
Kezelni tudja a platform a különböző adatformátumokat?
Az adattárnak képesnek kell lennie különböző adatformátumok tárolására és szükség esetén más formátumokká alakítására.
Tegyük fel, hogy a betöltési folyamat egy relációs adatbázisból és egy Parquet-fájlból származó adatokat nyer, így strukturált és félig strukturált adatokat is támogat. A relációs adatokat parquet formátumba szeretné konvertálni a sémadefinícióknak megfelelően. Az adatplatformnak beépített képességekkel kell rendelkeznie ahhoz, hogy egyéni kód írása nélkül elvégezhesse az átalakítást.
Elvárja, hogy az adatok több verzióját is tárolja?
Az adatértékek és sémák idővel változhatnak, és fontossá válik az adatok több verziójának kezelése.
A forrásrendszerek általában csak az aktuális adatokat tárolják, az előzményadatokat nem. Ha fontos az előzményadatok megőrzése, előfordulhat, hogy a forrásrendszerekből kell duplikálnia a nagy adatkészleteket. Ebben az esetben a verziószámozás egyértelműsítheti az aktuális adatokat az előzményadatokból.
Bizonyos esetekben előfordulhat, hogy különböző használati esetekhez kell megőriznie az adatok másolatát. A forgatókönyv támogatásához szükség lehet az adatok elágazására. Minden elágazás egymástól függetlenül mutálható a minőség és a használhatóság javítása érdekében. Az adatplatformnak képesnek kell lennie az elágaztatások megfelelő verziójának fenntartására.
Az adatplatformnak képesnek kell lennie az adatok verzióinak időbeli tárolására az előzménykörnyezet biztosítása érdekében. Ez a contetxt előnyös az AI-modellek feldolgozásához és betanításához, mivel több megfigyelést is kínál, nem csupán egyetlen időpontot.
A platform rendelkezik beépített adat életciklus-kezelési képességekkel?
Az adatéletciklus-kezelés (DLM) az adatok kezelésének folyamata a létrehozástól a törlésig, olyan fázisokkal, mint az adatgyűjtés, a tárolás, a használat, az archiválás és az ártalmatlanítás.
A DLM nélkül az adatok ellenőrizetlenül növekedhetnek, ami gyakran több példányt eredményez, miközben a minőségi szinteken halad át. Az adatplatformnak DLM-képességekkel kell rendelkeznie a kötetlen adatnövekedés megakadályozása érdekében.
Fontolja meg ezt a forgatókönyvet. Az előfeldolgozási lépésnek meg kell ismételnie az adatokat, amíg el nem éri a betanítási célokra elfogadható minőséget. Az adatplatformnak képesnek kell lennie az adatok köztes másolatának törlésére.
Bizonyos esetekben előfordulhat, hogy meg kell őriznie az adatokat a szabályozási auditokhoz. Az adatplatformnak hideg tárolási képességekkel kell rendelkeznie a ritkán elért adatokhoz, hogy alacsonyabb költséggel archiválhassa azokat.
Támogatja a platform az adatszabályozási funkciókat?
Az AI-számítási feladatok esetében a naplózás fontos szempont. Az adattárnak olyan naplózási nyomokat kell fenntartania, amelyek nyomon követhetik az adathozzáférést, biztosíthatják az adatvédelem és az adatok eredetének megértését.
Az adatszótár funkcióval kezelheti a metaadatokat, az adattípusokat, a célokat és az életútot. Ez a funkció különösen fontos, ha az adatokat több forrásból is betöltik.
Tervezi a betanítást éles adatokkal?
Az üzembe helyezésnek két megközelítése van, a modell üzembe helyezése és a kód üzembe helyezése. A modell üzembe helyezésekor éles adatokat használnak a fejlesztés során, ami szigorú biztonsági intézkedéseket igényel. A kódtelepítés során a modell csak éles környezetben látja az éles adatokat. Bár a kódtelepítés leegyszerűsíti a fejlesztési környezetben jelentkező biztonsági problémákat, növelheti a számítási költségeket. Bármelyik módszert is választja, az adatplatformnak külön fejlesztési és éles környezeteket kell támogatnia.
Előnyben részesíti a kényelmi funkciókat a főbb funkcionális funkciókkal szemben?
Ha adatplatformot választ az AI-hoz vagy a gépi tanuláshoz, ne csak a jegyzetfüzet képességeire támaszkodjon. Bár a jegyzetfüzetek hasznosak a feltáró jellegű adatelemzéshez, nem szabad, hogy ezek legyenek a döntő tényezők. A jegyzetfüzetek számítási erőforrásai általában kívül esnek az összesítési adattár hatókörén. Ezek általában integrálva vannak más erőforrásokkal, például az Azure Machine Learning szolgáltatással.
Nem funkcionális követelmények
Mennyi adatot szeretne tárolni?
Az AI-számítási feladatok sok adatot hoznak létre. A kötet több verzió és további metaadatok miatt jelentősen növekedhet.
A tárolás és az átviteli sebesség méretezhetősége fontos. Az adatplatformnak hatékonyan kell felhasználnia az adatokat a betöltési folyamatból, miközben kezeli az adatmennyiséget, kezeli az egyidejű írásokat, és biztosítja az egyéni írási teljesítményt romlás nélkül. Ezek a feltételek a feldolgozási folyamatra is vonatkoznak, amely beolvassa, feldolgozza és még vissza is írja az áruházba.
Amikor döntést hoz, fontolja meg a teljes folyamatot, mert a betöltés és a feldolgozás gyakran egyszerre történik. A kialakításnak képesnek kell lennie a gyakori adatáthelyezés és -feldolgozás kezelésére. Az adatplatformnak magas szintű párhuzamosságot kell nyújtania az adatok hatékony feldolgozásához.
A platformtechnológiának olyan telemetriát kell kibocsátania, amely hasznos betekintést nyújt az olvasási és írási műveletek átviteli sebességébe és teljesítményébe.
Ez az adattárolás kritikus fontosságú összetevő, amely hozzájárul a számítási feladat megbízhatósági céljához?
Válasszon egy adattárat, amely több példány használatával növeli a megbízhatóságot és a méretezhetőséget. A big data-tárolók gyakran rendelkeznek beépített vezérlővel, amely a példányok közötti adatfeldolgozást vezénylik. Ha az egyik másolás sikertelen, egy másik használható.
Ne feledje, hogy az adatok nem szolgálják a rendeltetését, ha nem helyesek vagy hozzáférhetők. Az adatplatformnak garantálnia kell a tartósságot, és gondoskodnia kell arról, hogy az adatok érintetlenek maradnak. Győződjön meg arról, hogy az adatokat lekérdező API-k elérhetők. Emellett fontolja meg a biztonsági mentési funkciókkal rendelkező adattárakat is.
Általában nem kell biztonsági másolatot készítenie ezekről az adatokról. Ha azonban az adatok minden nulláról történő összesítésének költsége jelentősen magas, érdemes lehet újrahidratálni az adatokat egy biztonsági másolatból.
Vannak költségkorlátozások?
Ha az adatok megbízhatósága és teljesítménye elegendő, vegye figyelembe a költséghatást.
A rendszert egyszer kell optimalizálni írásra , sok olvasást kell olvasni, hogy elkerülje az adattárolásra való túlköltekezést. A betanítási vagy földelési adatok fontosak, de nem kritikus fontosságúak, mint egy éles adatbázis, ami azonnali válaszkészséget igényel. A hangsúly a költségek kiegyenlítésén van, és elegendő hatékonysággal maximalizálja a befektetés megtérülését.
A fenti követelmények természetesen a data lake használatát is megfontolhatják, mivel DLM-et, minőségi szinteket, megfigyelhetőséget és támogatást kínál a különböző fájlformátumokhoz. Ha a számítási feladat már használ egy data lake-t, használja ki ezt az erőforrást az AI-igények kielégítése érdekében. Másik lehetőségként választhat más tárolási lehetőségeket is, például az Azure Blob Storage-t, amely bizonyos szintű DLM-et, monitorozási képességeket és magas tranzakciós sebességet biztosít.
Az adatok feldolgozásának szempontjai
Az összesített adattárban lévő adatokat az alsóbb rétegbeli segédprogram növeléséhez kell feldolgoznia. Az ETL-folyamatok végrehajtják ezt a feladatot, ami a legfontosabb a következő pontokon:
Betöltési réteg
A folyamat felelős a különböző forrásokból származó adatok gyűjtéséért és az összesített adattárba való áthelyezéséért. Ebben a folyamatban a folyamat általában alapszintű előfeldolgozást végez, és akár lekérdezhető formátumban is strukturálhatja az adatokat.
Az egyéni kód szükségességének minimalizálása érdekében javasoljuk, hogy a felelősség nagy részét ki kell kapcsolnia egy adatplatformra. Amikor kiválaszt egy technológiát, vegye figyelembe a modell betanításának és bővítésének támogatásához szükséges ETL-jellemzőket.
Feldolgozási réteg
Az összesített adattárból származó adatok széles körű feldolgozáson mennek keresztül, mielőtt indexelési vagy modellbetanítási használati esetekhez használhatók. A feldolgozási folyamathoz a betöltési folyamathoz hasonló megbízhatósági és skálázási szintek szükségesek. A fő különbség az adatokon végzett feldolgozás típusa.
A folyamat magában foglalja az adatok jelentős újramásolását és szerkezetátalakítását. Ez a folyamat olyan feladatokat tartalmaz, mint az entitásfelismerés, a további adatok integrálása az adatkészletbe és a keresések végrehajtása. Ez a folyamat magában foglalhatja a szükségtelen adatok törlését és az adatlogika alkalmazását egy adatvezénylési platformon keresztül.
Az adatfeldolgozási fázis különböző kimeneteket hozhat létre, amelyek különböző célhelyeken landolt különböző szándékok esetén. Fő célja az adatok előkészítése és átvitele az összesített adattárból a végső cél szerinti felhasználás céljából. A fogyasztó szükség esetén lekérheti az adatokat, vagy a feldolgozási réteg leküldheti az adatokat, ha készen áll.
Feljegyzés
A gépi tanulás és a generatív AI kontextusában fontos különbséget tenni az ETL, az ELT és az EL folyamatok között. A hagyományos ETL kulcsfontosságú az adattárházak és az objektum-relációs leképezések esetében, ahol a sémakorlátozások miatt az adatokat át kell alakítani, mielőtt betöltené őket a célrendszerbe. Az ELT magában foglalja az adatok kinyerését, adattóba való betöltését, majd átalakítását olyan eszközökkel, mint a Python vagy a PySpark. A generatív AI-ben, különösen a lekéréses-bővített generáció (RAG) esetében a folyamat gyakran magában foglalja a dokumentumok kinyerését és betöltését a tárolóba, majd az átalakításokat, például az adattömbök vagy a kép kinyerését.
Az alábbi szakasz útmutatást nyújt az ETL-képességekkel rendelkező adatfeldolgozási technológia kiválasztásakor.
Funkcionális követelmények
Mi az adatforrásokhoz való csatlakozás támogatása?
A feldolgozandó adatok relációs adatbázisokban, big data-forrásokban vagy különböző tárolási megoldásokban tárolhatók.
A legtöbb adatfeldolgozási technológia támogatja az előre összeállított integrációkat, amelyek lehetővé teszik a különböző adatforrásokhoz való csatlakozást kódírás nélkül. Az összekötők olyan funkciókkal rendelkeznek, mint az adatok forrásból fogadóba másolása, keresések végrehajtása és az adatszabályozás valamilyen formájának alkalmazása. Vannak olyan eszközök, amelyek húzási funkciókat kínálnak a szükségtelen kódolás elkerülése érdekében.
Válasszon egy olyan adatplatformot, amely megkönnyíti a várt adatforrásokkal való integrációt.
Feldolgozhatja a platform a különböző adatformátumokat?
Az adatok különböző formátumúak lehetnek, például strukturált adatok, például adatbázisok és JSON, strukturálatlan adatok, például képek és dokumentumok, vagy streamelési adatok, például az eszközök internetes hálózatából származó adatok. A folyamatoknak képesnek kell lenniük a várt fájltípusok kezelésére.
A platform kínál szolgáltatásokat az adatok előkészítéséhez és újramásolásához?
A betanításhoz vagy bővítéshez használni kívánt adatokat addig kell feldolgoznia, amíg az nem alkalmas betanításra, finomhangolásra vagy indexelésre. Az adattervezési stratégiáknak kifejezetten fel kell vázolnia a követelményeket.
A következő cikkek konkrét szempontokat írnak le:
- Betanítási adatok tervezése migrálási számítási feladatokhoz az Azure-ban
- A mi-számítási feladatok alapadatainak tervezése az Azure-ban
Az alapszintű tisztítás részeként a platform eltávolítja a duplikált elemeket, kitölti a hiányzó értékeket, és kiküszöböli a felesleges zajt a betöltés során. Bizonyos használati esetekben, például a RAG-minta implementálásához javasoljuk, hogy kisbetűs adattömböket használjon.
Bár ezek az előfeldolgozási lépések szükségesek, a platformnak támogatnia kell az igényeinek megfelelő, sokoldalú adatkezelést is. Ez a folyamat magában foglalja az adatok betöltését, újramásolását és átalakítását. Bizonyos modellek esetében a platformnak képesnek kell lennie külső források lekérdezésére a dokumentumelemzéshez, például a dokumentumintelligencia vagy más AI-eszközök számára. Ez a munka szükséges az adatok előkészítéséhez és az adatdúsításhoz.
Ha az adattár támogatja ezt a feldolgozási szintet, ezt a szakaszt az áruházban honosíthatja anélkül, hogy máshová helyezne át. Ellenkező esetben olyan külső technológiára van szüksége, mint az Azure Databricks vagy az Azure Data Factory. Ezek a technológiák alkalmasak adatok áthelyezésére és manipulációk elvégzésére, például szűrésre, hiányzó értékek kitöltésére és sztringek egységesítésére. Az összetettebb feladatokhoz általában feladat-üzemeltetési platformra van szükség. A Spark-készleteket big data-vezényléshez használhatja.
Bizonyos használati esetekben célszerű lehet ezt a felelősséget az adatok felhasználója felé kivenni. A gépi tanulást használó AI-modellek például feladatfeldolgozási képességeket kínálnak az adatok olvasására, módosítására és írására egyéni Python-kód használatával.
Egy másik példa a RAG implementáció. Gyakori feldolgozási lépés az adattömbök létrehozása, ahol egy dokumentum több adattömbre van osztva, és minden egyes adattömb az index sorává válik. Emellett olyan beágyazásokat is tárol, amelyeket egy OpenAI-szolgáltatás gyakran hoz létre ezekhez az adattömbökhöz. Az AI-keresésekben ez a folyamat az indexelési munkafolyamatban van vezénylve, akár az OpenAI, akár az Azure AI Search használatával.
Van beépített vezénylő a munkafolyamatok kezeléséhez?
A feldolgozási feladatok modulárisak és feladatokként futnak. A platformnak olyan vezénylési képességekkel kell rendelkeznie, amelyek lépésre vagy feladatra bontják a munkafolyamatot. Minden feladatot külön kell definiálni, futtatni és figyelni.
Összetett munkafolyamatokban bizonyos lépések a korábbiak sikeres befejezésétől függenek. A vezénylőnek kezelnie kell a feladatfüggőségeket, és gondoskodnia kell arról, hogy a tevékenységek a megfelelő sorrendben legyenek végrehajtva.
Az adattervezés iteratív folyamat, ezért a vezénylő eszköznek elég rugalmasnak kell lennie a munkafolyamatok egyszerű módosításához. Képesnek kell lennie új lépések beírására vagy meglévők módosítására a kód nagy részének újraírása nélkül.
A Data Factory népszerű választás, mivel gazdag funkciókészletet biztosít az adat-munkafolyamatok kezeléséhez. Az Azure Databricks összetett munkafolyamatokat is kezelhet, feladatokat ütemezhet és figyelhet. Figyelembe kell vennie a költségek következményeit is. Az Azure Databricks funkciói például széles körűek lehetnek, de költségesek is. Egy nyílt forráskódú alternatív lehetőség, például az Apache NiFi költséghatékonyabb lehet.
Végső soron attól függ, hogy melyik eszközt választja a szervezet, és hogy milyen készségekkel rendelkezik a számítási feladatokat kezelő csapat.
Nem funkcionális követelmények
A feldolgozási folyamat kiválasztásakor kulcsfontosságú az átviteli sebesség és a megfigyelhetőség egyensúlya. A folyamatnak megbízhatóan kell feldolgoznia és le kell foglalnia a modellekhez vagy indexekhez szükséges adatokat a megfelelő időkereten belül. Elég könnyűnek kell lennie ahhoz, hogy támogassa a jelenlegi igényeket, és skálázható legyen a jövőbeli növekedéshez. A csapatoknak el kell dönteniük, hogy mennyi időt kell majd a platformon átvészelniük a technikai adósságok későbbi elkerülése érdekében. A fő szempontok közé tartozik az adatbetöltés gyakorisága és mennyisége, a folyamat megbízhatósága, valamint a problémák azonnali monitorozásának és megoldásának megfigyelhetőségének szükségessége.
Mennyi adatot fog beszedni?
A betöltési és feldolgozási fázisok esetében vegye figyelembe a platform méretezhetőségét és a feladatok kezelésének sebességét. Például napi 10 terabájtnyi adatot kell betöltenie egy indexbe vagy modell betanítására. Az adatbetöltési platformnak képesnek kell lennie arra, hogy feldolgozhassa ezt a sok kötetet és a várt átviteli sebességet. Ebben az esetben előfordulhat, hogy az Azure Logic Apps használata nem valósítható meg, mert ilyen terhelés esetén meghiúsulhat. Ehelyett a Data Factory jobban megfelel az adatfeldolgozás ezen skálájának.
A nagy mennyiség kezelésének egyik módja a párhuzamosság, mert hatékonyabb adatkezelést és feldolgozást tesz lehetővé. Az azure Databrickshez hasonló platformok úgy vezényelhetik a feladatokat, hogy több példányt hoznak létre ugyanahhoz a feladathoz, és hatékonyan osztják el a terhelést.
Vegye figyelembe a tűrhető késést és a feladatok összetettségét is. Az adattisztítás például magában foglalja az érvénytelen mezők érvényesítését és esetleges cseréjét, illetve a bizalmas adatok maszkolását. Ezek a feladatok, bár alapszintűek, jelentős erőforrásokat igényelnek, mivel minden sort egyenként dolgoznak fel, ami növeli a teljes időt.
Milyen monitorozási képességekre van szüksége?
Az adatfeldolgozási folyamatoknak monitorozási képességekkel kell rendelkezniük, és betekintést kell nyújtaniuk a folyamat teljesítményébe és a feladatok állapotába.
Nyomon kell követnie a feladatok előrehaladását. Tegyük fel, hogy a folyamat olyan adattisztítási feladatot futtat, amely nem fejeződik be vagy nem fejeződik be részben. Az alsóbb rétegbeli hatások hatással lehetnek a modell betanított adatainak minőségére, ami befolyásolhatja a prediktív teljesítményt.
A számítási feladat más összetevőihez hasonlóan engedélyeznie kell a naplókat, metrikákat és riasztásokat az adatfolyamon annak viselkedésének megértéséhez. Teljesítménymetrikákat gyűjthet és elemezhet a hatékonysági és megbízhatósági szempontok megértéséhez.
Azonosítsa a beépített telemetria esetleges hiányosságait, és határozza meg, hogy milyen további monitorozást kell végrehajtania. Ez a figyelés magában foglalhatja egyéni naplózás vagy metrikák hozzáadását a feladat lépéseinek konkrét részleteinek rögzítéséhez.
Mennyi megbízhatóságot vár az adatfeldolgozási platformtól?
Az adatfeldolgozási folyamat megbízhatósága a platformválasztástól függően változik. Annak ellenére, hogy a Logic Apps vezénylési képességekkel rendelkezik, lehet, hogy nem olyan megbízható, mint a Data Factory. Az Azure Kubernetes Service-fürtön (AKS) üzemeltetett Data Factory különböző megbízhatósági jellemzőkkel rendelkezhet.
Az egypéldányos beállítások meghibásodási pontoknak minősülnek. Válasszon egy olyan platformot, amely támogatja a megbízhatósági funkciókat, például több példányt, hogy megfeleljen a követelményeknek.
A platformnak támogatnia kell a rugalmassági funkciókat is. A vezénylőnek például automatikusan újra kell próbálkoznia egy sikertelen feladatokkal, ami csökkenti a manuális újraindítás szükségességét.
A kötegelt feldolgozás az adatfrissítési és késési követelményektől függően kevésbé megbízható, mint a következtetés. Ha a betanítás hetente történik, és a feldolgozás egy napot vesz igénybe, az időnkénti hibák elfogadhatók, mert van elég idő az újrapróbálkozásokra.
Vannak költségkorlátozások?
Ha figyelembe veszi egy adatfeldolgozási folyamat költséghatékonyságát, fontos, hogy olyan megoldást válasszon, amely szükségtelen költségek nélkül megfelel az igényeinek. Ha a követelmények nem indokolják az Azure Databricks speciális funkcióit, elegendő lehet egy gazdaságosabb megoldás, például a Data Factory. Emellett az olyan nyílt forráskódú eszközök, mint az Apache Airflow vagy az Apache NiFi, robusztus képességeket biztosíthatnak alacsonyabb költséggel. A legfontosabb, hogy elkerülje a szükségtelen funkciók túlköltekezését, és válasszon ki egy olyan platformot, amely egyensúlyt teremt a funkciók és a költséghatékonyság között.
Milyen biztonsági követelmények vonatkoznak a munkafolyamatokra és a feldolgozott adatokra?
Legyen tisztában a biztonsági, adatvédelmi és adattárolási követelményekkel. Fontolja meg például a földrajzi szabályozási követelményeket. Az adatok tárolására és feldolgozására vonatkozó követelményeknek való megfelelés az adatok adott régiókban való tárolásának és feldolgozásának biztosításával. Előfordulhat, hogy a helyi megfelelőségi előírásoknak való megfeleléshez külön folyamatokat kell futtatnia különböző régiókhoz, például egy Európához, egy másikhoz Pedig Amerikához.
Az adatfolyamplatformnak támogatnia kell az identitás- és hozzáférés-kezelést, hogy csak az engedélyezett identitások férhessenek hozzá bizonyos feladatokhoz vagy lépésekhez a munkafolyamatokon belül. Ha például az ETL-folyamat több munkafolyamatból áll, és ezek egyike szigorúan bizalmas adatokat kezel, a platformnak lehetővé kell tennie, hogy korlátozza a munkafolyamathoz való hozzáférést, miközben a többit is elérhetővé teszi. Ez a funkció segít megfelelni a biztonsági követelményeknek anélkül, hogy külön platformokra van szüksége a különböző adatérzékenységi szintekhez. Ideális esetben a platformnak beépített támogatást kell nyújtania az ilyen elkülönítéshez, amely lehetővé teszi a hatékony és biztonságos adatkezelést.
Az adatfeldolgozási folyamatok keresési indexbe vagy modellbetanítási folyamatba is ki tudják adni az adatokat. A használati esettől függően tekintse meg a keresési indexek vagy szolgáltatástárolók szakaszait.
Keresési indexek megfontolandó szempontjai
A keresési index úgy lett kialakítva, hogy környezeti vagy földelési adatokat tároljon a modell következtetési végpontjának való küldéshez, valamint a kéréshez. Mindkét hívás, az indexlekérdezés és a következtetési végpont meghívása ugyanazon ügyfél HTTP-kéréseinek szervizelésével összefüggésben történik. Az offline és kötegelt feladatokat kezelő ETL-folyamatokkal ellentétben ez az index támogatja a valós idejű következtetést, ami nagy teljesítményt és megbízhatóságot igényel. Az AI-lekérdezésekre specializálódott, és olyan funkciókat kínál, mint a kulcsszavak indexelése és szűrése, amelyek nem jellemzőek a big data-tárolókra. A cél egy nagy teljesítményű, egyszer írható, több olvasott adattároló használata, amely támogatja a rögtönzött és homályos lekérdezéseket. Ez az adattár pontos lekérdezések nélkül biztosíthatja a releváns eredményeket.
Funkcionális követelmények
Milyen keresési típusokat támogat a keresési index?
A rendszer által kapott lekérdezések alapvetően keresések, és az indexnek támogatnia kell a gazdag keresési képességeket. A RAG esetében a vektorkeresés nem tárgyalható, mert az adatok számított vektorokként vagy beágyazásokként vannak tárolva, amelyeket a rendszer a kereséshez használ.
A vektoros keresés hatékony, és a szűréssel és a teljes szöveges kereséssel kombinálva fokozza a keresési index hatékonyságát. Az adattervnek figyelembe kell vennie az ilyen típusú keresések, például a vektor, a teljes szöveges keresés, a szűrés és a speciális adattípusok, például a földrajzi hely kombinálását.
Az adattervnek explicit módon meg kell adnia ezeket a követelményeket. További információ: Hatékony lekérdezés az adattervezésben.
Támogatja az index a multimodális adatokat?
A multimodális adatokat támogató indextechnológiák kiválasztása. Az AI-keresések például elemezhetnek egy e-mailt, átalakíthatnak benne egy képet vektorokká, és tárolhatják a leírást az indexben. Ezzel a funkcióval különböző tartalommódok között kereshet, beleértve a képeket, videókat és hangfájlokat.
Az index támogatja az automatikus frissítési képességeket, amikor az adatforrásokban lévő adatok megváltoznak?
Válasszon egy indexet, amely automatikus frissítési funkciókkal rendelkezik. Ha nem érhető el, manuálisan kell észlelnie és le kell küldenie az index módosításait. Ezekkel a képességekkel az indexelő képes észlelni az adatforrások változásait, és automatikusan lekérni a frissítéseket. A felelősség platformra való kiszervezésével csökkentheti a működési többletterhelést, és egyszerűsítheti a karbantartási folyamatot.
Nem funkcionális követelmények
Képes-e az index nagy mennyiségű adattal teljesíteni?
Az indexnek nagy mennyiségű adatot kell kezelnie, méretezhetőnek kell lennie, és jól kell teljesítenie a nagy keresési számítási feladatokat. Az index tárolja a nyers adatokat és a hozzá társított összes metaadatot, dúsítást és entitást. A RAG-minta kontextusában egyetlen dokumentum, amely több adattömbre van felosztva, jelentősen növelheti az adatmennyiséget.
Az index rendelkezik beépített megbízhatósági funkciókkal?
Fontolja meg a következtetési végpont vagy a modell megbízhatósága és az adattár közötti igazítást, mert ezek egymástól függenek.
A keresési folyamat két lépésből áll: az adattár lekérdezése, majd a következtetési végpont lekérdezése. Mindkét lépésnek hasonló megbízhatósági jellemzőkkel kell rendelkeznie. A megbízhatósági célkitűzések egyensúlyba hozása mindkét összetevő között a keresés hatékonyságának biztosítása érdekében.
A rugalmasság biztosítása érdekében a számítási feladatnak támogatnia kell az egyidejű felhasználók várható számát, és elegendő sávszélességgel kell rendelkeznie a forgalom megugrásának kezeléséhez. Ideális esetben a platformnak túlélnie kell a zónakimaradásokat.
Az adatplatformot úgy kell megtervezni, hogy megakadályozza a hibás indexek használatát a következtetéshez. Ilyen esetekben könnyen újra kell tudnia építeni az indexet. Az indexnek emellett támogatnia kell az indexek közötti megbízható felcserélést olyan funkciók használatával, mint az aliasolás, hogy minimalizálja az állásidőt az indexcserék során. E funkció nélkül előfordulhat, hogy az index biztonsági mentésére kell támaszkodnia. A biztonsági mentések kezelése összetettebb.
Számítási feladatok szempontjából ismerje meg a lehetséges meghibásodási módokat vagy stresszmutatókat, például a szabályozást. Bár például a rendszer általában 50 egyidejű felhasználót támogat, előfordulhat, hogy csak 30 felhasználót támogat egy háttérfeladatként futó újraindexelési folyamat során. Ebben az esetben a háttérfeladat időzítése válik fontossá. Az indexek átviteli sebességének kiértékelésekor az előtérbeli lekérdezéseket és a háttérfeladatokat is tartalmaznia kell.
Mik ennek a technológiának a fő költségtényezői?
A költségek modellezésekor becsülje meg az adatok mennyiségével, a lekérdezések számával és az index várható átviteli sebességével kapcsolatos költségeket. Ne feledje, hogy az indexek többnyire szolgáltatásként nyújtott platform (PaaS), ahol a díjszabás absztrakcióra kerül. Kutatási szintek és képességeik a nem használt kapacitások vagy szolgáltatások túlfizetésének elkerülése érdekében.
Az AI Search például egységekként számláz, amely magában foglalhatja a kapacitást, az átviteli sebességet és a tárolást. Az extra funkciók további díjakhoz vezethetnek. A képkinyerési funkciók széles körű használata például magas számlát eredményezhet. Az index hatókörén kívül eső, de az adatfeldolgozás részét képező függőségek, például a képességkészlet funkció, többletköltségeket okozhatnak.
Ha a teljes kapacitás használata nélkül fizet egy rétegért, az túlfizetéshez vezethet. Hasonlóképpen, az indexben lévő táblák száma és az egyidejű forgalom kezelése hatással van a költségekre.
Az AI-kereséssel kapcsolatos költségek megismeréséhez tekintse meg az AI-Search szolgáltatás költségeinek tervezését és kezelését.
Az index biztonsági funkciói megfelelnek a biztonsági adatok tervezésének?
Az adattervnek egyértelműen meg kell adnia a biztonsági és adatvédelmi követelményeket. Az olyan fejlesztési és tesztelési környezetekben, ahol valós éles adatokat használnak, az indexnek támogatnia kell azokat a képességeket, amelyek megfelelnek az összes hozzáférés-vezérlési és nyomonkövethetőségi intézkedésnek. Tekintse át az olyan biztonsági funkciókat, mint az adatmaszkolás és a személyes adatok eltávolítása az indexben.
Válasszon egy indexet, amely képes egyedileg azonosítani az ügyfeleket a Microsoft Entra-azonosítón keresztül. A keresési indexnek támogatnia kell a dokumentumszintű hozzáférés-vezérlőket is, hogy identitások alapján lehessen lekérdezni a relevanciát. Ha az index nem kínálja ezeket a funkciókat, módosítsa a tervet, hogy hasonló képességeket érjen el a lekérdezési szűrőkkel. További információ: Biztonsági szűrők az AI-keresés eredményeinek levágásához.
Ideális esetben a keresési indexnek igazodnia kell a hálózati biztonsági követelményekhez. Ha például szűrnie kell a nem Microsoft-webhelyekre irányuló kimenő forgalmat, és fenn kell tartania a megfigyelhetőséget, az indexnek kimenő vezérlőket kell kínálnia. A hálózat szegmentálását is támogatnia kell. Ha a háttérbeli számítás egy virtuális hálózatban található, a kulcsösszetevők privát kapcsolata, beleértve az indexet is, elengedhetetlen a nyilvános internetnek való kitettség elkerülése érdekében. Az indexnek könnyen integrálhatónak kell lennie a magánhálózatokkal, és támogatnia kell a felügyelt identitásokat a Microsoft Entra ID-n keresztüli hitelesítéshez.
Szolgáltatástárolók megfontolandó szempontjai
A diszkriminatív modellek esetében az adatterv tartalmazhat egy köztes adattárat, amely további pontosítás céljából gyorsítótárazza az adatokat. Ez az áruház, más néven funkciótároló lehetővé teszi, hogy az adatelemzők az összesített adattáron kívül, végső lépésként tárolják a funkciókat.
A funkciótár segítségével több felhasználási mód adatait is katalógusba rendezheti olyan metaadatok hozzáadásával, mint a létrehozási idő és a forrás. Ez a köztes kezdőhely ideális az arany betanítási adatokhoz.
A Machine Learning kezelt funkciótár egy adattárolási lehetőség, amely integrálható az MLflow-jal és más eszközökkel. Beolvassa és betanítja az adatokat az összesített adattárból, és hozzáad egy újrafelhasználható réteget a jobb adatkiképzéshez és a gépi tanuláson belüli formális azonosításhoz.
Ha szolgáltatástárolót használ, biztonsági és hozzáférési szempontokat figyelembe véve kezelje adattárként.
Offline következtetéses adattár megfontolandó szempontjai
Bizonyos esetekben a különálló tároló használata megfelelő a gyorsabb jövőbeli keresésekhez, mivel a következtetés előre összegyűjtött és előre kiszámított adatokon történik. Ebben a folyamatban a felhasználói kérés soha nem éri el az AI-modellt. Számos előnye van:
- Jobb hatékonyság és felhasználói élmény a késés csökkentésével. Az eredmények gyorsabban jelennek meg a gyakori lekérdezések esetében, például gyakori kérdéseket generálnak az eredményként.
- A következtetési hívások kötegfolyamatként egyszerűbben skálázhatók a valós idejű feldolgozás korlátozása nélkül.
- Lehetővé teszi a prevalidációt a pontosság biztosításához az éles környezet előtt.
- Mivel a kérés nem az interferenciavégpontra irányul, csökkenti a terhelést, ami hozzájárul a számítási feladat megbízhatóságához.
- Költséghatékonyabb lehet, mivel csökkenti a valós idejű feldolgozáshoz szükséges nagy teljesítményű hardverek szükségességét.
Ez a megközelítés azonban csak akkor hatékony, ha előre tudja jelezni a lehetséges kéréseket , és az előrejelzések jelentős részét várhatóan a felhasználók kérik. A kevesebb ismétlődő kéréssel rendelkező forgatókönyvek esetében az offline következtetési tároló kevésbé hatékony lehet.
Az ehhez a forgatókönyvhöz tartozó adattárat olvasási műveletekre kell optimalizálni, képesnek kell lennie nagy mennyiségű adat kezelésére és hatékony lekérésre. Az összesített adattárba is integrálhatónak kell lennie. Az ilyen képességekkel rendelkező tárolók, például az Azure Cosmos DB vagy akár egy táblatároló is tekinthetők.
Források
Ezek a cikkek további részleteket nyújtanak az Azure-termékekről, amelyeket a cikkben tárgyalt szempontokhoz technológiai lehetőségekként ajánlunk.
- Machine Learning
- Blob Storage
- Azure Databricks
- Data Factory
- AI-keresés
- Azure Cosmos DB
- Azure Cache for Redis