Az Azure-beli AI-számítási feladatok adattervezésének alapozása

Cikk
11/19/2024

Az MI-alkalmazások esetében az adattervezés jól megtervezett keretrendszerbeli megközelítésének foglalkoznia kell a nem funkcionális követelményekkel, például az üzemeltetési, költség- és biztonsági követelményekkel, és be kell tartania az Azure Jól megtervezett keretrendszer alappilléreinek alapelveit. Figyelembe kell vennie az olyan funkcionális követelményeket is, mint az adatbetöltés, az előkészítés és az ellenőrzés.

A választott AI-modell hatással van a későbbi adattervezési döntésekre. Ez a cikk az olyan alapmodellek fő architekturális szempontjait ismerteti, amelyek az eredmény relevanciájának javítása érdekében bővítést igényelnek. Ezek a modellek általában generatívak.

A Generatív AI-modellek előre összeállítottak vagy előre betanítottak, így módosítások nélkül azonnal használhatja őket. A beépített modellek azonban gyakran nem felelnek meg bizonyos számítási feladatokra vonatkozó követelményeknek. A probléma megoldásához a modellek környezetspecifikus adatokkal bővülnek a teljesítmény javítása érdekében. Használhatja például a GPT-modellt különböző használati esetekben. Ezek az alkalmazások magukban foglalják az információk dokumentumokból való lekérését, az informatikai ügyfélszolgálat támogatásának biztosítását és az összetett információk összegzését. Ahhoz, hogy alapmodelleket használjon az ön igényeinek megfelelően, fontos tisztában lenni ezekkel a szempontokat.

Fontos

Az adattervezés egy statisztikai kísérletezésen alapuló iteratív folyamat. A Generatív AI-alkalmazások lekérdezéseket küldenek a modellnek, amely tartalmazza a parancssori és a környezeti adatokat. Az adattervezés finomítása érdekében a parancssori és a környezeti adatokat is iteratednek kell lenniük. Az iteratív folyamatnak tartalmaznia kell az előfeldolgozást, a beágyazások kiválasztását és az adattömböket. Ezek a lépések segítenek az indexnek megfelelő adatok létrehozásában. További információ: Lekéréses kiterjesztett generációs (RAG) megoldás tervezése és fejlesztése.

A kísérletezés és az iteráció során tartsa szem előtt a használati eseteket. Módosítsa az adattervet a tényleges lekérdezési minták alapján. Pontosítással és teszteléssel meghatározhatja, hogy mi elfogadható.

A megoldásban generatív AI- és diszkriminatív AI-modellek kombinációját használhatja a számítási feladatokra vonatkozó követelmények teljesítéséhez. További információ a betanítási adatokról: Betanítási adatok tervezése.

Ajánlások

Íme a cikkben szereplő javaslatok összegzése.

Ajánlás	Leírás
Felhasználói lekérdezések várhatók.	Megismerheti a forrásadatokkal és azok frissességgel kapcsolatos elvárásaival kapcsolatos kérdések várható típusait. Ez a megértés segít megtervezni az adatfolyamokat és az indexeket, hogy releváns földi adatokat biztosítson.
Adatok külső létrehozása keresési indexbe.	Ahelyett, hogy közvetlenül a forrásrendszerből kérdezi le, használjon keresési indexet. Értékelje ki a különböző indexelési technológiákat a számítási feladatokra vonatkozó követelmények alapján. Hozzon létre egy képességmátrixot, amely felméri az igényeinek leginkább megfelelőt. Fontolja meg az olyan hatékony keresési indexelési technológiákat, mint az Elasticsearch vagy az AI Search. ▪ Indexelő
Betöltési stratégia kidolgozása.	Átfogó indexkezelési stratégia kidolgozása, amely az adatbetöltést és az előfeldolgozást ismerteti. Távolítsa el a zajos vagy irreleváns adatokat az inkonzisztenciák és duplikációk kezelése, valamint egy közös sémára való szabványosítás révén. Forrásformátumok és -típusok konvertálása adattípusokká, amelyek megkönnyítik a lekérdezést és az elemzést. ▪ Adatok előkészítése ▪ Adatkötet újramásolása
Tervezheti meg az indexet a maximális relevancia érdekében.	A lekérdezés hatékonyságának növelése érdekében engedélyezze az olyan funkciókat, mint a szűrés, a rendezés és a metaadatok kezelése adott mezőkön. A mezőket például csak akkor lehet kereshetőként megjelölni, ha keresni szeretne rajtuk. A szükségtelen tárolási költségek elkerülése érdekében ne tegyen minden mezőt lekérthetővé egy adott használati eset nélkül. ▪ Sématerv ▪ Indexelési képességek ▪ Hatékony lekérdezés
Frissítse az indexet, hogy megakadályozza az elavult adatokra való következtetést.	Az indexek frissítésekor érdemes lehet egymás mellett üzembe helyezési stratégiát alkalmazni a karbantartáshoz. Az index újraépítése biztosítja a törlések és frissítések kezelését, mivel az index friss adatkészlet lesz. Ez a módszer lehetővé teszi az adatok alapos tesztelését az index élessé tétele előtt. Amikor módosítja az indexeket, koordinálja a sémamódosításokat a kódfrissítésekkel. Ez a gyakorlat biztosítja a zökkenőmentes áttűnést. ▪ Indexkarbantartás

Adattípusok

Bővítheti a generatív AI-modelleket, ha környezeti adatokat használ a következtetés során, vagy egy finomhangolási folyamattal tovább optimalizálja őket. Mindkét megközelítéshez kiegészítő adatokra van szükség, amelyek több kontextust biztosítanak a modell számára. A modell ezt a kontextust használja a felhasználói lekérdezés megválaszolásához, és az elvárásoknak megfelelően adja meg a választ. Általában a következő adattípusokat használja:

A forrásadatok éles környezetben meglévő adatok. Ezek az adatok strukturálhatók, például adatbázisokban lévő adatok vagy részben strukturált, például JSON-fájlok. Strukturálatlan is lehet, például dokumentumok, képek és hangfájlok.
A földi adatok olyan forrásadatokból származnak, amelyek a modell kezdeti betanítási adataiban nem szereplő témakörökre vonatkozó információkat tartalmaznak. A földelési adatok a felhasználói lekérdezéssel kombinálva létrehoznak egy kérést, amelyet egy adott következtetési hívás kontextusában küldenek a nagy nyelvi modellnek. A következtetési hívásba belefoglalható egyéb adatok közé tartoznak a rendszerkérések, az egy-lövéses vagy a kevés lövésű példák, valamint a környezetfüggő adatok, például a korábbi interakciók.

Az adatoknak könnyen kereshetőnek és gyorsan lekértnek kell lenniük. Emiatt a követelmény miatt az adatokat egy keresésre optimalizált indexben kell tárolnia. Ez az index valós időben érhető el, amíg a felhasználó megvárja a választ. Ezen adatok nélkül előfordulhat, hogy a modell helytelen eredményeket eredményez, vagy nem alkalmazható arra, amit a felhasználó kifejezetten keres.
Az adatok finomhangolása olyan információk, amelyek befolyásolják a modellt, hogy alkalmazkodni tudjanak bizonyos feladatokhoz, tartományokhoz vagy válaszstílusokhoz a jövőbeli következtetési kérelmekhez. Ha például a modellnek egy adott nyelvtani stílusban kell választ adnia, akkor ez a stíluskalauz finomhangolási adatokként szolgálna.
A felhasználói adatok olyan információkat tartalmaznak, amelyeket a felhasználók az alkalmazással folytatott interakciók során nyújtanak. Amikor generatív modelleket használ, állapotalapú interakciók lépnek fel. Ezek a modellek nem rendelkeznek belső memóriával, és minden interakciót atomiként kezelnek.

Az állapotalapú interakciók(más néven TURN-adatok ) csevegőalkalmazásokban való kezelésekor fontos, hogy a szükséges legrövidebb ideig tárolja az adatokat. Ideális esetben ezeket az adatokat a munkamenet befejezése után el kell pusztítani. Előfordulhatnak azonban működési vagy megfelelőségi okok, amelyek miatt bizonyos adatokat, például az eredeti kérdést vagy a modell válaszát a munkamenet időtartamán túl is meg kell őriznie. Ha lehetséges, ne tárolja ezeket az adatokat a munkameneten túl.

Indexelés

Az adattervezés lényege az alapadatok hatékony tárolása és kezelése. Ez a megközelítés biztosítja, hogy az adatok bővíthetők legyenek a legmagasabb szintű relevancia elérése érdekében.

Egy egyszerű AI-stratégia magában foglalhatja az egyes felhasználói műveletek forrásadatainak lekérdezését. Ez a megközelítés azonban nem praktikus a közvetlen adatforrás-interakciók magas költségei és összetettsége miatt. Ehelyett a forrásadatokat másolatként kell visszakeresnie egy olyan indexben, amely a keresésre és a lekérésre van optimalizálva. Ennek a megközelítésnek az a célja, hogy javítsa a modell érthetőségét és a releváns válaszok létrehozására való képességét.

Fontolja meg a banki számítási feladatokat, amelyek a felhasználói bankszámlákkal, preferenciákkal és pénzügyi tranzakciókkal kapcsolatos adatokat tárolják egy adattárban. RAG-mintát használó generatív AI-forgatókönyvekben a rendszer létrehozza és indexeli az adatokat a környezettel, hogy a modell releváns válaszokat adjon. Ha például a következtetés során releváns adatokat ad meg a felhasználói tranzakciókról a környezethez, a modell megválaszolhatja a felhasználó utolsó negyedévi kiadási mintáival kapcsolatos kérdéseket.

Specializált index technológia

Fontolja meg a földelési adatok keresési indexre való külsősítését. Ezt a módszert használja ahelyett, hogy közvetlenül a forrásrendszerből kérdezi le.

A keresési index használatának számos előnye van. Az adatok másolatát modellezheti és átalakíthatja a várt lekérdezések szerint. A közvetlen lekérdezések az elsődleges forráshoz problémásak, mert előfordulhat, hogy a forrásadatok nem érhetők el. Az index biztosítja, hogy az adatok mindaddig elérhetők maradnak, amíg Ön relevánsnak tartja az alkalmazást. A forrásadatrendszert sem kell hangsúlyoznia. Ez a stratégia biztosítja, hogy az AI-hez kapcsolódó lekérdezések ne befolyásolják az elsődleges használati esetet.

Egyes technológiai lehetőségek önindexelési képességekkel rendelkeznek. Az indexek elérhetik az adatforrásokat, és beépíthetik az adataikat. Ebben a beállításban a hálózati szempontok a legfontosabbak. Ha az indexnek adatbázisokhoz kell csatlakoznia, lehetséges problémák merülnek fel, például hálózati késés és megbízhatóság.

Az adatok importálásának kezdeti költsége van. Miután az adatok az indexben vannak, nem kell újra áthelyeznie, hacsak nincsenek módosítások vagy frissítések. Az idő múlásával történő adatkezelés az indextervezés kulcsfontosságú eleme. További információ: Indexkarbantartás.

Alapértelmezett vagy egyéni index

Bizonyos technológiák támogatják az adatok alapértelmezett indexének automatikus kiépítését. Ez az index minimális bemenettel rendelkező adatbetöltéskor jön létre. Az index beépített képességekkel rendelkezik. Az alapértelmezett index elfogadható lehet a fogalmak és egyes éles forgatókönyvek igazolásához.

Egyes forgatókönyvek esetében előfordulhat, hogy egyéni indexsémával kell rendelkeznie a relevancia adott számítási feladatokra vonatkozó követelményei alapján történő javítása érdekében. Ezek a követelmények határozzák meg a séma tervezésének módját, az indexelési képességek engedélyezését és a releváns metaadatok használatát.

Sématerv

Az indexek olyan struktúráknak tekinthetők, amelyek rendszerezik és optimalizálják az adatokat a lekéréshez. Pontosabban egy tábla dokumentumaiban és mezőiben rendezik az adatokat. Vegye figyelembe a következő szempontokat:

Indextopológia. Annak kiértékelése, hogy az összes adatot egyetlen indexben szeretné-e áthelyezni, vagy több index között szeretné-e elosztani. Ez a döntés jelentősen befolyásolja a lekérdezés teljesítményét, az indexkarbantartást, a lekérdezés egyszerűségét és a dokumentumok közötti eltérő mezőkonfigurációt (vagy sémát).

Vegyük például azokat a felhasználói lekérdezéseket, amelyek egy adott nyelven kérnek tartalmat. A legegyszerűbb adattervezési lehetőség az, hogy az összes nyelvet egyetlen nyelvre fordítja, és egyetlen indexben tárolja. Vagy az adatok tárolhatók minden nyelven egyetlen indexben. Ez a választás több dokumentumot eredményez minden nyelvhez. Az index szűrési képessége a kívánt nyelvre korlátozhatja az eredményeket. Másik lehetőségként az egyes indexek egy adott nyelv lefordított verzióit is tartalmazhatják a lekérdezésben várt módon.

Bizonyos esetekben több keresési indexre is szükség lehet. Ez a módszer lehetővé teszi az egyes indexek egymástól függetlenül történő optimalizálását a keresési lekérdezések maximális relevanciájának érdekében. A HR-alkalmazottak kézikönyve és a termékkarbantartási kézikönyv például különböző célokat és célközönségeket szolgál. Ha külön indexeli őket, testre szabhatja a sémát és a lekérdezéseket, ami javítja a felhasználói élményt. Ez a megközelítés összetett lehet, és egy vezénylőre van szükség az egyes indexek hívásának megkönnyítéséhez. A vezénylési összetevőt az Azure-beli AI-számítási feladatok alkalmazástervezésében ismertetjük.

Feljegyzés

A két topológia és az adatszegmentálási stratégia közötti választás a számítási feladatok követelményeitől, a használati esetektől és a felhasználói elvárásoktól függ.

Az indexek közötti lekérdezések végrehajtása kihívást jelenthet, és hatással lehet a keresési relevanciára. Legrosszabb esetben előfordulhat, hogy manuális szitálás történik az eredmények között, és eldöntik, hogy melyek felelnek meg a feltételeknek. Ez a folyamat késést eredményez, és összetettebbé teszi a folyamatot. Ezzel szemben egyetlen indexelési megközelítés egyszerűbb és egyszerűbb. A relevancia az indexelési képességek, például a szűrés használatával javítható.

Bizonyos esetekben a megfelelőségi szempontok miatt külön indexekre van szükség. Ha például az üzleti követelmények megkövetelik, hogy az adatok elkülönítve legyenek Európa és Amerika között, több index is elkerülhetetlen lehet.

Dokumentumterv. A relevancia optimalizálásához igazítsa az adattervet a várt felhasználói lekérdezésekkel. Fontolja meg, hogy az egyes dokumentumok hogyan szolgálják ki a lekérdezéseket. Keresési indexek esetén rangsorolja a releváns dokumentumokat, és pontosítsa az eredményeket egy tömör halmazra, amely sűrűn tele van releváns információkkal.
Mezőtervezés. Konfigurálja az indexmezőket a keresési teljesítmény és a relevancia támogatásához. Az indexmezőknek le kell képeznie a kereshető, lekérdezhető, szűrhető és rendezhető dokumentumattribútumokat. Ezek közé tartoznak a beágyazások, azonosítók vagy bármely más olyan adat, amely növelheti a keresést.

Indexelési képességek

Konfigurálja a keresési index mezőit, hogy a legrelevánsabb dokumentumkészletet adja vissza. A döntés azon képességektől függ, amelyeket a keresési index technológiája és a számítási feladatokra vonatkozó követelmények támogatnak.

Szűrési, keresési és rendezési beállítások. Vegye figyelembe ezeket a lehetőségeket, mert közvetlenül kapcsolódnak a kibővített használati esetekhez. A szűrhető például igaz vagy hamis értéket határoz meg a lekérdezésben megadott érték alapján, és releváns dokumentumokat ad vissza. A kereshetőség érdekében az attribútum azt jelzi, hogy a keresési lekérdezés hivatkozhat-e a mezőre. Például ellenőrizheti, hogy egy szövegmező adott szöveget tartalmaz-e, vagy matematikailag kapcsolódik-e egy másik vektorhoz. A keresési lekérdezés részeként igény szerint relatív súlyt rendelhet hozzá ehhez a mezőhöz. Az eredményhalmazokat rendezhetővé is teheti, amelyek relevancia alapján sorolják fel az eredményeket.

Üzlet. A mezők indexelési képességeinek engedélyezése növeli a térkövetelményeket, ami hatással van a költségekre. Csak a használni kívánt képességeket adja hozzá.
Metaadatok. Az indexek általában indexmezőkkel társított metaadatokkal rendelkeznek. A metaadatok segítenek nekünk az adatok megértésében és kezelésében azáltal, hogy releváns adatokat adnak meg róluk. Indexek tervezésekor fontolja meg, hogy a metaadatok lekértek-e vagy csak a relevancia meghatározására szolgálnak. A döntés azért befolyásolja a számítási költségeket, mert az alapul szolgáló indexelési folyamat eltérő. A túlzott metaadatok szükségtelenül növelhetik az index méretét.

Az indexeléshez számos technológiai lehetőség közül választhat. Sokan hasonló jellemzőkkel rendelkeznek, mint például a korábban felsoroltak. Egyes indexek további funkciókkal is rendelkezhetnek, például szövegfeldolgozással és nyelvelemzéssel az indexelés során. Ha a szöveget alkalmasabbá szeretné tenni az indexelésre és keresésre, törje fel a szöveget jogkivonatokra, alakítsa át kisbetűssé, vagy távolítsa el a leállító szavakat.

Hatékony lekérdezés

A földelési adatokat a generatív AI-alkalmazásokban használják a felhasználói lekérdezésekre adott válaszok pontosságának és relevanciájának növeléséhez. Fontolja meg a felhasználói lekérdezéseket előre. Megtudhatja, hogy milyen kérdéseket tehet fel, ki kérdezi fel őket, és milyen gyakran kérdezik őket. Ez az információ segít az alkalmazás űrlapkörnyezetének megértésében, és annak megértésében, hogy milyen eredmények lehetnek relevánsak.

A keresések tipikus típusai a következők:

A vektoros lekérdezések hasonló elemeket keresnek a vektoros ábrázolásuk vagy a nagy dimenziójú tér adatpontjai alapján.
A kulcsszókeresés a szöveges dokumentumok teljes tartalmában keres. Nagy mennyiségű szöveges adatot indexel és lekérdez, és gyakran használják keresőmotorokban, adatbázisokban és dokumentumkezelő rendszerekben.
A szemantikai rangsorolás javítja a keresési eredmények relevanciáját azáltal, hogy a szemantikai relevanciája alapján átrendezi őket a lekérdezéshez, így a legszemantiálisabb találatok a lista elejére mutatnak.
A hibrid keresés kombinálja a különböző keresési típusokat, például a vektoros keresést, a teljes szöveges keresést és a szemantikai rangsorolást a keresési eredmények relevanciájának további javítása érdekében.

A modell teljesítményének további javítása érdekében egyesítse a keresési típusokat.

Az adatok tárolásának és feldolgozásának módja lekérdezési hatékonyság. Minden alkalommal, amikor adatokat adnak hozzá egy indexhez, számítási ciklusokra van szükség az indexeléshez. Ha a lekérdezések indexelése és megválaszolása ugyanazon számítási erőforrásokon történik, akkor versengés is előfordulhat. Ideális esetben az indexnek a lekérdezések hatékony megválaszolásának és a releváns dokumentumok megkeresésének elsődleges céljára kell összpontosítania a túlzott indexelés helyett.

A költség és a teljesítmény az indextervezés fő mozgatórugói. Az olyan technikák, mint az árnyékmásolatok létrehozása, felgyorsíthatják a lekérdezést. Az adatok duplikálása azonban indexeken keresztül történik, ami költségekkel jár.

Üzlet. Az index kialakításának figyelembe kell vennie a költségeket és a teljesítményt is. Egyensúlyba hozhatja a tárterületet, és rangsorolhat hatékony lekérdezési választ és releváns dokumentumlekérést a túlzott indexeléssel szemben.

Az adattárhoz kapcsolódó technológiai lehetőségekhez a keresési indexek, például az Elasticsearch vagy az AI Search hatékony keresési lehetőségeket biztosítanak, beleértve a vektoros és relevanciaalapú kereséseket is. Másik lehetőségként fontolja meg az adatbázis-beállításokat, amelyek támogatják a rendelkezésére álló adatok típusát és a szükséges lekérdezéstípusokat, mivel ezek lekérdezésre vannak optimalizálva. Végső soron a lehetőségek által kínált képességekről és az új képességkészletek csapatra történő kiépítésének befektetéséről van szó.

Adatok előkészítése

Az adatok földelése meglévő adatokon alapul, amelyeket szemantikai lekérdezésre kell alkalmassá tenni. Az indexben lévő releváns dokumentumok megkeresésére vonatkozó lekérdezések lehetnek szó szerinti egyeztetések. Más lekérdezésekhez homályos egyeztetésre van szükség.

Mielőtt a környezetfüggő adatok készen állnak a modellre irányuló következtetési kérelmek támogatására, van egy előzetes előfeldolgozási lépés, amelynek célja az adatok tisztítása, átalakítása és strukturálása. A cél a zaj és az elfogultság csökkentése, a hatékony keresés és az indexkeresések relevanciájának maximalizálása. Az előfeldolgozáshoz használt választási eszközök vagy logika a számítási feladatok csapatától függ, de van néhány általános szempont.

Adatkötet újramásolása

Az adatkötet újramásolása magában foglalja az adatok hatókörének módosítását azáltal, hogy kibővíti vagy szűkíti azokat egy szűk index létrehozásához, hogy a relevancia nőjön. A lekérdezés hatékonysága egy másik fontos szempont. A szükségtelen adatok tárolása negatívan befolyásolja mindkét célt. Vegyük például egy felhasználó helyadatait. Ha csak a városrész releváns, optimalizálja az optimalizálást úgy, hogy csak a város szövegét tárolja a címnek megfelelő teljes szöveg helyett.

Íme néhány általános szempont.

Adateliminálás. A felesleges részletek elvetésével csak azt őrizze meg, ami a termék működéséhez elengedhetetlen. Íme néhány gyakori példa.
- Minőségi elimináció. A széles hatókörről egy szűkebb relatívre való áttérés egyik módja az alacsony minőségű adatok kiküszöbölése úgy, hogy szelektíven csak a releváns forrásadatok indexelése mellett dönt. A kihívás az AI-forgatókönyvek szempontjából nem releváns tartalmak programozott azonosításában rejlik. Bár a tartalom hasznos lehet más szándékokhoz, például a naplózáshoz vagy a teljességhez, beleértve az AI-számítási feladatokban, csökkentheti a relevanciát. Az ilyen tartalmak megjelölésének egyik módja a metaadatok használata, amelyek akkor használhatók, ha a tartalmat hozzá kell adni az indexhez.
- Bizalmas adatok. Ha adatokat másol a forrásadatokból egy indexbe, az bizalmas információkat is átvehet. Tartsa tiszteletben a forrásnál alkalmazott adatbesorolási címkéket, és tartsa fenn az adatkészlettel szembeni érzékenységet. Ha személyes adatokat tartalmazó adatokkal foglalkozik, ne tároljon személyes adatokat, kivéve, ha szüksége van rá a lekérdezés megválaszolásához. Az e-mailek indexelésekor például adatbesorolást alkalmazhat. Ha egy e-mail bizalmasként van megjelölve, ne tárolja azt egy általános bizalmassági adattárban.
- Szöveg normalizálása és szabványosítása. Az elírások kezelése és a szöveg szabványosítása kulcsfontosságú a kulcsszóalapú indexek esetében. Lehetséges használati eset a fordítás, különösen többnyelvű tartalom esetén.
  
  A beágyazásokhoz ilyen típusú előfeldolgozásra is szükség van, amely lehetővé teszi a szavak összehasonlítását a környezetük és a jelentőségük alapján. Egy kihívás azonban a szavak kis- és nagybetűinek érzékenysége. A környezet számít, és lehetnek árnyalatok, például a szemantikai különbségek között a melléknév "civic" és a megfelelő főnév "(Honda) Civic."
Adatok hozzáadása. A kiterjesztett környezet gyakran metaadatokra támaszkodik, amelyek általában nem szerepelnek a forrásadatokban. Vegyük például egy szövegrészletet. A hurokban vagy AI-ben lévő ember releváns kérdéseket hoz létre, amelyek a kódrészlet kontextusával megválaszolhatók. Ha ezeket a kérdéseket a földelési adatok mellett tárolja, a felhasználói lekérdezések összehasonlíthatók a létrehozott lekérdezésekkel a dokumentum relevanciájának kiértékelése érdekében. Az új adatok földelési adatokkal való együttes használata hatékony módszer az adattömbbe dúsított adatok gazdagítására.

Egy másik használati eset a strukturálatlan adatok elemzése során talált összeadási entitások. Ezek az entitások hozzáadhatók az indexhez, és külső rendszerek keresésére és szűrésére, illetve összetett számítások végrehajtására használhatók. Ha például azonosítunk egy vállalatnevet, megkereshetjük az iparágát vagy más releváns információkat egy külső adatbázisból, és hozzáadhatjuk azt az indexünkhöz.

Fontolja meg az adatsorok karbantartását. Fontos, hogy az AI-számítási feladatok nyomon kövessék az adatforrást, mert ezek az információk elveszhetnek, ha egy rendszer különböző összetevőket összesít egy indexben. Előfordulhat, hogy ezek az információk soha nem lesznek elérhetők a felhasználók számára, de az adatok eredetére vonatkozó információk kulcsfontosságúak a belső adatszabályozási csapatok számára. Ez a metaadatok nem feltétlenül a modellhez valók. Segít fenntartani az átláthatóságot és az elszámoltathatóságot.

Üzlet. Az új adatok hozzáadása egyrészt növeli az adathalmazon belüli relevancia megállapításának esélyét. Ennek az előnynek azonban ára van. Pontosabban a mező feldolgozásához és kezeléséhez szükséges számítási erőforrások. Az adatok gyűjtésével és tárolásával töltött idő jelentős lehet. Vegye figyelembe, hogy a felesleges mezők túlterhelése megterhelheti az erőforrásokat.
Szövegadatok feldolgozása. A relevancia javítása érdekében fontolja meg az olyan technikákat, mint a szinonimák, a eredet és a szemantikai közelség. Ha lehetséges, delegálhatja ezeket a technikákat az eszközökre. Egyes technológiák, például az Elasticsearch vagy az AI-keresés, ilyen funkciókat kínálnak az adatok előfeldolgozásához az index létrehozása során.

Adattípus alakváltása

Az adattár indexmezői egy adott cél érdekében adattípussal vannak beállítva. A numerikus mezők megkönnyítik a hatékony lekérdezést, a szöveges mezők lehetővé teszik a szöveges kereséseket, a logikai mezők pedig bináris információkat kezelnek.

A forrásadatok általában különböző típusú adatokban léteznek, például szövegben, képekben és táblázatokban, és az adatok feldolgozása összetett lehet. Előfordulhat, hogy kulcs-érték párokat kell kinyernie, azonosítania kell a szemantikai adattömbök szakaszfejléceit, fel kell ismernie bizonyos azonosítókat stb.

Ha például a forrásadatok képeket tartalmaznak, azok eredendően nem kereshetők. Ezeket vektoros ábrázolásokká kell konvertálni, hogy hatékony szemantikai kereséseket és összehasonlításokat lehessen lehetővé tenni. Ha a relevancia a formátumok mögötti adatokhoz van kötve, fektetjen be az adatok kinyerésébe. Alakítsa át a forrásadattípusokat funkcionális adattípusokká, amelyek segítenek a lekérdezésben és az elemzésben.

Adattömb és beágyazás

A földelési adatok gyakran nagy mennyiségű információt tartalmaznak, de a modell csak egy bizonyos mennyiséget képes tokenizálni. Az adattömbök fontos adattervezési stratégia, mivel magában foglalja a dokumentumok kisebb darabokra való felosztását, amelyek egyenként feldolgozhatók és indexelhetők. Ez a stratégia lehetővé teszi a jogkivonatok korlátozásai ellenére a hatékony keresést és lekérést. Ellenőrizze, hogy a választott nagy nyelvi modell hány jogkivonatot képes kezelni. Az adattömbök nem léphetik túl ezt a korlátot.

Az adattömb-készítés számos technikát alkalmaz. További információkért lásd az adattömbök megközelítéseit.

A beágyazások szintén egy másik tervezési stratégia, amely lehetővé teszi a vektorkeresési képességeket. A beágyazások egy olyan objektum matematikai ábrázolása, amelyet az AI-modellek a földelési adatok alapján hoznak létre. Ezek az indexben vannak tárolva, és több kontextust adnak hozzá, amely segít az összetett lekérdezések jobb relevanciájú eredményeket eredményezni. További információ: Beágyazások létrehozása.

Indexkarbantartás

A karbantartás az indexek kialakításának fontos eleme. A statikus adatok esetében, ahol a dokumentumok változatlanok maradnak, az indexkarbantartás egyszerű. A legtöbb index azonban dinamikus. Idővel előfordulhat, hogy új adatok vannak hozzáadva, és az indexséma új mezőket igényelhet. Ezzel szemben előfordulhat, hogy egyes adatokat és mezőket törölni kell, ha már nem relevánsak. Az indexelők gyakran használt technológiai beállításai olyan funkciókkal rendelkeznek, amelyek automatikusan kezelik a frissítéseket. Az ajánlott indextulajdonságokról további információt a keresési indexek szempontjai című témakörben talál.

Karbantartási feltételek

Funkciófrissítések. Előfordulhat, hogy az indexet frissíteni kell, ha megváltozik az alkalmazás működése. Ez a helyzet akkor fordul elő, ha új kérdéseket tesz fel. A módosítások kezeléséhez előfordulhat, hogy új mezőket kell hozzáadnia az indexhez, vagy módosítania kell a meglévő mezők szűrési, keresési vagy szövegfeldolgozási beállításait.
Adattörlés. Az adattörlés nehéz feladat, mert elemeznie kell a rendelkezésre álló és hiányzó adatokat annak meghatározásához, hogy mi az irreleváns. Az elavult tartalom indexből való kizárásához fontolja meg olyan metaadatok használatát, amelyek megakadályozzák, hogy a keresőmotorok adott oldalakat vagy tartalmakat indexeljenek. Emellett a tárolási lehetőségek kiválasztásakor válasszon egy olyan technológiát, amely hatékonyan támogatja a törlést. A Blob Storage például támogatja a helyreállítható törléseket. Ha AI-keresést használ, és a tárolóból tölti be a dokumentumokat, a Blob Storage képes észlelni az eltávolított dokumentumokat, és törölni a megfelelő bejegyzéseket. Ez a megközelítés nem ideális, de a nagy indexméret miatt az újraindexelés költséges.

Az elfeledtetéshez való jog fogalma arra utal, hogy az egyén joga van arra, hogy személyes adatait eltávolítsa az online platformokról vagy adatbázisokból. Győződjön meg arról, hogy rendelkezik szabályzatokkal a személyes adatok eltávolításához, ha azokat betanításra használták. Ezt a követelményt az adathalmaz újraindexelésével oldhatja meg. Ha az adatok törlődnek a tranzakciós adatbázisból, az index későbbi frissítései tükrözik ezeket a változásokat.
Kompatibilitás fenntartása. Az alkalmazások gyakran speciális adatstruktúrákat igényelnek, és bármilyen eltérés megzavarhatja a működésüket. Ha például eltávolít egy mezőt, és az alkalmazás ezt a mezőt kéri, hibaállapot léphet fel. Mint egy hagyományos adatbázis esetében, az indexek kompatibilitásának előrehaladtával és a szigorúság fenntartásával. Amikor módosítja az indexet, például mezőket ad hozzá vagy távolít el, a sémamódosításokat kódfrissítésekkel koordinálja.

Üzlet. Az indexen végzett műveletek hozzáadása, frissítése és törlése költséges. Vegye figyelembe a frissítések gyakoriságát és a teljesítmény költségét az adattár mérete és hatékonysága alapján. Az elavult dokumentumok indexben való megőrzése tárolási, karbantartási és lekérdezési költségeket von maga után.

Üzembe helyezési stratégia

Üzembe helyezési stratégia. Az index frissítésének két fő stratégiája van.

Párhuzamos üzemelő példányok. Ebben a megközelítésben egy új, frissítéseket tartalmazó index a meglévővel együtt él. Az új index tesztelése és teljes körű üzemeltetése után a lekérdezések át lesznek kapcsolva a frissített index használatára. Az alkalmazás nem tud erről a kapcsolóról, mert csak az új indexet használja. Ha az új index éles használatra való üzembe helyezése után további problémákat észlel, visszaállíthatja a régi indexet. Ez a megközelítés minimalizálja az állásidőt és biztosítja a folyamatos rendelkezésre állást.

Az egymás melletti frissítések akkor működnek jól, ha az index újraépítésének költsége ésszerű, és ésszerű időkeretben elvégezhető. Általában törekedjen arra, hogy az indexek a lehető leghatékonyabbak maradjanak, mivel a nagyobb indexek több erőforrást használnak fel. Az indexek rendszeres monitorozása és karbantartása a szükségtelen növekedés elkerülése érdekében.

Tipp.

Ha erőforrás-igényes adatfeldolgozási feladatokat hajt végre, például entitásfelismerést, kereséseket és számításokat, érdemes lehet menteni az eredmények másolatát. Ez a megközelítés biztosítja, hogy ha újra kell építenie az indexet, ne kelljen újra elvégeznie az összes számítást. Előfordulhat, hogy egyes számítások már nem érvényesek a törlés vagy a frissítések miatt, de sokan továbbra is relevánsak maradnak.

Helyszíni frissítéstelepítések. Ez a megközelítés közvetlenül módosítja a meglévő indexet. A duplikációk költségének megtakarítása előnyös lehet, de kockázatot is jelent a lehetséges állásidő és az erőforrás-igényes műveletek miatt. Ha az index nagy méretű, és a nulláról való újraépítés meghaladja a kívánt frissítési gyakoriságot, érdemes lehet helyszíni frissítéseket használnia. Ez a megközelítés azonban kihívást jelent, és fennáll annak a kockázata, hogy megsérti a szolgáltatásiszint-célkitűzést (SLO).

Üzlet. Értékelje az indexek egymás melletti üzembe helyezésének költségeit a hozzáadásokat, frissítéseket és törléseket üzembe helyező helyszíni frissítések elvégzésével szemben. A legtöbb esetben a helyszíni frissítések helyett az egymás melletti frissítéseket kell használnia. Az index újraépítésekor a folyamat hatékonyan kezeli a törléseket és a frissítéseket, mert teljesen új adatkészletet hoz létre. Ez a stratégia lehetőséget nyújt az adatok tesztelésére. Annak ellenére, hogy a párhuzamos üzemelő példányok ideiglenesen duplikálják az adatokat, és további költségekkel járnak, a tesztelés és a teljesítményértékelés előnyei gyakran indokolják ezt a tárolási követelményt. Mielőtt élővé tesz egy indexet, vizsgálja meg az adatokat, hogy az megfeleljen az elvárásainak.
Ütemezett frissítések. Ahelyett, hogy folyamatos, valós idejű kommunikációt folytat az adatforrásokkal, rendszeresen frissítheti a földelési adatokat. Ez a megközelítés biztosítja, hogy az adatok az ütemezett frissítések révén relevánsak maradnak, ami szükségtelenné teszi az állandó interakciót.
Vészhelyzeti frissítések. Váratlan helyzetek fordulhatnak elő, például a nemkívánatos adatok véletlenül kiszivárognak a keresési indexbe. Ha ez a probléma jelentkezik, előfordulhat, hogy azonnali lépéseket kell elvégeznie, például el kell távolítania bizonyos dokumentumokat, vagy módosítania kell az adatokat az indexen belül. Függetlenül attól, hogy milyen üzembehelyezési stratégiát választ, például az egymás melletti frissítéseket vagy a helyszíni frissítéseket, mindig tervezze meg a vészhelyzeti műveletek lehetőségét.
Index önfrissítése. Ha az indexelési technológia támogatja az index automatikus frissítését, hogy az szinkronizálva legyen egy külső adatforrással, előfordulhat, hogy automatikusan feldolgozhatja az adatok változásait. Az adatmódosítások közé tartoznak a hozzáadások vagy törlések, manuális beavatkozás nélkül. Ne feledje, hogy minden változás elindít egy műveletet az indexben, amely erőforrásokat használ fel. Előfordulhat, hogy az index továbbra is reagál a lekérdezésekre, de a frissítési folyamat során csökkenhet a kezelési kapacitása.

Frissességi műveletek

Mérje meg a forrásadatok létrehozása vagy módosítása és az index mutatóként való hozzáadása közötti időkeretet, és kövesse nyomon az SLO-kon. Ez a mutató határozza meg az adatfolyamat-kialakítás frissítésével kapcsolatos adatdöntéseket, így biztosítva, hogy szükség esetén az adatok elérhetők legyenek az indexben. Az indexnek csak a szükséges frissnek kell lennie.

A frissesség fenntartása érdekében újraépítheti az indexet teljesen, vagy növekményesen frissítheti, hogy szinkronizálva maradjon az eredeti adatforrásokkal. Mindkét módszer biztosítja, hogy az index naprakész és pontos maradjon.

A modell finomhangolásába történő előzetes befektetés kevésbé költséges lehet, mint a RAG-minta, a gyors tervezés és az adatnagyobbítási módszerek megvalósítása.

Következő lépések

Tervezési terület: Adatplatform

Megosztás a következőn keresztül: