Megosztás a következőn keresztül:


Szemantikai rangsorolás az Azure AI Searchben

Az Azure AI Searchben a szemantikai rangsoroló egy olyan funkció, amely mérhetően javítja a keresési relevanciát a Microsoft nyelvfelismerési modelljeinek használatával a keresési eredmények újraértelmezéséhez. Ez a cikk egy magas szintű bevezetés a szemantikai rangsoroló viselkedésének és előnyeinek megértéséhez.

A szemantikai rangsoroló egy prémium szolgáltatás, amelyet használat alapján számlázunk ki. Ezt a cikket a háttérhez ajánljuk, de ha inkább az első lépéseket szeretné elvégezni, kövesse az alábbi lépéseket.

Feljegyzés

A szemantikai rangsoroló nem használ generatív AI-t vagy vektorokat. Ha vektorokat és hasonlósági keresést keres, a részletekért tekintse meg az Azure AI Search vektorkeresési funkcióját.

Mi az a szemantikai rangsor?

A szemantikai rangsoroló olyan lekérdezésoldali képességek gyűjteménye, amelyek javítják a szövegalapú lekérdezések, vektoros lekérdezések és hibrid lekérdezések kezdeti BM25- vagy RRF-rangsorolt keresési eredményeinek minőségét. Ha engedélyezi a keresési szolgáltatásban, a szemantikai rangsorolás kétféleképpen terjeszti ki a lekérdezés-végrehajtási folyamatot:

  • Először másodlagos rangsort ad hozzá a BM25 vagy a Reciprocal Rank Fusion (RRF) használatával pontozott kezdeti eredményhalmazhoz. Ez a másodlagos rangsor a Microsoft Bingből adaptált többnyelvű mélytanulási modelleket használja a szemantikailag legrelevánsabb eredmények népszerűsítéséhez.

  • Másodszor, a válaszban feliratokat és válaszokat nyer ki és ad vissza, amelyeket megjeleníthet egy keresési oldalon a felhasználói keresési élmény javítása érdekében.

Íme a szemantikai reranker képességei.

Funkció Leírás
L2 rangsorolás A lekérdezés kontextusát vagy szemantikai jelentését használja egy új relevanciapont kiszámításához az előre megadott eredményekhez.
Szemantikai feliratok és kiemelések Szó szerinti mondatokat és kifejezéseket nyer ki olyan mezőkből, amelyek a legjobban összefoglalják a tartalmat, és kiemeli a főbb részeket a könnyű vizsgálat érdekében. Az eredményeket összegző feliratok akkor hasznosak, ha az egyes tartalommezők túl sűrűek a keresési eredmények oldalához. A kiemelt szöveg megemeli a legrelevánsabb kifejezéseket és kifejezéseket, hogy a felhasználók gyorsan megállapíthassák, miért tekintették relevánsnak egyezést.
Szemantikai válaszok Egy szemantikai lekérdezésből visszaadott opcionális és extra alstruktúra. Közvetlen választ ad egy kérdésnek tűnő lekérdezésre. Megköveteli, hogy egy dokumentumnak a válasz jellemzőivel rendelkező szöveggel kell rendelkeznie.

A szemantikai rangsoroló működése

A szemantikai rangsoroló lekérdezéseket és eredményeket ad át a Microsoft által üzemeltetett nyelvfelismerési modelleknek, és jobb egyezéseket keres.

Az alábbi ábra a koncepciót ismerteti. Vegye figyelembe a "tőke" kifejezést. Különböző jelentéssel rendelkezik attól függően, hogy a kontextus pénzügyi, jogi, földrajzi vagy nyelvtani. A nyelvi megértés révén a szemantikai rangsoroló képes észlelni a kontextust, és előléptetni a lekérdezési szándéknak megfelelő eredményeket.

A környezet vektoros ábrázolásának ábrája.

A szemantikai rangsorolás erőforrás- és időigényes is. Annak érdekében, hogy a lekérdezési művelet várt késésén belül befejeződjön a feldolgozás, a szemantikai rangsoroló bemenetei összevonódnak és csökkennek, hogy az újrarankálási lépés a lehető leggyorsabban befejeződhessen.

A szemantikai rangsorolásnak három lépése van:

  • Bemenetek gyűjtése és összegzése
  • Eredmények pontszáma a szemantikai rangsoroló használatával
  • Újra felvett eredmények, feliratok és válaszok kimenete

A bemenetek gyűjtése és összegzése

A szemantikai rangsorolásban a lekérdezési alrendszer a keresési eredményeket adja át az összegzési és rangsorolási modellek bemeneteként. Mivel a rangsorolási modellek bemeneti méretkorlátokkal rendelkeznek, és intenzíven dolgoznak fel, a keresési eredményeknek méretezve és strukturálva kell lenniük (összegezve) a hatékony kezelés érdekében.

  1. A szemantikai rangsoroló egy szöveges lekérdezésből származó BM25-rangsorolt eredménnyel kezdődik, vagy egy vektorból vagy hibrid lekérdezésből származó RRF-rangsorolt eredménnyel . Az újraküldési gyakorlatban csak szövegmezőket használnak, és csak az első 50 találat halad át a szemantikai rangsorolásig, még akkor is, ha az eredmények 50-nél több találatot tartalmaznak. A szemantikai rangsorban használt mezők általában tájékoztatóak és leíróak.

  2. A keresési eredményekben szereplő összesítő modell legfeljebb 2000 tokent fogad el, ahol egy jogkivonat körülbelül 10 karakterből áll. A bemenetek a szemantikai konfigurációban felsorolt "title", "keyword" és "content" mezőkből állnak össze.

  3. A túlzottan hosszú sztringek levágása biztosítja, hogy a teljes hossz megfeleljen az összegzési lépés bemeneti követelményeinek. Ez a vágási gyakorlat miatt fontos mezőket hozzáadni a szemantikai konfigurációhoz prioritási sorrendben. Ha nagyon nagy méretű dokumentumokkal rendelkezik, amelyekben nagy a szöveges mezők száma, a maximális korlátot követő összes dokumentum figyelmen kívül lesz hagyva.

    Szemantikai mező Jogkivonat korlátja
    "cím" 128 token
    "kulcsszavak 128 token
    "tartalom" fennmaradó jogkivonatok
  4. Az összegző kimenet egy összegző sztring minden dokumentumhoz, amely az egyes mezők legfontosabb információiból áll. A rendszer összefoglaló sztringeket küld a rangsorolónak a pontozáshoz, valamint a gépi olvasási szövegértési modelleknek a feliratok és válaszok megjelenítéséhez.

    2024 novemberétől a szemantikai rangsorolónak átadott összes generált összesítő sztring maximális hossza 2048 jogkivonat. Korábban 256 token volt.

A rangsor pontozásának menete

A pontozás a feliraton, valamint az összegző sztring minden más tartalman keresztül történik, amely kitölti a 2048-ra vonatkozó tokenhosszt.

  1. A feliratok a megadott lekérdezéshez képest fogalmi és szemantikai relevancia alapján lesznek kiértékelve.

  2. Minden dokumentumhoz egy @search.rerankerScore van hozzárendelve a dokumentum szemantikai relevanciája alapján az adott lekérdezéshez. A pontszámok 4 és 0 között (magastól alacsonyig) terjednek, ahol a magasabb pontszám nagyobb relevanciát jelez.

    Pontszám Értelmezés
    4,0 A dokumentum rendkívül releváns, és teljes mértékben megválaszolja a kérdést, bár a szakasz a kérdéstől független további szöveget tartalmazhat.
    3,0 A dokumentum releváns, de nem tartalmaz olyan részleteket, amelyek teljessé tennék.
    2,0 A dokumentum kissé releváns; részben vagy csak a kérdés bizonyos aspektusaira válaszol.
    1.0 A dokumentum a kérdéshez kapcsolódik, és egy kis részét megválaszolja.
    0,0 A dokumentum irreleváns.
  3. Az egyezések csökkenő sorrendben jelennek meg pontszám alapján, és szerepelnek a lekérdezési válasz hasznos adatai között. A hasznos adatok tartalmazzák a válaszokat, az egyszerű szöveget és a kiemelt feliratokat, valamint azokat a mezőket, amelyeket lekérdezhetőként jelölt meg, vagy amelyeket egy kijelölési záradékban megadott.

Feljegyzés

Bármely adott lekérdezés esetében a @search.rerankerScore eloszlásai az infrastruktúra szintjén lévő feltételek miatt enyhe eltéréseket mutathatnak. A rangsorolási modell frissítései is ismertek, hogy hatással vannak a disztribúcióra. Ezen okok miatt, ha egyéni kódot ír a minimális küszöbértékekhez, vagy beállítja a vektoros és hibrid lekérdezések küszöbértéktulajdonságát , ne tegye túl részletessé a korlátokat.

Szemantikai rangsoroló kimenetei

Az összesítő sztringben a gépi olvasási szövegértési modellek a leginkább reprezentatív részeket találják meg.

A kimenetek a következők:

  • A dokumentum szemantikai felirata . Minden felirat egyszerű szöveges és kiemelt verzióban érhető el, és dokumentumonként gyakran kevesebb, mint 200 szó.

  • Nem kötelező szemantikai válasz, feltéve, hogy megadta a answers paramétert, a lekérdezés kérdésként jelent meg, és egy szakasz található a hosszú sztringben, amely valószínűleg választ ad a kérdésre.

A feliratok és válaszok mindig szó szerinti szövegként jelennek meg az indexből. Ebben a munkafolyamatban nincs olyan generatív AI-modell, amely új tartalmat hoz létre vagy állít össze.

Szemantikai képességek és korlátozások

A szemantikai rangsoroló egy újabb technológia, ezért fontos elvárásokat támasztani azzal kapcsolatban, hogy mit tehet és mit nem. A következő műveletekre képes:

  • Az eredeti lekérdezés szándékához szemantikusan közelebb álló egyezések előléptetése.

  • Feliratként és válaszként használandó sztringek keresése. A válaszban feliratok és válaszok jelennek meg, és megjeleníthetők a keresési eredmények oldalán.

Amit a szemantikai rangsoroló nem tud elvégezni, az az, hogy újrafuttatja a lekérdezést a teljes korpuszon, hogy szemantikailag releváns eredményeket találjon. A szemantikai rangsorolás a meglévő eredményhalmazt irányítja át, amely az alapértelmezett rangsorolási algoritmus által elért 50 legjobb eredményből áll. Emellett a szemantikai rangsoroló nem tud új információkat vagy sztringeket létrehozni. A feliratok és válaszok szó szerint kinyerhetők a tartalomból, így ha az eredmények nem tartalmaznak válaszszerű szöveget, a nyelvi modellek nem hoznak létre egyet.

Bár a szemantikai rangsorolás nem minden esetben előnyös, bizonyos tartalmak jelentősen kihasználhatják képességeiket. A szemantikai rangsoroló nyelvi modelljei az információban gazdag és prózaként strukturált kereshető tartalmakon működnek a legjobban. Egy leíró tartalmat tartalmazó tudásbázis, online dokumentáció vagy dokumentum a szemantikai rangsoroló képességeiből származó legnagyobb nyereséget látja.

Az alapul szolgáló technológia a Bing és a Microsoft Research szolgáltatásból származik, és bővítményként integrálható az Azure AI Search-infrastruktúrába. A szemantikai rangsorolót háttérbe fektető kutatásokkal és AI-befektetéssel kapcsolatos további információkért lásd : Hogyan működik a Bing AI-ból az Azure AI Search (Microsoft Research Blog).

Az alábbi videó áttekintést nyújt a képességekről.

Rendelkezésre állás és díjszabás

A szemantikai rangsoroló az alapszintű és a magasabb szintű keresési szolgáltatásokban érhető el, a regionális rendelkezésre állás függvényében.

Ha engedélyezi a szemantikai rangsorolót, válasszon egy tarifacsomagot a funkcióhoz:

  • Alacsonyabb lekérdezési köteteken (havonta 1000 alatt) a szemantikai rangsor ingyenes.
  • Nagyobb lekérdezési kötetek esetén válassza ki a standard tarifacsomagot.

Az Azure AI Search díjszabási oldala a különböző pénznemek és intervallumok számlázási arányát mutatja.

A szemantikai rangsoroló díjai akkor merülnek fel, ha a lekérdezési kérések belefoglalják queryType=semantic , és a keresési sztring nem üres (például search=pet friendly hotels in New York). Ha a keresési sztring üres (search=*), akkor sem kell fizetnie, még akkor sem, ha a queryType szemantikai értékre van állítva.

A szemantikai rangsoroló használatának első lépései

  1. Ellenőrizze a regionális rendelkezésre állást.

  2. Jelentkezzen be az Azure Portalra , és ellenőrizze, hogy a keresési szolgáltatás alapszintű vagy magasabb-e.

  3. Engedélyezze a szemantikai rangsorolót, és válasszon egy tarifacsomagot.

  4. Szemantikai rangsoroló konfigurálása keresési indexben.

  5. Lekérdezések beállítása szemantikai feliratok és kiemelések visszaadásához.

  6. Igény szerint szemantikai válaszokat ad vissza.

Lásd még