Azure OpenAI-értékelés (előzetes verzió)

Cikk
02/04/2025

A nagy nyelvi modellek kiértékelése kritikus lépés a teljesítmény különböző feladatok és dimenziók közötti mérésében. Ez különösen fontos a finomhangolt modellek esetében, ahol a betanításból származó teljesítménynövekedés (vagy veszteség) értékelése kulcsfontosságú. Az alapos értékelések segíthetnek megérteni, hogy a modell különböző verziói milyen hatással lehetnek az alkalmazásra vagy a forgatókönyvre.

Az Azure OpenAI-értékelés lehetővé teszi a fejlesztők számára, hogy kiértékelési futtatásokat hozzanak létre a várt bemeneti/kimeneti párok teszteléséhez, és értékeljék a modell teljesítményét olyan kulcsfontosságú metrikákban, mint a pontosság, a megbízhatóság és az általános teljesítmény.

Értékelések támogatása

Regionális elérhetőség

USA 2. keleti régiója
USA északi középső régiója
Közép-Svédország
Nyugat-Svájc

Támogatott üzembehelyezési típusok

Standard
Globális szabvány
Adatzóna standard
Kiépített felügyelt
Globálisan kiépített felügyelt
Kiépített adatzóna

Kiértékelési folyamat

Tesztadatok

Össze kell állítania egy alapigazság-adatkészletet, amelyet tesztelni szeretne. Az adathalmaz létrehozása általában egy iteratív folyamat, amely biztosítja, hogy az értékelések relevánsak maradjanak a forgatókönyvek szempontjából. Ez az alapigazság-adatkészlet általában kézzel készült, és a modelltől elvárt viselkedést képviseli. Az adatkészlet is fel van címkézve, és tartalmazza a várt válaszokat.

Feljegyzés

Egyes kiértékelési tesztekhez, például a Sentimenthez és az érvényes JSON-hez vagy XML-hez nincs szükség alapszintű igazságadatokra.

Az adatforrásnak JSONL formátumban kell lennie. Az alábbiakban két példa látható a JSONL-kiértékelési adatkészletekre:

{"question": "Find the degree for the given field extension Q(sqrt(2), sqrt(3), sqrt(18)) over Q.", "subject": "abstract_algebra", "A": "0", "B": "4", "C": "2", "D": "6", "answer": "B", "completion": "B"}
{"question": "Let p = (1, 2, 5, 4)(2, 3) in S_5 . Find the index of <p> in S_5.", "subject": "abstract_algebra", "A": "8", "B": "2", "C": "24", "D": "120", "answer": "C", "completion": "C"}
{"question": "Find all zeros in the indicated finite field of the given polynomial with coefficients in that field. x^5 + 3x^3 + x^2 + 2x in Z_5", "subject": "abstract_algebra", "A": "0", "B": "1", "C": "0,1", "D": "0,4", "answer": "D", "completion": "D"}

Amikor feltölti és kiválasztja a kiértékelési fájlt, a rendszer az első három sor előnézetét adja vissza:

{"input": [{"role": "system", "content": "Provide a clear and concise summary of the technical content, highlighting key concepts and their relationships. Focus on the main ideas and practical implications."}, {"role": "user", "content": "Tokenization is a key step in preprocessing for natural language processing, involving the division of text into smaller components called tokens. These can be words, subwords, or characters, depending on the method chosen. Word tokenization divides text at word boundaries, while subword techniques like Byte Pair Encoding (BPE) or WordPiece can manage unknown words by breaking them into subunits. Character tokenization splits text into individual characters, useful for multiple languages and misspellings. The tokenization method chosen greatly affects model performance and its capacity to handle various languages and vocabularies."}], "output": "Tokenization divides text into smaller units (tokens) for NLP applications, using word, subword (e.g., BPE), or character methods. Each has unique benefits, impacting model performance and language processing capabilities."}      
{"input": [{"role": "system", "content": "Create a comprehensive yet concise summary that captures the essential technical details and significance of the topic."}, {"role": "user", "content": "Self-attention mechanisms are vital in modern transformer models, allowing them to evaluate the relevance of different parts of an input sequence when processing each element. In self-attention, each position in a sequence learns to focus on all other positions, forming a weighted sum of their values. Attention weights are derived using queries, keys, and values, with compatibility between a query and key determining attention to each value. This mechanism enables capturing long-range dependencies and relationships within a sequence, making it effective for tasks needing context understanding and inter-part relationships."}], "output": "Self-attention is crucial in transformers, enabling each sequence position to evaluate and collect data from all others. It uses queries, keys, and values for attention weights, effectively capturing long-range dependencies and contextual links."}      
{"input": [{"role": "system", "content": "Synthesize the technical information into a brief, accurate summary that maintains the core concepts and their significance."}, {"role": "user", "content": "The transformer architecture significantly changed natural language processing by introducing a new method for sequence processing. Unlike recurrent neural networks, transformers process whole sequences at once using self-attention. The architecture consists of an encoder and decoder, each with multiple layers of multi-head attention, feed-forward networks, and normalization layers. The encoder processes the input sequence, and the decoder produces the output sequence. Positional encodings are added to retain sequence order information since the model lacks inherent sequence position awareness. This architecture underlies many leading language models like BERT and GPT."}], "output": "Transformers are a transformative neural architecture processing sequences with self-attention instead of recurrence. Their encoder-decoder design, with multi-head attention and position encodings, is fundamental to modern language models like BERT and GPT."}

A kiértékelési fájl feltöltése és kiválasztásakor a rendszer az első három sor előnézetét adja vissza:

Kiválaszthatja a meglévő, korábban feltöltött adathalmazokat, vagy feltölthet egy új adatkészletet.

Válaszok létrehozása (nem kötelező)

Az értékelésben használt kérésnek meg kell egyeznie az éles környezetben használni kívánt kéréssel. Ezek a kérések megadják a modell követendő utasításait. A játszótéri élményekhez hasonlóan több bemenetet is létrehozhat, hogy néhány példa szerepeljen a parancssorban. További információkért tekintse meg a gyorstervezési technikákat a gyors tervezés és az azonnali tervezés néhány speciális technikájának részleteiért.

A bemeneti adatokra a formátum használatával {{input.column_name}} hivatkozhat, ahol a column_name a bemeneti fájl oszlopainak nevének felel meg.

A kiértékelés során létrehozott kimenetekre a következő lépésekben hivatkozunk a {{sample.output_text}} formátum használatával.

Feljegyzés

Két kapcsos zárójelet kell használnia, hogy biztosan helyesen hivatkozzon az adatokra.

Modell üzembe helyezése

Az értékelések létrehozása során kiválaszthatja, hogy mely modelleket érdemes használni a válaszok létrehozásakor (nem kötelező), valamint hogy mely modelleket érdemes használni a modellek adott tesztelési feltételekkel való besorolásakor.

Az Azure OpenAI-ban konkrét modelltelepítéseket fog hozzárendelni, amelyeket a kiértékelések részeként használ. Egy kiértékelési futtatás során több modelltelepítést is összehasonlíthat.

Kiértékelheti az alapszintű vagy a finomhangolt modelltelepítéseket. A listában elérhető üzemelő példányok az Azure OpenAI-erőforrásban létrehozottaktól függenek. Ha nem találja a kívánt üzembe helyezést, létrehozhat egy újat az Azure OpenAI-kiértékelési oldalról.

Tesztelési feltételek

A tesztelési kritériumok a célmodell által generált egyes kimenetek hatékonyságának felmérésére szolgálnak. Ezek a tesztek összehasonlítják a bemeneti adatokat a kimeneti adatokkal a konzisztencia biztosítása érdekében. Rugalmasan konfigurálhat különböző kritériumokat a kimenet minőségének és relevanciájának különböző szinteken történő teszteléséhez és méréséhez.

Első lépések

Válassza ki az Azure OpenAI-kiértékelési (ELŐZETES VERZIÓ) lehetőséget az Azure AI Foundry portálon. Ha ezt a nézetet lehetőségként szeretné látni, először ki kell választania egy meglévő Azure OpenAI-erőforrást egy támogatott régióban.
Új kiértékelés kiválasztása
Adja meg a kiértékelés nevét. Alapértelmezés szerint a rendszer automatikusan létrehoz egy véletlenszerű nevet, hacsak nem szerkessze és nem cseréli le. Válassza az Új adatkészlet feltöltése lehetőséget.

Válassza ki a formázott .jsonl értékelést. Ha mintatesztfájlra van szüksége, a következő 10 sort mentheti a következő nevű eval-test.jsonlfájlba:

{"input": [{"role": "system", "content": "Provide a clear and concise summary of the technical content, highlighting key concepts and their relationships. Focus on the main ideas and practical implications."}, {"role": "user", "content": "Tokenization is a key step in preprocessing for natural language processing, involving the division of text into smaller components called tokens. These can be words, subwords, or characters, depending on the method chosen. Word tokenization divides text at word boundaries, while subword techniques like Byte Pair Encoding (BPE) or WordPiece can manage unknown words by breaking them into subunits. Character tokenization splits text into individual characters, useful for multiple languages and misspellings. The tokenization method chosen greatly affects model performance and its capacity to handle various languages and vocabularies."}], "output": "Tokenization divides text into smaller units (tokens) for NLP applications, using word, subword (e.g., BPE), or character methods. Each has unique benefits, impacting model performance and language processing capabilities."}      
{"input": [{"role": "system", "content": "Create a comprehensive yet concise summary that captures the essential technical details and significance of the topic."}, {"role": "user", "content": "Self-attention mechanisms are vital in modern transformer models, allowing them to evaluate the relevance of different parts of an input sequence when processing each element. In self-attention, each position in a sequence learns to focus on all other positions, forming a weighted sum of their values. Attention weights are derived using queries, keys, and values, with compatibility between a query and key determining attention to each value. This mechanism enables capturing long-range dependencies and relationships within a sequence, making it effective for tasks needing context understanding and inter-part relationships."}], "output": "Self-attention is crucial in transformers, enabling each sequence position to evaluate and collect data from all others. It uses queries, keys, and values for attention weights, effectively capturing long-range dependencies and contextual links."}      
{"input": [{"role": "system", "content": "Synthesize the technical information into a brief, accurate summary that maintains the core concepts and their significance."}, {"role": "user", "content": "The transformer architecture significantly changed natural language processing by introducing a new method for sequence processing. Unlike recurrent neural networks, transformers process whole sequences at once using self-attention. The architecture consists of an encoder and decoder, each with multiple layers of multi-head attention, feed-forward networks, and normalization layers. The encoder processes the input sequence, and the decoder produces the output sequence. Positional encodings are added to retain sequence order information since the model lacks inherent sequence position awareness. This architecture underlies many leading language models like BERT and GPT."}], "output": "Transformers are a transformative neural architecture processing sequences with self-attention instead of recurrence. Their encoder-decoder design, with multi-head attention and position encodings, is fundamental to modern language models like BERT and GPT."}      
{"input": [{"role": "system", "content": "Distill the technical content into a clear, concise summary that preserves the most important concepts and their practical applications."}, {"role": "user", "content": "Cosine similarity is a metric for measuring similarity between vectors by calculating the cosine of the angle between them. The outcome ranges from -1 to 1, with 1 indicating identical orientation, 0 orthogonality, and -1 opposite orientation. In machine learning and NLP, cosine similarity is useful for comparing document vectors, word embeddings, or any high-dimensional representations. It's often preferred over Euclidean distance because it's invariant to vector magnitude, focusing instead on orientation. This makes it particularly useful for comparing documents or embeddings of various lengths or scales."}], "output": "Cosine similarity evaluates vector similarity by computing their angle's cosine, with values from -1 to 1. It's widely used in ML and NLP for comparing document vectors and embeddings due to its magnitude-invariant nature."}      
{"input": [{"role": "system", "content": "Provide a succinct summary that captures the key technical concepts and their relationships while maintaining clarity and accuracy."}, {"role": "user", "content": "Neural network activation functions are crucial for introducing non-linearity to deep learning models. Commonly used activation functions include ReLU (Rectified Linear Unit), which outputs the input directly if positive and zero otherwise, sigmoid, which compresses values between 0 and 1, and tanh, which normalizes values between -1 and 1. Each function has specific benefits and applications: ReLU avoids vanishing gradients and enables sparse activation, sigmoid is useful for binary classification, and tanh is often used in hidden layers for its zero-centered output. The activation function choice greatly affects model training dynamics and ultimate performance."}], "output": "Activation functions introduce non-linearity to neural networks, with ReLU, sigmoid, and tanh being the most common. Each serves distinct purposes: ReLU prevents vanishing gradients, sigmoid is suitable for binary classification, and tanh offers zero-centered output, all affecting model performance differently."}      
{"input": [{"role": "system", "content": "Create a focused summary that emphasizes the main technical concepts and their practical implications while maintaining accuracy."}, {"role": "user", "content": "Batch normalization is a technique that stabilizes and accelerates deep neural network training by normalizing each layer's inputs. It normalizes activations using the mean and variance computed over the current data batch. This normalization reduces internal covariate shift, where the input distribution changes during training. Batch normalization includes learnable parameters (gamma and beta) allowing the network to reverse normalization if necessary. Benefits include enabling higher learning rates, lessening the importance of precise parameter initialization, and serving as a regularizer, potentially removing the need for dropout."}], "output": "Batch normalization stabilizes neural network training by normalizing layer inputs using batch statistics. It addresses internal covariate shift with learnable parameters, allowing higher learning rates and improved training dynamics, while offering regularization benefits."}      
{"input": [{"role": "system", "content": "Summarize the technical content while preserving the essential concepts and their interconnections, ensuring clarity and precision."}, {"role": "user", "content": "Gradient descent optimization algorithms are foundational to training machine learning models. The basic version updates parameters in the steepest descent direction of the loss function. Variants like Stochastic Gradient Descent (SGD) use random samples to estimate gradients, enhancing computational efficiency. Advanced optimizers like Adam combine momentum (helping overcome local minima) and RMSprop (adapting learning rates for each parameter). These optimizers maintain running averages of gradients and their squares, enabling adaptive learning rates and more efficient training. The optimizer choice can significantly influence model convergence speed and final performance."}], "output": "Gradient descent algorithms optimize ML models by updating parameters based on loss gradients. Variants like SGD use sampling for efficiency, while advanced optimizers like Adam combine momentum with adaptive learning rates for improved training performance."}      
{"input": [{"role": "system", "content": "Deliver a concise yet comprehensive summary that highlights the key technical aspects and their practical significance."}, {"role": "user", "content": "Cross-validation is a resampling method used to evaluate machine learning models on limited data. The most common form, k-fold cross-validation, involves dividing the dataset into k equal parts, training the model on k-1 folds while validating on the remaining fold, and rotating through all combinations. This provides a more robust model performance assessment than a single train-test split, helping detect overfitting and estimate model generalization to unseen data. Variations include stratified k-fold (maintaining class distribution), leave-one-out (k equals dataset size), and time series cross-validation for temporal data."}], "output": "Cross-validation evaluates ML models by training and testing on different data splits, typically using k-fold methodology. This approach offers better performance assessment than single splits, with variations for different data types and requirements."}      
{"input": [{"role": "system", "content": "Generate a clear and focused summary that captures the essential technical details while maintaining their relationships and significance."}, {"role": "user", "content": "Transfer learning is a machine learning method where a model developed for one task is reused as the starting point for a model on a second task. This approach is powerful in deep learning, where pre-trained models on large datasets (like ImageNet for computer vision or BERT for NLP) are fine-tuned on specific downstream tasks. Transfer learning reduces the need for large amounts of task-specific training data and computational resources, as the model has already learned useful features from the source domain. Common strategies include feature extraction (freezing pre-trained layers) and fine-tuning (updating all or some pre-trained weights)."}], "output": "Transfer learning reuses models trained on one task for different tasks, particularly effective in deep learning. It leverages pre-trained models through feature extraction or fine-tuning, reducing data and computational needs for new tasks."}      
{"input": [{"role": "system", "content": "Provide a precise and informative summary that distills the key technical concepts while maintaining their relationships and practical importance."}, {"role": "user", "content": "Ensemble methods combine multiple machine learning models to create a more robust and accurate predictor. Common techniques include bagging (training models on random data subsets), boosting (sequentially training models to correct earlier errors), and stacking (using a meta-model to combine base model predictions). Random Forests, a popular bagging method, create multiple decision trees using random feature subsets. Gradient Boosting builds trees sequentially, with each tree correcting the errors of previous ones. These methods often outperform single models by reducing overfitting and variance while capturing different data aspects."}], "output": "Ensemble methods enhance prediction accuracy by combining multiple models through techniques like bagging, boosting, and stacking. Popular implementations include Random Forests (using multiple trees with random features) and Gradient Boosting (sequential error correction), offering better performance than single models."}

A fájl első három sora előnézetként jelenik meg:

A Válaszok területen válassza a Létrehozás gombot. Válassza {{item.input}} ki a Létrehozás sablon legördülő listából. Ez a kiértékelési fájl bemeneti mezőit injektálja egy új modellfuttatásra vonatkozó egyes kérésekbe, amelyeket össze szeretnénk hasonlítani a kiértékelési adatkészletünkkel. A modell ezt a bemenetet fogja használni, és saját egyedi kimeneteket hoz létre, amelyek ebben az esetben egy úgynevezett {{sample.output_text}}változóban lesznek tárolva. Ezt a mintakimeneti szöveget később fogjuk használni a tesztelési feltételek részeként. Másik lehetőségként manuálisan is megadhat saját egyéni rendszerüzeneteket és egyéni üzenet-példákat.
Válassza ki, hogy melyik modellt szeretné a kiértékelés alapján válaszokat létrehozni. Ha nem rendelkezik modellel, létrehozhat egyet. Ennek a példának a alkalmazásában a standard üzembe helyezést gpt-4o-minihasználjuk.

A beállítások/sprocket szimbólum szabályozza a modellnek átadott alapparamétereket. Jelenleg csak a következő paraméterek támogatottak:

Hőmérséklet
Maximális hossz
Felső P

A maximális hossz jelenleg 2048-nál van leképezve, függetlenül attól, hogy melyik modellt választja.

Válassza a Tesztelési feltételek hozzáadása lehetőséget, és válassza a Hozzáadás lehetőséget.
Válassza a Szemantic Similarity Under Compare add under With add {{sample.output_text}}(Szemantikus hasonlóság>) lehetőséget {{item.output}} a Hozzáadás listában. Ez a kiértékelési .jsonl fájl eredeti referenciakimenetét veszi figyelembe, és összehasonlítja a létrehozandó kimenettel, és a modell kéréseit az Ön {{item.input}}alapján adja meg.
Válassza a Hozzáadás> lehetőséget, ha további tesztelési feltételeket is megadhat, vagy a Létrehozás lehetőséget választva kezdeményezheti a kiértékelési feladat futtatását.
Miután kiválasztotta a Létrehozás lehetőséget, a rendszer a kiértékelési feladat állapotlapjára kerül.
A kiértékelési feladat létrehozása után kiválaszthatja a feladatot a feladat teljes részleteinek megtekintéséhez:
A szemantikai hasonlóság érdekében a nézet kimenetének részletei JSON-reprezentációt tartalmaznak, amelyet átmásolhat/beilleszthet az átmenő tesztekből.

Tesztelési feltételek részletei

Az Azure OpenAI Evaluation több tesztelési feltételt is kínál. Az alábbi szakasz további részleteket tartalmaz az egyes lehetőségekről.

Tényszerűség

A beküldött válaszok ténybeli pontosságának felmérése egy szakértői válasz összehasonlításával.

A tényszerűség egy beküldött válasz ténybeli pontosságát értékeli ki, ha összehasonlítja azt egy szakértői válaszsal. A részletes gondolatláncot (CoT) használó osztályozó megállapítja, hogy a beküldött válasz összhangban van-e a szakértői válasz egy részhalmazával, egy részhalmazával, vagy ütközik-e a szakértő válaszával. Figyelmen kívül hagyja a stílus, nyelvtan vagy írásjelek különbségeit, kizárólag a tényszerű tartalmakra összpontosítva. A tényszerűség számos esetben hasznos lehet, többek között a tartalomellenőrzésre és az AI által biztosított válaszok pontosságát biztosító oktatási eszközökre.

A tesztelési feltételek részeként használt parancssori szöveget a parancssor melletti legördülő listára kattintva tekintheti meg. Az aktuális üzenet szövege a következő:

Prompt
You are comparing a submitted answer to an expert answer on a given question.
Here is the data:
[BEGIN DATA]
************
[Question]: {input}
************
[Expert]: {ideal}
************
[Submission]: {completion}
************
[END DATA]
Compare the factual content of the submitted answer with the expert answer. Ignore any differences in style, grammar, or punctuation.
The submitted answer may either be a subset or superset of the expert answer, or it may conflict with it. Determine which case applies. Answer the question by selecting one of the following options:
(A) The submitted answer is a subset of the expert answer and is fully consistent with it.
(B) The submitted answer is a superset of the expert answer and is fully consistent with it.
(C) The submitted answer contains all the same details as the expert answer.
(D) There is a disagreement between the submitted answer and the expert answer.
(E) The answers differ, but these differences don't matter from the perspective of factuality.

Szemantikai hasonlóság

A modell válasza és a referencia közötti hasonlóság mértékét méri. Grades: 1 (completely different) - 5 (very similar).

Hangulat

Kísérlet a kimenet érzelmi hangnemének azonosítására.

A tesztelési feltételek részeként használt parancssori szöveget a parancssor melletti legördülő listára kattintva tekintheti meg. Az aktuális üzenet szövege a következő:

Prompt
You will be presented with a text generated by a large language model. Your job is to rate the sentiment of the text. Your options are:

A) Positive
B) Neutral
C) Negative
D) Unsure

[BEGIN TEXT]
***
[{text}]
***
[END TEXT]

First, write out in a step by step manner your reasoning about the answer to be sure that your conclusion is correct. Avoid simply stating the correct answers at the outset. Then print only the single character (without quotes or punctuation) on its own line corresponding to the correct answer. At the end, repeat just the letter again by itself on a new line

Sztring ellenőrzése

Ellenőrzi, hogy a kimenet pontosan megfelel-e a várt sztringnek.

A sztringellenőrzés különböző bináris műveleteket hajt végre két sztringváltozón, amelyek lehetővé teszik a különböző kiértékelési kritériumokat. Segít ellenőrizni a különböző sztringkapcsolatokat, beleértve az egyenlőséget, az elszigetelést és a konkrét mintákat. Ez a kiértékelő lehetővé teszi a kis- és nagybetűk megkülönböztetését vagy a kis- és nagybetűk érzéketlen összehasonlítását. Emellett megadott osztályzatokat is biztosít a valódi vagy hamis eredményekhez, így az összehasonlítási eredmények alapján testre szabott kiértékelési eredményeket tesz lehetővé. A támogatott műveletek típusa a következő:

equals: Ellenőrzi, hogy a kimeneti sztring pontosan megegyezik-e a kiértékelési sztringgel.
contains: Ellenőrzi, hogy a kiértékelési sztring a kimeneti sztring részsztringje-e.
starts-with: Ellenőrzi, hogy a kimeneti sztring a kiértékelési sztringgel kezdődik-e.
ends-with: Ellenőrzi, hogy a kimeneti sztring a kiértékelési sztringgel végződik-e.

Feljegyzés

Ha bizonyos paramétereket állít be a tesztelési feltételekben, választhat a változó és a sablon között. Válassza ki a változót , ha a bemeneti adatok egyik oszlopára szeretne hivatkozni. Ha rögzített sztringet szeretne megadni, válassza a sablont .

Érvényes JSON vagy XML

Ellenőrzi, hogy a kimenet érvényes JSON vagy XML-e.

Séma egyezése

Biztosítja, hogy a kimenet a megadott struktúrát kövesse.

Feltételegyezés

Annak felmérése, hogy a modell válasza megfelel-e a feltételeknek. Osztályzat: Pass vagy Fail.

A tesztelési feltételek részeként használt parancssori szöveget a parancssor melletti legördülő listára kattintva tekintheti meg. Az aktuális üzenet szövege a következő:

Prompt
Your job is to assess the final response of an assistant based on conversation history and provided criteria for what makes a good response from the assistant. Here is the data:

[BEGIN DATA]
***
[Conversation]: {conversation}
***
[Response]: {response}
***
[Criteria]: {criteria}
***
[END DATA]

Does the response meet the criteria? First, write out in a step by step manner your reasoning about the criteria to be sure that your conclusion is correct. Avoid simply stating the correct answers at the outset. Then print only the single character "Y" or "N" (without quotes or punctuation) on its own line corresponding to the correct answer. "Y" for yes if the response meets the criteria, and "N" for no if it does not. At the end, repeat just the letter again by itself on a new line.
Reasoning:

Szövegminőség

A referenciaszöveggel összehasonlítva értékelje ki a szöveg minőségét.

Összefoglalás:

BLEU-pontszám: Kiértékeli a létrehozott szöveg minőségét úgy, hogy összehasonlítja egy vagy több kiváló minőségű referenciafordítással a BLEU-pontszám használatával.
ROUGE-pontszám: Kiértékeli a létrehozott szöveg minőségét úgy, hogy összehasonlítja a ROUGE-pontszámokat használó összefoglalókkal.
Koszinusz: A koszinusza hasonlóság azt méri, hogy a két szövegbe ágyazott szöveg – például a modellkimenetek és a referenciaszövegek – milyen közel állnak egymáshoz, segítve a közöttük lévő szemantikai hasonlóság felmérését. Ez úgy történik, hogy a vektortérben mérik a távolságukat.

Részletek:

A BLEU (BiLingual Evaluation Understudy) pontszámot gyakran használják a természetes nyelvi feldolgozásban (NLP) és a gépi fordításban. Széles körben használják a szövegösszesítés és a szöveggenerálás használati eseteiben. Kiértékeli, hogy a létrehozott szöveg mennyire felel meg a referenciaszövegnek. A BLEU pontszáma 0 és 1 között mozog, magasabb pontszámokkal, amelyek jobb minőséget jeleznek.

A ROUGE (visszahívás-orientált alákészletezés a Gisting-kiértékeléshez) az automatikus összegzés és gépi fordítás kiértékeléséhez használt metrikák készlete. Méri a létrehozott szöveg és a referenciaösszegzők közötti átfedést. A ROUGE a visszahívás-orientált intézkedésekre összpontosít annak felmérésére, hogy a létrehozott szöveg mennyire fedi le a referenciaszöveget. A ROUGE-pontszám különböző metrikákat biztosít, például: • ROUGE-1: Unigramok (egyetlen szavak) átfedése a létrehozott és a referenciaszöveg között. • ROUGE-2: A bigramok (két egymást követő szó) átfedése a létrehozott és a referenciaszöveg között. • ROUGE-3: Trigramok (három egymást követő szó) átfedése a létrehozott és a referenciaszöveg között. • ROUGE-4: Négy gramm (négy egymást követő szó) átfedése a létrehozott és a referenciaszöveg között. • ROUGE-5: Öt gramm (öt egymást követő szó) átfedése a létrehozott és a referenciaszöveg között. • ROUGE-L: Az L-gramm (L egymást követő szavak) átfedése a létrehozott és a referenciaszöveg között. A szövegösszesítés és a dokumentumok összehasonlítása a ROUGE optimális használati esetei közé tartozik, különösen olyan helyzetekben, ahol a szöveg koherenciája és relevanciája kritikus fontosságú.

A koszin hasonlóság azt méri, hogy a két szövegbe ágyazott szöveg – például a modellkimenetek és a referenciaszövegek – milyen közel állnak egymáshoz, segítve a köztük lévő szemantikai hasonlóság felmérését. A többi modellalapú kiértékelőhöz hasonlóan a modell üzembe helyezését is ki kell használnia a kiértékeléshez.

Fontos

A kiértékelő csak beágyazási modelleket támogat:

text-embedding-3-small
text-embedding-3-large
text-embedding-ada-002

Egyéni kérés

A modell használatával a kimenetet megadott címkék halmazába sorolja. Ez a kiértékelő egy egyéni kérést használ, amelyet meg kell határoznia.

Megosztás a következőn keresztül:

Azure OpenAI-értékelés (előzetes verzió)

Értékelések támogatása

Regionális elérhetőség

Támogatott üzembehelyezési típusok

Kiértékelési folyamat

Tesztadatok

Kiértékelési formátum

Válaszok létrehozása (nem kötelező)

Modell üzembe helyezése

Tesztelési feltételek

Első lépések

Tesztelési feltételek részletei

Tényszerűség

Szemantikai hasonlóság

Hangulat

Sztring ellenőrzése

Érvényes JSON vagy XML

Séma egyezése

Feltételegyezés

Szövegminőség

Egyéni kérés

Visszajelzés

További források