다음을 통해 공유


Genie 공간에서 벤치마크 사용

이 문서에서는 벤치마크를 사용하여 Genie 공간의 정확도를 평가하는 방법을 설명합니다.

개요

벤치마크를 사용하면 Genie의 전반적인 응답 정확도를 평가하기 위해 실행할 수 있는 테스트 질문 집합을 만들 수 있습니다. 가장 자주 묻는 사용자 질문을 다루는 잘 설계된 벤치마크 집합은 지니 공간을 다듬을 때 그 정확도를 평가하는 데 도움이 됩니다.

벤치마크 질문은 새 대화로 실행됩니다. Genie 대화 스레드와 동일한 맥락을 가지고 있지 않습니다. 각 질문은 제공된 예제 SQL 및 SQL 함수를 포함하여 공간에 정의된 지침을 사용하여 새 쿼리로 처리됩니다.

9개 질문에 대한 정확도가 보고된 예제 벤치마크.

벤치마크 질문 추가

벤치마크 질문은 사용자가 묻는 일반적인 질문을 관용구로 사용하는 다양한 방법을 반영해야 합니다. 이를 사용하여 질문 구문 또는 다른 질문 형식의 변형에 대한 Genie의 응답을 확인할 수 있습니다.

벤치마크 질문을 만들 때 선택적으로 결과 집합이 정답인 SQL 쿼리를 포함할 수 있습니다. 벤치마크를 실행하는 동안 SQL 쿼리의 결과 집합과 Genie에서 생성된 결과 집합을 비교하여 정확도를 평가합니다.

벤치마크 질문을 추가하려면 다음 단계를 수행합니다.

  1. Genie 공간의 왼쪽 사이드바에서 벤치마크 아이콘을 클릭합니다.

  2. 질문 탭을 클릭한 다음, 벤치마크 추가를 클릭합니다.

  3. 질문 필드에 테스트할 벤치마크 질문을 입력합니다.

  4. (선택 사항) 입력한 질문에 정확하게 대답하는 SQL 문을 입력합니다.

    참고 항목

    이 단계는 권장됩니다. 이 예제 SQL 문을 포함하는 질문만 정확도를 자동으로 평가할 수 있습니다. SQL 답변이 포함되지 않은 모든 질문에는 수동 검토가 필요합니다.

  5. (선택 사항) 실행 클릭하여 쿼리를 실행하고 결과를 봅니다.

  6. 편집을 마쳤으면 벤치마크 추가를 클릭합니다.

  7. 저장한 후 질문을 업데이트하려면 편집 아이콘 연필 아이콘을 클릭하여 업데이트 질문 대화 상자를 엽니다.

벤치마크를 사용하여 대체 질문 구문 테스트

Genie 공간의 정확도를 평가할 때 실제 시나리오를 반영하도록 테스트를 구성하는 것이 중요합니다. 사용자는 다른 방법으로 동일한 질문을 할 수 있습니다. Databricks는 동일한 질문의 여러 구문을 추가하고 벤치마크 테스트에서 동일한 예제 SQL을 사용하여 정확도를 완전히 평가하는 것이 좋습니다. 대부분의 Genie 공간에는 동일한 질문의 2~4개 구문이 포함되어야 합니다.

벤치마크 질문 실행

Genie 공간에서 편집할 수 있는 권한이 있는 사용자는 언제든지 벤치마크 실행을 만들 수 있으며, 이는 모든 벤치마크 질문에 대해 자동으로 평가됩니다. 각 벤치마크 질문을 평가하기 위해 먼저 Genie에 질문을 제출한 다음, Genie 결과를 벤치마크와 비교합니다. 다음 레이블 중 하나가 각 벤치마크에 적용됩니다.

  • 양호: Genie에서 생성된 쿼리 결과가 제공된 SQL 답변의 결과와 일치하면 응답이 이 레이블로 표시됩니다. 응답이 올바른으로 표시되었을 때, 이는 정렬 순서나 열 이름에 관계없이 행 값이 정확하게 일치한다는 의미입니다.
  • 검토 필요: Genie가 정확성을 평가할 수 없거나 Genie에서 생성된 쿼리 결과가 제공된 SQL 답변의 결과와 일치하지 않는 경우 응답이 이 레이블로 표시됩니다. 생성된 응답에 테이블 차원이 예기치 않게 변경되거나 제공된 SQL 답변이 있는 경우 질문을 검토용으로 표시할 수 있습니다. SQL 답변이 포함되지 않은 벤치마크 질문은 수동으로 검토해야 합니다.
  • 불량: 응답은 자동으로 불량으로 표시되지 않습니다. Genie에서 생성된 쿼리 결과가 제공된 SQL Answer결과 집합과 일치하지 않으면 질문은 검토 필요로 표시됩니다. 이러한 벤치마크를 검토할 때 Genie의 생성된 쿼리 결과가 질문의 답변이라고 생각되지 않으면 결과를 불량으로 표시할 수 있습니다.

모든 벤치마크 질문을 실행하려면 다음을 수행합니다.

  1. 화면 왼쪽 근처의 Genie 공간 사이드바에서 벤치마크 아이콘벤치마크를 클릭합니다.
  2. 벤치마크 실행을 클릭하여 테스트 실행을 시작합니다.

참고 항목

이 페이지를 닫으면 벤치마크 실행이 자동으로 일시 중지됩니다. 페이지를 다시 열 때 테스트를 다시 시작할 수 있습니다.

벤치마크 평가 액세스

모든 벤치마크 평가에 액세스하여 시간 경과에 따른 Genie 공간의 정확도를 추적할 수 있습니다. 지니 공간의 왼쪽 사이드바에서 벤치마크 아이콘을 클릭하면 평가 탭에 시간이 기록된 평가 실행 목록이 표시됩니다. 평가 실행이 없는 경우 벤치마크 질문 추가 또는 벤치마크 질문 실행을 참조하세요.

다음 텍스트에 설명된 평가 화면입니다.

평가 탭에는 다음 범주에 보고된 평가 및 성능에 대한 개요가 표시됩니다.

평가 이름: 평가 실행이 발생한 시기를 나타내는 타임스탬프입니다. 타임스탬프를 클릭하여 해당 평가에 대한 세부 정보를 확인합니다. 실행 상태: 평가가 완료, 일시 중지 또는 실패했는지 여부를 나타냅니다. 평가 실행에 미리 정의된 SQL 답변이 없는 벤치마크 질문이 포함된 경우 이 열에서 검토용으로 표시됩니다. 정확도: 모든 벤치마크 질문에 대한 정확도의 숫자 평가입니다. 수동 검토가 필요한 평가 실행의 경우 해당 질문을 검토한 후에만 정확도 측정값이 나타납니다. 작성자: 평가를 실행한 사용자의 이름을 나타냅니다.

개별 평가 검토

개별 평가를 검토하여 각 응답을 자세히 살펴볼 수 있습니다. 질문에 대한 평가를 편집하고 수동 검토가 필요한 항목을 업데이트할 수 있습니다.

개별 평가를 검토하려면 다음을 수행합니다.

  1. 화면 왼쪽 근처의 Genie 공간 사이드바에서 벤치마크 아이콘벤치마크를 클릭합니다.

  2. 평가 이름 열에서 평가의 타임스탬프를 클릭하면 해당 테스트 실행에 대한 자세한 보기가 열립니다.

    단일 평가 실행의 결과를 보여 주는 화면입니다. 모든 질문이 왼쪽에 나열됩니다. 해당하는 경우 개별 질문은 모델 출력 및 실측 자료와 함께 오른쪽에 표시됩니다.

  3. 화면 왼쪽 근처에 있는 질문을 클릭하여 관련 세부 정보를 확인합니다. 평가 세부 정보 화면을 사용하여 다음 단계를 수행합니다.

  4. 모델 출력 응답을 검토하고 실측 자료 응답과 비교합니다.

    참고 항목

    이러한 응답의 결과는 1주일 동안 평가 세부 정보에 표시됩니다. 1주일 후에는 결과가 더 이상 표시되지 않습니다. 생성된 SQL 문과 예제 SQL 문이 남아 있습니다.

  5. 레이블에서 편집 아이콘을 클릭하여 평가를 편집합니다.

    각 결과를 Good 또는 Bad 표시하여 이 평가에 대한 정확한 점수를 얻습니다.