메트릭 기반 평가#

Pro 및 Enterprise 플랜에서 사용 가능

메트릭 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 등록된 커뮤니티 및 스타터 플랜 사용자도 단일 워크플로우에 대해 사용할 수 있습니다.

메트릭 기반 평가란 무엇인가요?#

워크플로우를 배포할 준비가 되면 빌드할 때보다 더 많은 예제로 테스트하고 싶을 때가 많습니다.

예를 들어, 프로덕션 실행에서 엣지 케이스가 나타나기 시작하면 테스트 데이터 세트에 추가하여 해당 케이스가 포함되었는지 확인하고 싶을 것입니다.

프로덕션 데이터로 구축된 것과 같은 대규모 데이터 세트의 경우 결과를 눈으로만 보고 성능을 파악하기 어려울 수 있습니다. 대신 성능을 측정해야 합니다. 메트릭 기반 평가는 각 테스트 실행에 하나 이상의 점수를 할당할 수 있으며, 이를 이전 실행과 비교할 수 있습니다. 개별 점수는 전체 데이터 세트의 성능을 측정하기 위해 집계됩니다.

이 기능을 사용하면 메트릭을 계산하고, 실행 간에 해당 메트릭이 어떻게 변하는지 추적하고, 변경 원인을 자세히 분석하는 평가를 실행할 수 있습니다.

메트릭은 결정론적 함수(예: 두 문자열 사이의 거리)일 수도 있고 AI를 사용하여 계산할 수도 있습니다. 메트릭에는 출력이 참조 출력(그라운드 트루스라고도 함)에서 얼마나 떨어져 있는지 확인하는 작업이 포함되는 경우가 많습니다. 이렇게 하려면 데이터 세트에 해당 참조 출력이 포함되어야 합니다. 하지만 일부 평가에는 이 참조 출력이 필요하지 않습니다(예: 텍스트의 감성 또는 독성 확인).

작동 방식#

Google Sheets 필요

평가는 Google Sheets를 사용하여 테스트 데이터 세트를 저장합니다. 평가를 사용하려면 Google Sheets 자격 증명을 구성해야 합니다.

라이트 평가 설정
메트릭 계산
메트릭을 평가에 다시 쓰기
평가 실행 및 결과 보기

1. 라이트 평가 설정#

설정 지침에 따라 데이터 세트를 만들고 워크플로우에 연결하여 출력을 데이터 세트에 다시 씁니다.

다음 단계에서는 라이트 평가 문서의 동일한 지원 티켓 분류 워크플로우를 사용합니다.

2. 메트릭 계산#

메트릭은 워크플로우의 출력을 평가하는 데 사용되는 차원입니다. 실제 워크플로우 출력을 참조 출력과 비교하는 경우가 많습니다. 메트릭을 계산하는 데 AI를 사용하는 것이 일반적이지만 코드를 사용하는 것도 가능합니다. n8n에서 메트릭은 항상 숫자입니다.

출력을 생성한 후 워크플로우에 대한 메트릭을 계산하는 논리를 추가해야 합니다. 메트릭에서 사용하는 참조 출력을 데이터 세트의 열로 추가할 수 있습니다. 이렇게 하면 평가 트리거에 의해 출력되므로 워크플로우에서 사용할 수 있습니다.

예시:

정확성: 출력의 의미가 참조 출력과 일치하는지 여부.
분류: 출력이 예상 출력과 정확히 일치하는지 여부.
유용성: 답변이 질문을 다루는지 여부.
문자열 유사성: 출력이 참조 출력과 얼마나 가까운지를 문자별로 측정합니다.
도구 호출: 에이전트가 올바른 도구를 호출했는지 여부.
RAG 문서 관련성: 벡터 데이터베이스로 작업할 때 검색된 문서가 질문과 관련이 있는지 여부.
RAG 답변 기반성: 벡터 데이터베이스로 작업할 때 답변이 검색된 문서에 "기반"하는지 여부.

메트릭을 계산하면 대기 시간과 비용이 추가될 수 있으므로 평가를 실행할 때만 수행하고 프로덕션 실행을 할 때는 피하는 것이 좋습니다. '평가 중인지 확인' 작업 뒤에 메트릭 논리를 배치하여 이 작업을 수행할 수 있습니다.

3. 메트릭을 평가에 다시 쓰기#

n8n은 2단계에서 계산한 메트릭을 추출하는 방법을 알아야 합니다. '메트릭 설정' 작업으로 평가 노드를 추가하고 메트릭을 매핑하여 이 작업을 수행합니다.

이 지원 티켓 분류 워크플로우는 '출력 설정' 작업이 추가되고 연결된 것을 보여줍니다. 이 워크플로우의 메트릭은 실제 출력이 예상 출력과 정확히 일치하는지 확인하기만 하므로 워크플로우는 워크플로우에 노드를 더 추가하는 대신 '메트릭 설정' 노드의 표현식에서 계산합니다.

4. 평가 실행 및 결과 보기#

워크플로우의 평가 탭으로 전환하고 평가 실행 버튼을 클릭합니다. 평가가 시작됩니다. 평가가 완료되면 각 메트릭에 대한 요약 점수가 표시됩니다.

테스트 실행 행을 클릭하여 각 테스트 케이스의 결과를 볼 수 있습니다. 개별 테스트 케이스를 클릭하면 해당 테스트 케이스를 생성한 실행이 (새 탭에서) 열립니다.