개요#
평가란 무엇인가요?#
평가는 AI 워크플로우가 신뢰할 수 있는지 확인하는 중요한 기술입니다. 불안정한 개념 증명과 견고한 프로덕션 워크플로우의 차이가 될 수 있습니다. 빌드 단계와 프로덕션 배포 후 모두 중요합니다.
평가의 기본은 테스트 데이터 세트를 워크플로우를 통해 실행하는 것입니다. 이 데이터 세트에는 여러 테스트 케이스가 포함되어 있습니다. 각 테스트 케이스에는 워크플로우에 대한 샘플 입력이 포함되어 있으며 예상 출력도 포함되는 경우가 많습니다.
평가를 통해 다음을 수행할 수 있습니다.
- 다양한 입력에 대해 워크플로우를 테스트하여 엣지 케이스에서 어떻게 수행되는지 알 수 있습니다.
- 자신감을 갖고 변경하여 다른 곳에서 의도치 않게 상황을 악화시키지 않습니다.
- 다른 모델이나 프롬프트와 성능 비교
다음 비디오에서는 평가가 무엇인지, 왜 유용한지, 어떻게 작동하는지 설명합니다.
평가가 필요한 이유는 무엇인가요?#
AI 모델은 근본적으로 코드와 다릅니다. 코드는 결정론적이며 추론할 수 있습니다. LLM은 블랙박스이기 때문에 이것이 어렵습니다. 대신 데이터를 실행하고 출력을 관찰하여 LLM 출력을 측정해야 합니다.
프로덕션에서 처리해야 할 모든 엣지 케이스를 정확하게 반영하는 여러 입력에 대해 모델을 실행한 후에야 모델이 안정적으로 수행된다는 확신을 가질 수 있습니다.
두 가지 유형의 평가#
라이트 평가 (배포 전)#
깨끗하고 포괄적인 데이터 세트를 구축하는 것은 어렵습니다. 초기 빌드 단계에서는 몇 가지 예제를 생성하는 것이 합리적입니다. 이는 워크플로우를 출시 가능한 상태(또는 개념 증명)로 반복하기에 충분할 수 있습니다. 공식적인 메트릭을 설정하지 않고도 결과를 시각적으로 비교하여 워크플로우의 품질을 파악할 수 있습니다.
메트릭 기반 평가 (배포 후)#
워크플로우를 배포하면 프로덕션 실행에서 더 크고 대표적인 데이터 세트를 더 쉽게 구축할 수 있습니다. 버그를 발견하면 이를 유발한 입력을 데이터 세트에 추가할 수 있습니다. 버그를 수정할 때 수정 사항이 의도치 않게 다른 것을 악화시키지 않았는지 확인하기 위해 전체 데이터 세트를 워크플로우에서 다시 실행하는 것이 회귀 테스트로서 중요합니다.
개별적으로 확인하기에는 너무 많은 테스트 케이스가 있으므로 평가는 특정 특성을 나타내는 숫자 값인 메트릭을 사용하여 출력의 품질을 측정합니다. 이를 통해 실행 간의 품질 변화를 추적할 수도 있습니다.
평가 유형 비교#
라이트 평가 (배포 전) | 메트릭 기반 평가 (배포 후) | |
---|---|---|
반복마다 성능 향상 | 큼 | 작음 |
데이터 세트 크기 | 작음 | 큼 |
데이터 세트 소스 | 수동 생성 AI 생성 기타 |
프로덕션 실행 AI 생성 기타 |
실제 출력 | 필수 | 필수 |
예상 출력 | 선택 사항 | 필수 (일반적으로) |
평가 메트릭 | 선택 사항 | 필수 |
더 알아보기#
- 라이트 평가: 개발 중 수동으로 선택한 테스트 케이스에 대해 AI 워크플로우를 평가하는 데 적합합니다.
- 메트릭 기반 평가: 대규모 데이터 세트와 함께 점수 및 메트릭을 사용하여 프로덕션에서 성능과 정확성을 유지하기 위한 고급 평가입니다.
- 팁 및 일반적인 문제: 특정 평가 사용 사례를 설정하고 일반적인 문제를 해결하는 방법을 알아보세요.