Slide 1. 프리뷰

한 줄 설명

실행 중인 LUMI FastAPI와 내부 service surface를 실제로 두드려, 질문 실행 -> 채점 -> 비교 분석 -> 보고서 생성까지 분리한 모델 평가 워크스페이스

핵심 메시지

LGEA는 챗봇 기능을 하나 더 붙인 프로젝트가 아니라, 서비스가 어떤 질문에서 어떻게 무너지는지 반복 가능하게 확인하는 평가 체계입니다.

내 역할 요약


Slide 2. 왜 LGEA가 따로 필요했는가

문제

LUMI를 서비스로 운영하는 것과, 그 서비스가 어떤 질문에서 어떤 표면에서 약해지는지 평가하는 것은 다른 일입니다. 서비스 코드 안에 평가 로직을 섞으면 재현성이 깨지고, 응답을 한 번 확인한 뒤 끝나는 식의 테스트로 남기 쉽습니다.

해결하지 않으면 생기는 결과

flowchart LR
    A[서비스 운영 코드만 존재] --> B[평가 로직이 산발적으로 섞임]
    B --> C[같은 조건 재실행 어려움]
    C --> D[표면별 응답 차이 추적 어려움]
    D --> E[가드레일 평가 근거 약화]