앤트로픽의 클로드, 프롬프트 플레이그라운드 추가로 AI 앱 개선 속도 높인다

sw_reporter

프롬프트 엔지니어링은 작년 AI 업계에서 주요 직업 중 하나가 되었지만, 앤트로픽(Anthropic)이 이 작업을 부분적으로 자동화하는 도구를 개발하고 있는 것으로 보인다.

회사 블로그 게시물에 따르면, 앤트로픽은 개발자들이 자체 언어 모델인 클로드(Claude)를 활용해 더 유용한 애플리케이션을 만들 수 있도록 화요일(Tuesday) 여러 신규 기능을 공개했다. 이제 개발자들은 클로드 3.5 소넷(Claude 3.5 Sonnet)을 사용하여 프롬프트 엔지니어링 기법을 활용해 프롬프트를 생성, 테스트, 평가할 수 있으며, 이를 통해 더 나은 입력을 만들고 전문적인 작업에 특화된 클로드의 답변을 개선할 수 있다.

언어 모델은 작업 요청에 상당히 유연하지만, 때로는 프롬프트의 문구를 조금만 수정해도 결과에 큰 개선이 생길 수 있다. 일반적으로 이러한 문구 개선은 개발자 스스로가 찾거나 프롬프트 엔지니어를 고용해야 하는 일이었지만, 이 새로운 기능은 개선점을 쉽게 발견할 수 있도록 빠른 피드백을 제공한다.

이 기능들은 앤트로픽 콘솔(Anthropic Console) 내의 새로운 'Evaluate' 탭에 포함되어 있다. 콘솔은 클로드 기반 제품 구축을 원하는 기업을 위한 스타트업의 테스트베드다. 5월에 공개된 기능 중 하나는 앤트로픽 자체 프롬프트 생성기로, 사용자가 작업에 대한 짧은 설명을 제공하면 앤트로픽 자체의 프롬프트 엔지니어링 기술을 활용하여 훨씬 길고 상세한 프롬프트를 자동으로 구성해 준다. 앤트로픽은 이러한 도구가 프롬프트 엔지니 자체를 완전히 대체할 수는 없겠지만, 신규 사용자에게는 도움이 되고 숙련된 프롬프트 엔지니어의 시간을 절약해 줄 것이라고 밝혔다.

'Evaluate' 섹션에서는 개발자가 자신의 AI 애플리케이션 프롬프트를 다양한 시나리오에서 얼마나 효과적으로 작동하는지 테스트할 수 있다. 개발자는 실제 사례를 테스트 스위트에 업로드하거나, 클로드에게 AI 생성 테스트 케이스 목록을 요청하여 테스트할 수 있다. 이후 다양한 프롬프트의 효과를 나란히 비교하고 샘플 답변에 대해 5점 척도로 평가할 수 있다.

(프롬프트는 생성된 데이터를 입력받아 우수하거나 부적절한 답변을 찾아내는 역할을 수행한다.)

실제 사례를 예로 들면, 한 개발자는 자신들의 애플리케이션이 여러 테스트 케이스에서 지나치게 짧은 답변을 내보내는 문제를 발견했다. 이 개발자는 프롬프트의 한 줄만 수정하여 답변이 길어지도록 만들었고, 이를 모든 테스트 케이스에 일괄 적용할 수 있었다. 이는 특히 프롬프트 엔지니어링 경험이 적거나 없는 개발자에게 상당한 시간과 노력을 절약해 준다.

앤트로픽의 CEO 겸 공동 창업자인 다리오 아모데이(Dario Amodei)는 올해 초 구글 클라우드 넥스트(Google Cloud Next) 인터뷰에서 프롬프트 엔지니어링이 생성형 AI의 광범위한 기업 도입에 필수적인 요소 중 하나라고 강조한 바 있다. 아모데이는 "겉보기에는 간단해 보이지만, 프롬프트 엔지니어와의 30분 작업만으로 이전에 작동하지 않던 애플리케이션이 작동하게 되는 경우가 많다"고 말했다.

[출처:] https://techcrunch.com/2024/07/09/anthropics-claude-adds-a-prompt-playground-to-quickly-improve-your-ai-apps