OpenAI가 비용 효율적인 소형 AI 모델인 GPT-4o mini를 출시했습니다. 이 모델은 백만 개의 입력 토큰당 15센트, 백만 개의 출력 토큰당 60센트로 저렴한 비용에 높은 성능을 제공한다고 합니다. GPT-4o mini는 텍스트 지능과 multimodal 추론에서 뛰어난 성능을 발휘하며, 강력한 안전 조치를 위해 70명 이상의 외부 전문가들이 철저히 테스트를 진행했다고 합니다. 자세한 내용은 곧 공개될 GPT-4o 시스템 카드와 대비 점수 카드에서 확인할 수 있다고 합니다.
OpenAI에서 GPT-3.5 보다 비용이 저렴하면서 성능이 좋은 GPT-4o mini를 선보였습니다. 사용자들은 GPT-3.5 대신 GPT-4o mini를 사용할 수 있게 되었는데요. 정말 Open AI에서 제시한 성능대로 좋은 성능을 보여주는지 GPT-4o mini를 사용해 보면서 비교해보는 것도 좋을 것 같습니다.
출처: GPT-4o mini: advancing cost-efficient intelligence | OpenAI
가장 비용 효율적인 소형 모델을 소개합니다
OpenAI는 인텔리전스를 최대한 광범위하게 액세스할 수 있도록 최선을 다하고 있습니다. 오늘 우리는 가장 비용 효율적인 소형 모델인 GPT-4o mini를 발표합니다. 우리는 GPT-4o mini가 지능을 훨씬 더 적절한 수준으로 만들어 AI로 구축된 애플리케이션의 범위를 크게 확장할 것으로 기대합니다. GPT-4o mini는 MMLU에서 82%의 점수를 얻었으며 현재 LMSYS 리더보드의 채팅 기본 설정에서 GPT-4보다 성능이 뛰어납니다. 가격은 백만 개의 입력 토큰당 15센트, 백만 개의 출력 토큰 당 60센트로 이전 프론티어 모델보다 훨씬 저렴하고 GPT-3.5 Turbo보다 60% 이상 저렴합니다. 1
GPT-4o mini는 여러 모델 호출을 연결하거나 병렬화하는 애플리케이션 (예: 여러 API 호출), 대량의 컨텍스트를 모델에 전달하는 애플리케이션 (예: 전체 코드 베이스 또는 대화 기록), 또는 빠른 실시간 문자 응답(예: 고객 지원 챗봇)을 통해 고객과의 상호 작용과 같이 저렴한 비용과 latency로 광범위한 작업을 가능하게 합니다.
현재 GPT-4o mini는 API에서 텍스트와 비전을 지원하며 향후 텍스트, 이미지, 비디오 및 오디오 입력 및 출력에 대한 지원도 제공될 예정입니다. 이 모델에는 128K 토큰의 컨텍스트 창이 있고 요청 당 최대 16K 출력 토큰을 지원하며 2023년 10월까지의 지식이 있습니다. GPT-4o와 공유되는 향상된 토크나이저 덕분에 이제 비영어 텍스트를 처리하는 것이 훨씬 더 비용 효율적입니다.
뛰어난 텍스트 지능과 multimodal 추론을 갖춘 작은 모델
GPT-4o mini는 텍스트 지능과 multimodal 추론 모두에 대한 학문적 벤치마크에서 GPT-3.5 Turbo 및 기타 소형 모델을 능가하며 GPT-4o와 동일한 범위의 언어를 지원합니다. 또한 개발자가 데이터를 가져오거나 외부 시스템으로 액션을 취하는 애플리케이션을 구축할 수 있는 함수 호출에서 강력한 성능을 보여주며, GPT-3.5 Turbo에 비해 향상된 장기 컨텍스트 성능을 보여줍니다.
GPT-4o mini는 여러 주요 벤치마크에서 평가되었습니다. 2
추론 작업: GPT-4o mini는 텍스트 지능 및 추론 벤치마크인 MMLU에서 82.0%를 기록하며 Gemini Flash의 77.9%, Claude Haiku의 73.8%에 비해 텍스트와 비전을 모두 포함하는 추론 작업에서 다른 소형 모델보다 우수합니다.
수학 및 코딩 능력: GPT-4o mini는 수학적 추론 및 코딩 작업에 탁월하여 시중의 이전 소형 모델보다 성능이 뛰어납니다. 수학 추론을 측정하는 MGSM에서 GPT-4o mini는 87.0%를 기록했으며 Gemini Flash는 75.5%, Claude Haiku는 71.7%를 기록했습니다. GPT-4o mini는 코딩 성능을 측정하는 HumanEval에서 87.2%를 기록했으며 Gemini Flash는 71.5%, Claude Haiku는 75.9%를 기록했습니다.
Multimodal 추론: GPT-4o mini는 multimodal 추론 평가인 MMMU에서도 강력한 성능을 보여 Gemini Flash의 56.1%, Claude Haiku의 50.2%에 비해 59.4%를 기록했습니다.
모델 평가 점수
모델 개발 프로세스의 일환으로 우리는 GPT-4o mini의 사용 사례와 제한 사항을 더 잘 이해하기 위해 소수의 신뢰할 수 있는 파트너와 협력했습니다. 우리는 Ramp 및 Superhuman과 같은 회사와 제휴하여 영수증 파일에서 구조화된 데이터를 추출하거나 높은 데이터를 생성하는 등의 작업에서 GPT-4o mini가 GPT-3.5 Turbo보다 훨씬 뛰어난 성능을 발휘한다는 사실을 발견했습니다. 스레드 기록이 제공되면 고품질 이메일 응답을 받을 수 있습니다.
내장된 안전 조치
안전은 처음부터 모델에 내장되어 있으며 개발 프로세스의 모든 단계에서 강화됩니다. 사전 훈련에서는 증오심 표현, 성인 콘텐츠, 주로 개인 정보를 집계하는 사이트, 스팸 등 모델이 학습하거나 출력하지 않기를 원하는 정보를 필터링합니다. 훈련 후 모델 반응의 정확성과 신뢰성을 높이기 위해 Reinforcement Learning with Human Feedback (RLHF)와 같은 기술을 사용하여 모델의 행동을 정책에 맞게 조정합니다.
GPT-4o mini에는 GPT-4o와 동일한 안전 완화 기능이 내장되어 있으며, 당사는 대비 프레임워크와 자발적인 약속에 따라 자동 평가와 인간 평가를 모두 사용하여 신중하게 평가했습니다. 사회 심리학 및 허위 정보 분야를 포함한 70명 이상의 외부 전문가가 GPT-4o를 테스트하여 잠재적인 위험을 식별했으며, 이에 대한 세부 정보는 곧 출시될 GPT-4o 시스템 카드 및 대비 스코어 카드에서 공유할 계획입니다. 이러한 전문가 평가에서 얻은 통찰력은 GPT-4o 및 GPT-4o mini의 안전성을 향상시키는 데 도움이 되었습니다.
이러한 학습 내용을 바탕으로 우리 팀은 연구에서 얻은 새로운 기술을 사용하여 GPT-4o mini의 안전성을 향상시키기 위해 노력했습니다. API의 GPT-4o mini는 명령 계층 구조 방법을 적용한 최초의 모델로, 탈옥, 프롬프트 주입 및 시스템 프롬프트 추출에 저항하는 모델의 능력을 향상시키는 데 도움이 됩니다. 이를 통해 모델의 응답을 더욱 안정적으로 만들고 대규모 애플리케이션에서 보다 안전하게 사용할 수 있습니다.
우리는 GPT-4o mini가 어떻게 사용되는지 계속 모니터링하고 새로운 위험을 식별하면서 모델의 안전성을 향상시킬 것입니다.
가용성 및 가격
GPT-4o mini는 이제 Assistants API, Chat Completions API 및 Batch API에서 텍스트 및 비전 모델로 사용할 수 있습니다 (2027년 7월 18일 이후). 개발자는 백만 개의 입력 토큰당 15센트, 백만 개의 출력 토큰당 60센트를 지불합니다 (일반 책의 대략 2500페이지에 해당). 우리는 앞으로 GPT-4o mini에 대한 미세 조정을 출시할 계획입니다.
ChatGPT에서 무료, 플러스 및 팀 사용자는 오늘부터 GPT-3.5 대신 GPT-4o mini에 액세스할 수 있습니다. 모든 사람이 AI의 혜택을 누릴 수 있도록 한다는 우리의 사명에 따라 기업 사용자도 다음 주부터 액세스할 수 있게 됩니다.
향후 계획
지난 몇 년 동안 우리는 상당한 비용 절감과 함께 AI 지능의 놀라운 발전을 목격했습니다. 예를 들어, GPT-4o mini의 토큰당 비용은 2022년에 도입된 성능이 떨어지는 모델인 text-davinci-003 이후 99% 감소했습니다. 우리는 모델 기능을 향상시키면서 비용을 절감하는 이러한 여정을 계속 유지하기 위해 최선을 다하고 있습니다.
우리는 모델이 모든 앱과 웹사이트에 완벽하게 통합되는 미래를 상상합니다. GPT-4o mini는 개발자가 강력한 AI 애플리케이션을 보다 효율적이고 저렴하게 구축하고 확장할 수 있는 길을 열어줍니다. AI의 미래는 더욱 쉽게 접근할 수 있고 신뢰할 수 있으며 일상적인 디지털 경험에 포함되고 있으며 우리는 계속해서 그 길을 선도하게 되어 기쁩니다.
- 2024년 7월 18일 현재 GPT-4o mini의 이전 버전은 GPT-4T 01-25보다 성능이 뛰어납니다. [본문으로]
- GPT-4o mini의 평가 수치는 API 보조 시스템 메시지 프롬프트와 함께 simple-evals repo를 사용하여 계산됩니다. 경쟁사 모델의 경우 보고된 수치(사용 가능한 경우), HELM 순위표 및 단순 평가를 통한 자체 재현을 통해 최대 수치를 취합니다. [본문으로]
'IT와 개발 > AI 이야기' 카테고리의 다른 글
Figure 02 (0) | 2024.08.06 |
---|---|
Llama 3.1 소개: 지금까지 가장 뛰어난 모델 (0) | 2024.07.30 |
Stable Diffusion 3 출시 (1) | 2024.07.09 |
Apple WWDC 2024 (1) | 2024.07.02 |
NVIDIA Keynote at COMPUTEX 2024 (3) | 2024.06.25 |