Meta에서 8B와 70B 두 종류의 Lama 3 모델을 공개 하였습니다. 동등한 크기의 경쟁 모델과 비교했을 때 전혀 손색 없는 성능을 보이면서 더욱 가벼운 모델로 소개 하고 있습니다. 또한, AI 모델의 악용과 환각에 대해서 충분한 검증과 안전을 위한 조치를 취했다는 점을 강조하는 것으로 보아 Generative AI 모델의 문제점을 깊이 이해하고 있음을 보여주고 있습니다.
특히 Meta는 기업 내에서 폐쇄적으로 모델을 개발하고, 학습 및 성능 검증 후 외부에 공개하는 것에 반해 개발 단계에서 부터 소스를 공개하여 여러 사람들과 함께 개발하는 오픈 소스의 행보를 보여주고 있습니다. 오픈 소스 주의가 결국 더 나은 미래로 이끌 것이라는 Meta의 이 행보는 주목할만한 것으로 생각 됩니다.
웹 페이지는 아직 우리나라에선 지원되지 않으나 github (GitHub - meta-llama/llama3: The official Meta Llama 3 GitHub site)를 통해 직접 모델을 다운로드 받아서 개인 컴퓨터에서 실행해 볼 수 있습니다.
원문: Introducing Meta Llama 3: The most capable openly available LLM to date
시사점:
- 오늘 우리는 최첨단 오픈 소스 대규모 언어 모델의 차세대 버전인 Meta Llama 3를 소개합니다.
- Llama 3 모델은 곧 AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, 그리고 Snowflake에서 사용할 수 있으며 AMD, AWS, Dell, Intel, NVIDIA, 그리고 Qualcomm에서 제공하는 하드웨어 플랫폼에서 지원됩니다.
- 우리는 책임감 있는 방식으로 Llama 3를 개발하기 위해 최선을 다하고 있으며, 다른 사람들도 Llama 3를 책임감 있게 사용할 수 있도록 다양한 리소스를 제공하고 있습니다. 여기에는 Llama Guard 2, Code Shield 및 CyberSec Eval 2를 통한 새로운 신뢰 및 안전 도구 도입이 포함됩니다.
- 앞으로 몇 달 안에 새로운 기능, 더 긴 컨텍스트 창, 추가 모델 크기 및 향상된 성능을 도입할 예정이며 Llama 3 연구 논문을 공유할 예정입니다.
- Llama 3 기술로 구축된 Meta AI는 이제 지능을 강화하고 부하를 줄일 수 있는 세계 최고의 AI 어시스턴스 중 하나입니다. 학습하고, 작업을 수행하고, 콘텐츠를 만들고, 연결하여 매 순간을 최대한 활용할 수 있도록 도와줍니다. 여기에서 Meta AI를 사용해 볼 수 있습니다 (웹 페이지는 아직 우리나라에선 서비스 하지 않습니다).
오늘 우리는 폭넓게 사용할 수 있는 차세대 Llama인 Meta Llama 3의 첫 두 모델을 공유하게 되어 기쁘게 생각합니다. 이 릴리스에는 광범위한 사용 사례를 지원할 수 있는 8B 및 70B 매개변수를 사용하여 사전 학습되고 instruction-fine-tuned 언어 모델이 포함되어 있습니다. 이 차세대 Llama는 광범위한 업계 벤치마크에서 최고의 성능을 보여주었으며, 향상된 추론을 포함한 새로운 기능을 제공합니다. 우리는 이것이 동급 최고의 오픈 소스 모델이라고 믿습니다. 우리의 오랜 오픈 접근 방식을 지원하기 위해 Llama 3를 커뮤니티의 손에 맡기고 있습니다. 우리는 애플리케이션부터 개발자 도구, 평가, 추론 최적화 등에 이르기까지 스택 전반에 걸쳐 AI의 차세대 혁신을 시작하고 싶습니다. 여러분이 무엇을 구축할지 기대하고 여러분의 피드백을 기대하겠습니다.
Llama 3의 목표
Llama 3를 통해 우리는 현재 사용 가능한 최고의 독점 모델과 동등한 수준의 최고의 오픈 모델을 구축하기 위해 노력했습니다. 우리는 Llama 3의 전반적인 유용성을 높이기 위해 개발자 피드백을 처리하고 싶었으며 LLM의 책임감 있는 사용 및 배포에 대한 선도적인 역할을 계속 수행하고 있습니다. 우리는 커뮤니티가 아직 개발 중인 모델에 접근할 수 있도록 조기에 자주 공개하는 오픈 소스 정신을 수용하고 있습니다. 오늘 출시하는 텍스트 기반 모델은 Llama 3 모델 컬렉션 중 첫 번째 모델입니다. 가까운 미래에 우리의 목표는 Llama 3를 다중 언어 및 multimodal로 만들고, 더 긴 컨텍스트를 가지며, 추론 및 코딩과 같은 핵심 LLM 기능 전반에 걸쳐 전체적인 성능을 지속적으로 향상시키는 것입니다.
최첨단 성능
새로운 8B 및 70B 매개변수의 Llama 3 모델은 Llama 2에 비해 큰 도약을 이루었으며 해당 규모에서 LLM 모델을 위한 새로운 최첨단 모델을 확립했습니다. 사전 학습 및 사후 학습의 개선 덕분에 사전 학습 및 instruction-fine-tuned 모델은 현재 8B 및 70B 매개변수 규모에서 현존하는 최고의 모델입니다. 사후 학습 절차의 개선으로 false refusal rate가 크게 감소하고 정렬이 개선되었으며 모델 응답의 다양성이 증가했습니다. 또한 Llama 3의 조종성을 더욱 향상시킨 후 추론, 코드 생성, t설명과 같은 기능이 크게 향상되었습니다.
- Evaluation details: llama3/eval_details.md at main · meta-llama/llama3 · GitHub
Llama 3 개발 과정에서 우리는 표준 벤치마크에서 모델 성능을 살펴보고 실제 시나리오에 맞게 성능을 최적화하려고 노력했습니다. 이를 위해 우리는 새로운 고품질 human evaluation set을 개발했습니다. 이 평가 세트에는 조언 요청, 브레인스토밍, 분류, 폐쇄형 질문 답변, 코딩, 창의적 글쓰기, 추출, 캐릭터/페르소나 거주, 공개 질문 답변, 추론, 재작성 및 요약 등 12가지 주요 사용 사례를 다루는 1,800개의 프롬프트가 포함되어 있습니다. 이 평가 세트에서 실수로 모델이 과적합되는 것을 방지하기 위해 자체 모델링 팀도 이에 액세스할 수 없습니다. 아래 차트는 이러한 카테고리에 대한 인간 평가의 집계 결과와 Claude Sonnet, Mistral Medium 및 GPT-3.5에 대한 프롬프트를 보여줍니다.
이 평가 세트를 기반으로 한 인간 주석자 (annotators)의 선호도 순위는 실제 시나리오에서 비슷한 크기의 경쟁 모델과 비교하여 70B instruction-following 모델의 강력한 성능을 강조합니다.
우리의 사전 학습된 모델은 또한 해당 규모의 LLM 모델에 대한 새로운 최첨단 기술을 확립합니다.
- Evaluation details: llama3/eval_details.md at main · meta-llama/llama3 · GitHub
훌륭한 언어 모델을 개발하려면 단순성을 위해 혁신, scaling 및 최적화하는 것이 중요하다고 믿습니다. 우리는 Llama 3 프로젝트 전반에 걸쳐 모델 아키텍처, 사전 학습 데이터, 사전 학습 확장 및 instruction-fine-tuning 이라는 네 가지 주요 요소에 중점을 두고 이 설계 철학을 채택했습니다.
Model architecture
우리의 디자인 철학에 따라 Llama 3에서는 비교적 표준적인 decoder-only transformer 아키텍처를 선택했습니다. Llama 2와 비교하여 몇 가지 주요 개선 사항을 적용했습니다. Llama 3는 언어를 훨씬 더 효율적으로 인코딩하는 128,000개의 토큰 어휘가 포함된 토크나이저를 사용하여 모델 성능을 크게 향상시킵니다. Llama 3 모델의 추론 효율성을 향상시키기 위해 8B 및 70B 크기 모두에 qrouped query attention (GQA)을 채택했습니다. 우리는 self-attention이 문서 경계를 넘지 않도록 마스크를 사용하여 8,192개의 토큰 시퀀스에 대해 모델을 학습했습니다.
Training data
최고의 언어 모델을 학습하려면 대규모의 고품질 학습 데이터세트를 큐레이션하는 것이 무엇보다 중요합니다. 우리의 설계 원칙에 따라 우리는 데이터 사전 학습에 막대한 투자를 했습니다. Llama 3는 공개적으로 사용 가능한 소스에서 수집된 15T개 이상의 토큰을 사용하여 사전 학습 되었습니다. 우리의 학습 데이터 세트는 Llama 2에 사용된 것보다 7배 더 크고 4배 더 많은 코드를 포함합니다. 다가오는 다국어 사용 사례에 대비하기 위해 Llama 3 사전 학습 데이터 세트의 5% 이상이 30개 이상의 언어를 포괄하는 고품질 비영어 데이터로 구성됩니다. 그러나 이러한 언어에서는 영어와 동일한 수준의 성능을 기대하지 않습니다.
Llama 3가 최고 품질의 데이터로 학습되도록 보장하기 위해 우리는 일련의 데이터 필터링 파이프라인을 개발했습니다. 이러한 파이프라인에는 휴리스틱 필터, NSFW 필터, 의미론적 중복 제거 접근 방식 및 텍스트 분류자를 사용하여 데이터 품질을 예측하는 것이 포함됩니다. 우리는 이전 세대의 Llama가 고품질 데이터를 식별하는데 놀라울 만큼 뛰어나다는 사실을 발견했습니다. 따라서 Llama 2를 사용하여 Llama 3를 구동하는 텍스트 품질 분류자를 위한 학습 데이터를 생성했습니다.
또한 최종 사전 학습 데이터 세트에서 다양한 소스의 데이터를 혼합하는 가장 좋은 방법을 평가하기 위해 광범위한 실험을 수행했습니다. 이러한 실험을 통해 우리는 일반 상식 질문, STEM, 코딩, 역사적 지식 등을 포함한 사용 사례 전반에서 Llama 3가 잘 작동하도록 보장하는 데이터 혼합을 선택할 수 있었습니다.
사전 학습 확장
Llama 3 모델에서 사전 학습 데이터를 효과적으로 활용하기 위해 사전 학습을 확장하는데 상당한 노력을 기울였습니다. 특히 우리는 다운스트림 벤치마크 평가를 위한 일련의 세부적인 scaling 법칙을 개발했습니다. 이러한 scaling 법칙을 통해 우리는 최적의 데이터 조합을 선택하고 학습 연산을 가장 잘 사용하는 방법에 대해 정보에 입각한 결정을 내릴 수 있습니다. 중요한 것은 확장 법칙을 통해 모델을 실제로 학습하기 전에 주요 작업 (예: HumanEval 벤치마크에서 평가된 코드 생성, 위 참조)에 대한 가장 큰 모델의 성능을 예측할 수 있다는 것입니다. 이를 통해 다양한 사용 사례와 기능에 걸쳐 최종 모델의 강력한 성능을 보장할 수 있습니다.
우리는 Llama 3을 개발하는 동안 scaling 동작에 대해 몇 가지 새로운 관찰을 했습니다. 예를 들어, 8B 매개변수 모델에 대한 Chinchilla 최적의 학습 연산량은 ~200B 토큰에 해당하지만 모델이 2배 더 많은 데이터를 학습한 후에도 모델 성능이 계속 향상된다는 것을 발견했습니다. 8B 및 70B 매개변수 모델은 최대 15T 토큰에 대해 학습한 후 log-linearly 하게 계속 개선되었습니다. 더 큰 모델은 더 적은 학습 연산량으로 이러한 작은 모델의 성능을 일치시킬 수 있지만, 추론 중에 훨씬 더 효율적이기 때문에 더 작은 모델이 일반적으로 선호됩니다.
가장 큰 Llama 3 모델을 교육하기 위해 데이터 병렬화, 모델 병렬화, 파이프라인 병렬화라는 세 가지 유형의 병렬화를 결합했습니다. 가장 효율적인 구현은 16K GPU에서 동시에 학습할 때 GPU당 400TFLOPS 이상의 컴퓨팅 활용도를 달성합니다. 우리는 두 개의 맞춤형 24K GPU 클러스터에서 학습 실행을 수행 했습니다. GPU 가동 시간을 극대화하기 위해 우리는 오류 감지, 처리 및 유지 관리를 자동화하는 새로운 고급 학습 스택을 개발했습니다. 또한 하드웨어 안정성과 자동 데이터 손상 감지 메커니즘을 크게 개선했으며, 체크포인트 및 롤백의 오버헤드를 줄이는 확장 가능한 새로운 스토리지 시스템을 개발했습니다. 이러한 개선으로 인해 전체적으로 효율적인 학습 시간을 95% 이상으로 달성 했습니다. 이러한 개선 사항이 결합되어 Llama 2에 비해 Llama 3 학습의 효율성이 최대 3배 증가했습니다.
Instruction fine-tuning
채팅 사용 사례에서 사전 학습된 모델의 잠재력을 완전히 활용하기 위해 instruction-tuning에 대한 접근 방식도 혁신했습니다. 사후 학습에 대한 우리의 접근 방식은 supervised fine-tuning (SFT), 거부 샘플링, proximal policy optimization (PPO) 및 direct preference optimization (DPO)의 조합입니다. SFT에 사용되는 프롬프트의 품질과 PPO 및 DPO에 사용되는 선호도 순위는 정렬된 모델의 성능에 큰 영향을 미칩니다. 모델 품질의 가장 큰 개선 중 일부는 이 데이터를 신중하게 선별하고 사람 주석자가 제공한 주석에 대해 여러 차례의 품질 보증을 수행한 결과였습니다.
PPO 및 DPO를 통한 선호도 순위 학습을 통해 추론 및 코딩 작업에 대한 Llama 3의 성능도 크게 향상 되었습니다. 우리는 모델에 대답하기 어려운 추론 질문을 하면 모델이 때때로 올바른 추론 추적을 생성한다는 사실을 발견했습니다. 모델은 올바른 답을 생성하는 방법을 알고 있지만 이를 선택하는 방법은 모릅니다. 선호도 순위에 대한 교육을 통해 모델은 이를 선택하는 방법을 학습할 수 있습니다.
Building with Llama 3
우리의 비전은 개발자가 Llama 3를 자신의 방식대로 정의하여 관련 사용 사례를 지원하고 모범 사례를 더 쉽게 채택하고 개방형 생태계를 개선할 수 있도록 하는 것입니다. 이번 릴리스에서는 Llama Guard 2 및 Cybersec Eval 2의 업데이트된 콤포넌트와 LLM에서 생성된 안전하지 않은 코드를 필터링하기 위한 추론 시간 가드 레일인 Code Shield의 도입을 포함한 새로운 신뢰 및 안전 도구를 제공합니다.
또한 LLM을 쉽게 작성하고, 미세 조정하고, 실험할 수 있는 새로운 PyTorch 기본 라이브러리인 torchtune을 사용하여 Llama 3를 공동 개발했습니다. torchtune은 전적으로 PyTorch로 작성된 메모리 효율적이고 보안성이 취약한 학습 레시피를 제공합니다. 이 라이브러리는 Hugging Face, Weights & Biases, EleutherAI 등 인기 있는 플랫폼과 통합되어 있으며 다양한 모바일 및 엣지 기기에서 효율적인 추론을 실행할 수 있도록 Executorch도 지원합니다. 신속한 엔지니어링부터 LangChain과 함께 Llama 3를 사용하는 것까지 모든 것에 대해 우리는 포괄적인 시작 가이드를 갖추고 있으며 Llama 3 다운로드부터 생성 AI 애플리케이션 내 대규모 배포까지 모든 과정을 안내합니다.
책임에 대한 시스템 레벨의 접근 방식
우리는 Llama 3 모델을 책임감 있게 배포하는 업계 최고의 접근 방식을 보장하는 동시에 최대한의 유용성을 갖도록 설계했습니다. 이를 달성하기 위해 우리는 Llama의 책임 있는 개발 및 배포에 대한 새로운 시스템 레벨 접근 방식을 채택했습니다. 우리는 Llama 모델을 개발자들이 직접적으로 주도하는 광범위한 시스템의 일부로 생각합니다. Llama 모델은 개발자가 고유한 최종 목표를 염두에 두고 설계하는 시스템의 기반 요소로 동작할 것입니다.
Instruction fine-tuning도 모델의 안전을 보장하는데 중요한 역할을 합니다. 우리의 instruction fine-tuned 모델은 내부 및 외부 노력을 통해 안전을 위해 레드팀 (테스트)을 거쳤습니다. 우리의 레드팀 접근 방식은 인간 전문가와 자동화 방법을 활용하여 문제가 있는 대응을 이끌어내기 위한 적대적 프롬프트를 생성합니다. 예를 들어, 우리는 화학, 생물학, 사이버 보안 및 기타 위험 영역과 관련된 오용 위험을 평가하기 위해 포괄적인 테스트를 적용합니다. 이러한 모든 노력은 반복적이며 출시되는 모델의 안전 미세 조정을 알리는데 사용됩니다. 모델 카드에서 우리의 노력에 대해 자세히 알아볼 수 있습니다.
Llama Guard 모델은 신속하고 대응적인 안전을 위한 기반이 되도록 고안되었으며 애플리케이션 요구 사항에 따라 쉽게 미세 조정하여 새로운 분류 체계를 만들 수 있습니다. 새로운 Llama Guard 2는 이 중요한 영역에서 산업 표준의 출현을 지원하기 위한 노력의 일환으로 최근 발표된 MLCommons 분류법을 사용합니다. 또한 CyberSecEval 2는 코드 해석기 남용, 공격적인 사이버 보안 기능 및 프롬프트 주입 공격에 대한 민감성을 허용하는 LLM의 성향에 대한 측정을 추가하여 이전 버전을 확장합니다 (자세한 내용은 기술 문서에서 확인하세요). 마지막으로 LLM에서 생성된 안전하지 않은 코드의 추론 시간 필터링에 대한 지원을 추가하는 Code Shield를 도입합니다. 이는 안전하지 않은 코드 제안, 코드 해석기 남용 방지 및 안전한 명령 실행과 관련된 위험을 완화합니다.
Generative AI 공간이 움직이는 속도로 인해 우리는 개방형 접근 방식이 생태계를 하나로 모으고 이러한 잠재적인 피해를 완화하는 중요한 방법이라고 믿습니다. 그 일환으로 LLM을 통한 책임감 있는 개발에 대한 포괄적인 가이드를 제공하는 Responsible Use Guide (RUG)를 업데이트하고 있습니다. RUG에 설명된 대로 애플리케이션에 적합한 콘텐츠 지침에 따라 모든 입력과 출력을 확인하고 필터링하는 것이 좋습니다. 또한 많은 클라우드 서비스 제공업체에서는 책임 있는 배포를 위한 콘텐츠 조정 API 및 기타 도구를 제공하고 있으며 개발자도 이러한 옵션 사용을 고려해 볼 것을 권장합니다.
대규모로 Llama 3 배포
Llama 3는 클라우드 제공업체, 모델 API 제공업체 등을 포함한 모든 주요 플랫폼에서 곧 제공될 예정입니다. Llama 3은 어디에나 있을 것입니다.
우리의 벤치마크에서는 토크나이저가 향상된 토큰 효율성을 제공하여 Llama 2에 비해 최대 15% 더 적은 토큰을 생성하는 것으로 나타났습니다. 또한 Group Query Attention (GQA)가 이제 Llama 3 8B에도 추가되었습니다. 그 결과, 모델이 Llama 2 7B에 비해 1B 더 많은 매개변수를 가지고 있음에도 불구하고 향상된 토크나이저 효율성과 GQA가 Llama 2 7B와 동등한 추론 효율성을 유지하는데 기여한다는 것을 확인했습니다.
이러한 모든 기능을 활용하는 방법에 대한 예를 보려면 미세 조정부터 배포, 모델 평가에 이르기까지 모든 작업에 활용할 수 있는 모든 오픈 소스 코드가 포함된 Llama Recipes를 확인하세요.
라마 3의 다음 단계는 무엇인가요?
Llama 3 8B 및 70B 모델은 Llama 3용으로 출시할 계획의 시작을 의미합니다. 앞으로 더 많은 모델이 출시될 예정입니다.
우리의 가장 큰 모델은 4000억 개가 넘는 매개변수를 갖고 있으며, 이러한 모델이 아직 학습 중이지만 우리 팀은 이러한 트렌드가 어떤지 기대하고 있습니다. 앞으로 몇 달에 걸쳐 우리는 multimodality, 여러 언어로 대화할 수 있는 기능, 훨씬 더 길어진 컨텍스트 창, 더 강력한 전체 기능을 포함한 새로운 기능을 갖춘 여러 모델을 출시할 예정입니다. 또한 Llama 3의 학습이 완료되면 자세한 연구 논문을 발표할 예정입니다.
학습을 계속하는 동안 이러한 모델이 현재 어디에 있는지 미리보기 위해 우리는 가장 큰 LLM 모델의 동향에 대한 몇 가지 스냅샷을 공유할 수 있다고 생각했습니다. 이 데이터는 아직 학습 중인 Llama 3의 초기 체크포인트를 기반으로 하며 이러한 기능은 오늘 출시된 모델의 파트로 지원되지 않습니다.
- Evaluation details: llama3/eval_details.md at main · meta-llama/llama3 · GitHub
우리는 책임감 있게 모델을 출시하기 위해 개방형 AI 생태계의 지속적인 성장과 발전에 최선을 다하고 있습니다. 우리는 개방성이 더 좋고 안전한 제품, 더 빠른 혁신, 더 건강한 전체 시장으로 이어진다고 오랫동안 믿어 왔습니다. 이는 메타에게도 좋으며 사회에도 좋습니다. 우리는 Llama 3를 통해 커뮤니티 우선 접근 방식을 취하고 있으며 오늘부터 이러한 모델은 주요 클라우드, 호스팅 및 하드웨어 플랫폼에서 사용할 수 있으며 앞으로 더 많은 모델이 제공될 예정입니다.
지금 Meta Llama 3를 사용해 보세요
우리는 최신 모델을 세계 최고의 AI 어시스턴스라고 믿는 Meta AI에 통합했습니다. 이제 Llama 3 기술로 제작 되었으며 우리 앱을 통해 더 많은 국가에서 사용할 수 있습니다.
Facebook, Instagram, WhatsApp, Messenger, 웹에서 Meta AI를 사용하여 중요한 일을 처리하고, 배우고, 만들고, 연결할 수 있습니다. Meta AI 경험에 대한 자세한 내용은 여기에서 확인할 수 있습니다.
Llama 3 웹사이트를 방문하여 모델을 다운로드하고 사용 가능한 모든 플랫폼의 최신 목록을 보려면 시작 가이드를 참조하세요.
또한 곧 Ray-Ban Meta 스마트 안경에서 multimodal Meta AI를 테스트할 수 있게 될 것입니다.
늘 그렇듯이, 여러분이 Meta Llama 3를 통해 구축하게 될 모든 놀라운 제품과 경험을 기대하고 있습니다.
'IT와 개발 > AI 이야기' 카테고리의 다른 글
The Possibilities of AI - Sam Altman (OpenAI) (0) | 2024.05.14 |
---|---|
OpenAI: ChatGPT Plus 사용자를 위한 "Memory" 기능 소개 (0) | 2024.05.07 |
Command R+: GPT-4 Turbo의 대항마가 될까? (0) | 2024.04.23 |
2024년 MAD (Machine Learning, AI, Data) 생태계 (1) | 2024.04.16 |
OpenAI: 프롬프트 엔지니어링 (1) | 2024.04.09 |