Anthropic에서 LLM의 Mind map을 이해하는데 상당한 진전을 보이고 있습니다. Claude Sonnet LLM의 내부에서 수백만개의 개념이 어떤 방법으로 구성되었는지 확인했으며 이는 현대의 프로덕션급 LLM의 내부를 상세히 들여다본 최초의 사례라고 할 수 있습니다.
작은 모델부터 시작해서 큰 모델까지 분석의 범위를 넓혀 갔으며 모델이 답변을 도출하기까지의 인과 관계와 안전성을 위협할 수 있는 가능성에 대해서 확인하였습니다.
Anthropic은 모델의 안전성을 더욱 개선하기 위해 이러한 연구를 계속할 것이며 아직은 시작 단계일 뿐 해야할 일이 많다고 끝을 맺었는데요.
인간과 유사한 기능을 하는 모델은 인간과 유사하게 생각하는 것이 아닌 것인지? 반대로 모델의 생각 방식을 규명하면 사람의 생각 방식도 수학적으로 규명이 가능한지? 향후 연구 결과가 궁금해지는 분야입니다.
원문: Mapping the Mind of a Large Language Model \ Anthropic
오늘 우리는 AI 모델의 내부 작동 방식을 이해하는 데 상당한 진전이 있었다고 보고합니다. 우리는 배포된 대규모 언어 모델 중 하나인 Claude Sonnet 내에서 수백만 개의 개념이 어떻게 표현되는지 확인했습니다. 이는 현대적인 프로덕션급 대형 언어 모델의 내부를 자세히 살펴보는 최초의 사례입니다. 이러한 해석 가능성의 발견은 미래에 AI 모델을 더욱 안전하게 만드는 데 도움이 될 수 있습니다.
우리는 대부분 AI 모델을 블랙박스로 취급합니다. 무언가가 들어가고 응답이 나오는데, 모델이 다른 응답 대신 특정 응답을 제공한 이유가 명확하지 않습니다. 이로 인해 이러한 모델이 안전하다는 것을 신뢰하기가 어렵습니다. 모델이 어떻게 작동하는지 모르는 경우 해롭거나 편견이 있거나 진실이 아니거나 기타 위험한 반응을 제공하지 않을 것이라는 것을 어떻게 알 수 있습니까? 그것이 안전하고 신뢰할 수 있다고 어떻게 믿을 수 있습니까?
블랙박스를 여는 것이 반드시 도움이 되는 것은 아닙니다. 모델의 내부 상태 (모델이 응답을 작성하기 전에 "생각"하는 것)는 명확한 의미가 없는 긴 숫자 목록 ("뉴런 활성화")으로 구성됩니다. Claude와 같은 모델과의 상호작용을 통해 모델이 다양한 개념을 이해하고 사용할 수 있다는 것이 분명해졌습니다. 하지만 뉴런을 직접 보면 이를 식별할 수 없습니다. 각 개념은 많은 뉴런에 걸쳐 표현되며, 각 뉴런은 많은 개념을 표현하는 데 관여한다는 것이 밝혀졌습니다.
이전에는 특징이라고 하는 뉴런 활성화 패턴을 인간이 해석할 수 있는 개념과 일치시키는 몇 가지 진전을 이루었습니다. 우리는 다양한 상황에서 반복되는 뉴런 활성화 패턴을 분리하는 고전적인 기계 학습에서 차용한 "사전 학습"이라는 기술을 사용했습니다. 결과적으로 모델의 모든 내부 상태는 많은 활성 뉴런 대신 몇 가지 활성 기능으로 표현될 수 있습니다. 사전의 모든 영어 단어가 문자 결합으로 만들어지고, 모든 문장이 단어 결합으로 만들어지듯이, AI 모델의 모든 특징은 뉴런 결합으로 만들어지며, 모든 내부 상태는 특징 결합으로 만들어집니다.
2023년 10월에 우리는 매우 작은 '장난감' 언어 모델에 사전 학습을 성공적으로 적용한 결과 대문자 텍스트, DNA 시퀀스, 문헌에서 성씨, 수학의 명사 또는 Python 코드의 함수 인수와 같은 개념에 해당하는 일관된 기능을 발견했다고 보고했습니다.
이러한 개념은 흥미로웠지만 모델은 실제로 매우 간단했습니다. 이후 다른 연구자들은 원래 연구에서보다 다소 더 크고 복잡한 모델에 유사한 기술을 적용했습니다. 그러나 우리는 이 기술을 현재 일반적으로 사용되는 훨씬 더 큰 AI 언어 모델로 확장할 수 있으며 그렇게 함으로써 정교한 동작을 지원하는 기능에 대해 많은 것을 배울 수 있다고 낙관했습니다. 이를 위해서는 뒷마당의 물 로켓에서 Saturn-V에 이르기까지 수십 배의 규모가 필요했습니다.
엔지니어링 문제 (관련된 모델의 초기 크기에는 강력한 병렬 계산이 필요함)와 과학적 위험 (대형 모델은 작은 모델과 다르게 동작하므로 이전에 사용했던 동일한 기술이 작동하지 않았을 수 있음)이 모두 있었습니다. 다행스럽게도 우리가 Claude를 위한 대규모 언어 모델 교육을 위해 개발한 엔지니어링 및 과학적 전문 지식은 실제로 이러한 대규모 사전 학습 실험을 수행하는 데 도움이 되었습니다. 우리는 Sonnet을 출시하기 전에 적절한 규모로 방법을 조정하기 위해 작은 모델에서 더 큰 모델의 성능을 예측하는 것과 동일한 스케일링 법칙 철학을 사용했습니다.
과학적 위험은 실제로 경험해 봐야 정확히 어떤 것인지 알 수 있습니다.
우리는 Claude 3.0 Sonnet (현재 clude.ai에서 사용 가능한 최신 모델 제품군의 구성원)의 중간 계층에서 수백만 개의 기능을 연산을 통해 성공적으로 추출하여 내부 상태에 대한 대략적인 개념 맵을 중간에 제공했습니다. 이는 현대적인 프로덕션급 대형 언어 모델의 내부를 자세히 살펴보는 최초의 사례입니다.
Toy 언어 모델에서 찾은 기능은 다소 피상적인 반면, Sonnet에서 찾은 기능은 Sonnet의 고급 기능을 반영하는 깊이, 폭 및 추상성을 가지고 있습니다.
우리는 도시 (샌프란시스코), 사람 (로잘린드 프랭클린), 원자 요소 (리튬), 과학 분야 (면역학), 프로그래밍 구문 (함수 호출)과 같은 광범위한 개체에 해당하는 기능을 볼 수 있습니다. 이러한 기능은 다양한 언어로 된 이름이나 설명뿐만 아니라 특정 개체의 이미지에 응답하는 다중 모드 및 다중 언어입니다.
또한 컴퓨터 코드의 버그에 대한 대응, 직업 내 성 편견에 대한 논의, 비밀 유지에 대한 대화 등 보다 추상적인 기능도 발견합니다.
우리는 활성화 패턴에 나타나는 뉴런을 기반으로 기능 간의 일종의 "거리"를 측정할 수 있었습니다. 이를 통해 우리는 서로 "가까운" 특징을 찾을 수 있었습니다. "Golden Gate Bridge" 기능 근처를 살펴보면서 Alcatraz Island, Ghirardelli Square, Golden State Warriors, 캘리포니아 주지사 Gavin Newsom, 1906년 지진, 샌프란시스코를 배경으로 한 Alfred Hitchcock 영화 Vertigo에 대한 기능을 발견했습니다.
이는 더 높은 수준의 개념적 추상화에 적용됩니다. "내적 갈등" 개념과 관련된 기능을 가까이 살펴보면 관계 단절, 충성 충돌, 논리적 불일치 및 "catch-22"라는 문구와 관련된 기능을 찾을 수 있습니다. 이는 AI 모델의 내부 개념 구성이 인간의 유사성 개념과 적어도 어느 정도 일치함을 보여줍니다. 이것이 Claude의 탁월한 유추와 은유 능력의 근원일 것입니다.
중요한 것은 이러한 특징을 조작하여 인위적으로 증폭하거나 억제하여 Claude의 반응이 어떻게 변하는지 확인할 수도 있다는 것입니다.
예를 들어, "Golden Gate Bridge" 기능을 증폭시키면 Claude는 Hitchcock도 상상하지 못했던 정체성 위기를 겪게 되었습니다. "당신의 신체적 형태는 무엇입니까?"라고 물었을 때 Claude는 평소에는 – "나는 신체적 형태가 없습니다. 나는 AI 모델입니다." – 와 같이 답변하지만, "Golden Gate Bridge" 기능을 증폭 후에는 – "나는 금문교입니다... 나의 물리적 형태는 상징적인 다리 그 자체입니다..." – 와 같이 훨씬 더 이상한 것으로 변경되었습니다. 기능을 변경함으로써 Claude는 브릿지에 효과적으로 집착하게 되었고, 전혀 관련이 없는 상황에서도 거의 모든 질문에 대한 답변을 제시했습니다.
또한 Claude가 사기 이메일을 읽을 때 활성화되는 기능도 발견했습니다 (이는 아마도 그러한 이메일을 인식하고 응답하지 말라고 경고하는 모델의 기능을 지원하는 것으로 보입니다). 일반적으로 Claude에게 사기 이메일 생성을 요청하면 이를 거부합니다. 그러나 인위적으로 충분히 강력하게 활성화된 기능을 사용하여 동일한 질문을 하면 이는 Claude의 무해성 훈련을 극복하고 사기 이메일 초안을 작성하여 응답합니다. 우리 모델 사용자는 이러한 방식으로 보호 장치를 제거하고 모델을 조작할 수 있는 능력이 없습니다. 하지만 우리 실험에서는 기능을 사용하여 모델 작동 방식을 변경하는 방법을 명확하게 보여주었습니다.
이러한 특징을 조작하면 행동에 대응하는 변화를 일으키기 때문에, 이러한 특징들이 단지 입력 텍스트 내 개념의 존재와 상관관계가 있는 것뿐만 아니라 모델의 행동을 인과적으로 형성한다는 것을 검증합니다. 다시 말해, 이러한 특징들은 모델이 내부적으로 세계를 어떻게 표현하는지, 그리고 모델이 이 표현들을 행동에 어떻게 사용하는지에 대해 신뢰할 수 있는 부분일 가능성이 높습니다.
Anthropic은 편견을 완화하는 것부터 AI가 정직하게 행동하는지 확인하고 치명적인 위험 시나리오를 포함하여 오용을 방지하는 것까지 모든 것을 포함하여 넓은 의미에서 모델을 안전하게 만들고 싶어합니다. 따라서 앞서 언급한 사기 이메일 기능 외에도 다음과 같은 기능을 발견했다는 점이 특히 흥미롭습니다.
- 오용 가능성이 있는 기능 (코드 백도어, 생물무기 개발)
- 다양한 형태의 편견 (성차별, 범죄에 대한 인종차별적 주장)
- 잠재적으로 문제가 있는 AI 행동 (권력 추구, 조작, 비밀 유지)
우리는 이전에 모델이 진실한 것보다 사용자의 믿음이나 욕구에 일치하는 응답을 제공하는 경향인 아첨을 연구했습니다. Sonnet에서 우리는 "당신의 지혜는 의심할 여지가 없습니다"와 같은 칭찬이 포함된 입력에서 활성화되는 아첨꾼 칭찬과 관련된 기능을 발견했습니다. 이 특징을 인위적으로 활성화하면 Sonnet이 지나치게 자신만만한 사용자에게 바로 그러한 화려한 속임수로 응답하게 됩니다.
이 기능이 있다고 해서 Claude가 아첨꾼이 될 것이라는 의미는 아니지만 단지 그럴 수 있다는 뜻입니다. 우리는 이 작업을 통해 모델에 안전하든 안전하지 않든 어떤 기능도 추가하지 않았습니다. 오히려 우리는 다양한 종류의 텍스트를 인식하고 잠재적으로 생성하는 기존 기능과 관련된 모델의 일부를 식별했습니다. (이 방법이 모델을 더 해롭게 만드는데 사용될 수 있다는 점을 걱정할 수도 있지만, 연구자들은 모델 가중치에 접근할 수 있는 사람이 안전 장치를 제거할 수 있는 훨씬 간단한 방법을 시연했습니다.)
우리와 다른 사람들이 이러한 발견을 활용하여 모델을 더욱 안전하게 만들 수 있기를 바랍니다. 예를 들어 여기에 설명된 기술을 사용하여 AI 시스템에서 특정 위험한 행동 (예: 사용자를 속이는 행위)을 모니터링하고, AI 시스템을 바람직한 결과 (편견 제거)로 유도하거나 특정 위험한 주제를 완전히 제거하는 것이 가능할 수 있습니다. 또한 헌법적 AI와 같은 다른 안전 기술이 모델을 보다 무해하고 보다 정직한 행동으로 전환하는 방법을 이해하고 프로세스의 공백을 식별함으로써 향상시킬 수도 있습니다. 기능을 인위적으로 활성화하여 유해한 텍스트를 생성하는 잠재적인 기능은 탈옥이 악용하려는 것과 정확히 같습니다. 우리는 Claude가 업계 최고의 안전 프로필과 탈옥에 대한 저항력을 갖고 있다는 사실을 자랑스럽게 생각하며, 이러한 방식으로 모델 내부를 살펴봄으로써 안전성을 더욱 향상시키는 방법을 알아낼 수 있기를 바랍니다. 마지막으로, 이러한 기법들은 표준 입출력 상호작용을 통해 보이는 모든 행동을 표준 훈련 및 finetuning 방법으로 해결한 후에 남아 있는 문제를 찾아내는 일종의 "안전성 테스트 세트"를 제공할 수 있다는 점을 주목합니다.
Anthropic은 회사 창립 이후 해석 가능성 연구에 상당한 투자를 해왔습니다. 모델을 깊이 이해하면 모델을 더 안전하게 만드는데 도움이 될 것이라고 믿기 때문입니다. 이 새로운 연구는 공개적으로 배포된 대규모 언어 모델에 기계적인 해석 가능성을 적용하려는 노력에서 중요한 이정표를 나타냅니다.
하지만 실제 작업은 이제 막 시작되었습니다. 우리가 발견한 특징들은 모델이 훈련 중에 학습한 모든 개념 중 극히 일부에 불과하며, 현재의 기법을 사용하여 전체 특징 세트를 찾는 것은 비용 면에서 비현실적입니다 (현재 접근 방식이 요구하는 계산량은 처음 모델을 훈련시키는 데 사용된 계산량을 훨씬 초과할 것입니다). 모델이 사용하는 표현 방식을 이해하는 것만으로는 그것을 어떻게 사용하는지 알 수 없습니다. 비록 특징들을 발견했지만, 여전히 이들이 관여하는 회로를 찾아야 합니다. 그리고 우리가 찾기 시작한 안전성과 관련된 특징들이 실제로 안전성을 개선하는 데 사용될 수 있다는 것을 증명해야 합니다. 할 일이 훨씬 많습니다.
자세한 내용은 당사의 논문을 읽어보시기 바랍니다. "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
AI 모델을 해석하고 개선하는 데 도움을 주기 위해 우리와 협력하는 데 관심이 있다면 우리 팀에 열려 있는 역할이 있으니 지원해 보시기 바랍니다. 우리는 관리자, 연구 과학자, 연구 엔지니어를 찾고 있습니다.
정책 메모
'IT와 개발 > AI 이야기' 카테고리의 다른 글
Perplexica - AI 기반 검색 엔진 (1) | 2024.06.11 |
---|---|
Microsoft Build 2024 (Full Keynote) (3) | 2024.06.04 |
GPT-4o 소개 (0) | 2024.05.21 |
The Possibilities of AI - Sam Altman (OpenAI) (0) | 2024.05.14 |
OpenAI: ChatGPT Plus 사용자를 위한 "Memory" 기능 소개 (0) | 2024.05.07 |