클로드 3 출시로 AI 전쟁 가열, “거의 인간 수준” 능력 주장

클로드 3 출시로 AI 전쟁 가열, “거의 인간 수준” 능력 주장

NEWS 2024. 3. 5. 23:30

728x90

월요일, Anthropic은 ChatGPT를 구동하는 것과 유사한 세 가지 AI 언어 모델인 클로드 3을 출시했다. Anthropic은 이 모델들이 다양한 인지 작업에서 새로운 산업 표준을 설정했다고 주장하며, 일부 경우에는 "거의 인간" 수준에 근접한 능력을 보여준다고 밝혔다. 이제 Anthropic의 웹사이트를 통해 사용할 수 있으며, 가장 강력한 모델은 구독 서비스로만 제공된다. 개발자를 위한 API를 통해서도 사용 가능하다.

클로드 3의 세 가지 모델은 복잡성과 파라미터 수에서 증가하는 순서로 클로드 3 하이쿠, 클로드 3 소넷, 그리고 클로드 3 오퍼스이다. 소넷은 이메일 로그인으로 무료로 사용할 수 있는 Claude.ai 챗봇을 구동한다. 그러나 앞서 언급한 바와 같이, 오퍼스는 "클로드 프로"라는 구독 서비스를 통해 한 달에 20달러를 지불하면 Anthropic의 웹 챗 인터페이스를 통해서만 이용할 수 있다. 모든 모델은 200,000 토큰의 컨텍스트 창을 특징으로 한다.

우리는 2023년 3월 클로드와 같은 해 7월에 클로드 2의 출시를 보도했다. 각각의 경우, Anthropic은 성능 면에서는 OpenAI의 최고 모델에 약간 뒤처졌지만, 컨텍스트 윈도우 길이 면에서는 그들을 앞서갔다. 클로드 3와 함께 Anthropic은 성능 측면에서 OpenAI의 출시 모델을 드디어 따라잡았을 수도 있지만, 전문가들 사이에는 아직 합의가 없으며, AI 벤치마크의 제시는 악명 높게 선택적으로 이루어질 수 있다.

보고된 바에 따르면, 클로드 3은 추론, 전문 지식, 수학, 언어 유창성을 포함한 다양한 인지 작업에서 고급 성능을 보여준다. (대규모 언어 모델이 "알고" 있거나 "추론"한다는 것에 대한 공감대가 없음에도 불구하고, AI 연구 커뮤니티는 일반적으로 이러한 용어를 사용한다.) 회사는 세 가지 모델 중 가장 능력이 뛰어난 오퍼스 모델이 복잡한 작업에서 "거의 인간 수준의 이해력과 유창성"을 보여준다고 주장한다.

이것은 상당히 대단한 주장이며, 더 신중하게 분석할 가치가 있다. 오퍼스가 특정 벤치마크에서 "거의 인간"에 가깝다는 것이 사실일 수 있지만, 오퍼스가 인간과 같은 일반 지능이라는 의미는 아니다(계산기가 수학에서 초인적이라는 점을 고려하라). 따라서, 이는 주의를 끌기 위한 목적으로 제시된 주장이며, 자격 조건으로 축소될 수 있다.

Anthropic에 따르면, 클로드 3 오퍼스는 MMLU(대학 수준 지식), GSM8K(초등학교 수학), HumanEval(코딩), 그리고 흥미롭게 명명된 HellaSwag(일반 지식)을 포함한 10개의 AI 벤치마크에서 GPT-4를 능가했다. 몇몇 승리는 MMLU의 5샷 시험에서 오퍼스가 86.8% 대 GPT-4의 86.4%로 매우 근소한 것이며, 일부 격차는 HumanEval에서 GPT-4의 67.0% 대비 84.9%로 크다. 그러나 이것이 고객에게 정확히 무엇을 의미하는지는 말하기 어렵다.

AI 연구자 사이먼 윌리슨은 클로드 3에 대해 Ars와의 인터뷰에서 "LLM 벤치마크는 항상 약간의 의심으로 다뤄야 한다"고 말했다. "모델이 벤치마크에서 얼마나 잘 수행하는지는 모델을 사용하는 느낌에 대해 많이 알려주지 않는다. 그러나 이는 여전히 큰 사건이다—다른 어떤 모델도 이런 다양한 널리 사용되는 벤치마크에서 GPT-4를 이긴 적이 없다."

가격과 성능의 폭넓은 범위

Claude 3 모델은 분석, 예측, 콘텐츠 생성, 코드 생성, 그리고 다국어 대화와 같은 영역에서 Claude 2 대비 개선을 보여주었다. 또한, 모델은 GPT-4V(구독 버전의 ChatGPT)와 Google의 Gemini와 유사하게 사진, 차트, 다이어그램 같은 시각 포맷을 처리할 수 있는 향상된 시각 능력을 특징으로 한다고 보고된다.

Anthropic은 이전 세대 및 경쟁 모델과 비교하여 세 모델의 속도와 비용 효율성이 향상되었다고 강조한다. 오퍼스(가장 큰 모델)는 100만 개 입력 토큰당 15달러, 100만 개 출력 토큰당 75달러이며, 소넷(중간 모델)은 100만 개 입력 토큰당 3달러, 100만 개 출력 토큰당 15달러이다. 하이쿠(가장 작고 빠른 모델)는 100만 개 입력 토큰당 0.25달러, 100만 개 출력 토큰당 1.25달러이다. 비교해보면, OpenAI의 GPT-4 Turbo는 API를 통해 100만 개 입력 토큰당 10달러, 출력 토큰당 30달러이다. GPT-3.5 Turbo는 입력 토큰당 0.50달러, 출력 토큰당 1.50달러이다.

윌리슨에게 클로드 3의 성능에 대한 인상을 물었을 때, 그는 아직 그것을 체험하지 못했지만, 각 모델의 API 가격이 즉시 그의 눈길을 끌었다고 말했다. "아직 출시되지 않은 가장 저렴한 것이 혁신적으로 경쟁적이다"라고 윌리슨은 말한다. "최고 품질의 것은 매우 비싸다."

다양한 이유로, 클로드 3 모델은 선택된 고객을 위해 최대 100만 토큰까지 처리할 수 있다고 알려져 있으며(Gemini Pro 1.5와 유사함), Anthropic는 그 거대한 컨텍스트 크기에 걸쳐 오퍼스 모델이 거의 완벽한 기억력을 달성하여 99% 이상의 정확도를 뛰어넘었다고 주장한다. 또한, 회사는 클로드 3 모델이 해가 없는 프롬프트를 거부할 가능성이 적고, 부정확한 답변을 줄이면서 정확도를 높였다고 밝힌다.

모델과 함께 발표된 모델 카드에 따르면, Anthropic는 합성 데이터를 사용하여 훈련 과정에서 클로드 3의 성능 향상을 일부 달성했다. 합성 데이터는 다른 AI 언어 모델을 사용하여 내부적으로 생성된 데이터를 의미하며, 수집된 데이터 세트에서 부족할 수 있는 시나리오를 대표하는 훈련 데이터의 깊이를 넓히는 방법으로 작용할 수 있다. "합성 데이터 관련 부분은 큰 일"이라고 윌리슨은 말한다.

Anthropic은 앞으로 몇 달 동안 클로드 3 모델 패밀리에 대한 자주 업데이트와 함께 도구 사용, 상호작용 코딩, 그리고 "고급 대리 능력"과 같은 새로운 기능을 출시할 계획이라고 밝혔다. 회사는 AI 성능의 진보와 동등한 속도로 안전 조치를 지속적으로 보장하는 데 전념하며, 현재 클로드 3 모델이 "이 시점에서 재앙적 위험의 잠재적 가능성이 거의 없다"고 말한다.

오퍼스와 소넷 모델은 현재 Anthropic의 API를 통해 사용할 수 있으며, 하이쿠는 곧 이어질 예정이다. 소넷은 또한 아마존 베드록을 통해 사용할 수 있으며, 구글 클라우드의 Vertex AI Model Garden에서 사설 프리뷰로 접근 가능하다.

LLM 벤치마크에 대하여

우리는 클로드 프로에 가입하여 몇 가지 비공식적인 테스트로 오퍼스를 직접 시험해 보았다. 오퍼스는 ChatGPT-4와 유사한 능력을 가진 것처럼 느껴진다. 그것은 원래의 아빠 농담을 쓸 수 없는데(모두 웹에서 스크레이핑된 것처럼 보임), 정보를 요약하고 다양한 스타일의 텍스트를 작성하는 데는 꽤 능숙하며, 단어 문제의 논리적 분석에서도 잘 수행한다. 그리고 확실히 낮은 비약(fabrication)을 보여주지만, 더 생소한 주제에 대해 물어볼 때 몇 가지가 슬그머니 끼어들기는 했다.

그것은 결정적인 합격이나 실패가 아니며, 컴퓨터 제품이 일반적으로 출력하는 구체적인 숫자와 측정 가능한 벤치마크가 있는 세계에서는 좌절감을 줄 수 있다. "현대 AI에서 '기분'이 주요 개념인 또 다른 사례"라고 윌리슨이 우리에게 말했다.

AI 벤치마크는 까다롭다. 왜냐하면 AI 비서의 효과는 사용되는 프롬프트와 기본 AI 모델의 조건에 매우 달려 있기 때문이다. AI 모델은 "시험에서" (이를테면) 잘 수행할 수 있지만, 그 능력을 새로운 상황에 일반화하는 데는 실패할 수 있다.

또한, AI 비서의 효과는 매우 주관적이다(따라서 윌리슨의 "기분"). 왜냐하면 AI 모델이 원하는 일을 성공적으로 수행하는 것을 정량화하는 것(예를 들어 벤치마크 메트릭에서)은, 그 작업이 지구상의 어떤 지적 분야에서든지 할 수 있는 사실상 모든 작업일 수 있기 때문이다. 일부 모델은 특정 작업에 잘 작동하고 다른 작업에는 그렇지 않을 수 있으며, 그것은 작업과 프롬프팅 스타일에 따라 사람마다 다를 수 있다.

이것은 Google, OpenAI, Meta와 같은 공급업체의 모든 대규모 언어 모델에 해당된다—클로드 3만이 아니다. 시간이 지남에 따라 사람들은 각 모델이 자신만의 특징을 가지고 있으며, 특정 프롬프팅 기술을 사용하여 각 모델의 장단점을 수용하거나 우회할 수 있다는 것을 발견했다. 현재로서는 주요 AI 비서들이 매우 비슷한 능력 세트에 정착하는 것처럼 보인다.

그렇기 때문에 Anthropic이 클로드 3가 현재 일반적인 능력과 낮은 환각 발생 측면에서 여전히 시장 리더로 널리 인식되고 있는 GPT-4 터보를 능가할 수 있다고 말할 때, 그것을 약간의 소금—또는 "기분"—으로 받아들여야 한다. 다른 모델들을 고려할 때, 여러분의 애플리케이션에 맞는 모델을 직접 테스트해보는 것이 중요하다. 왜냐하면 여러분이 사용할 정확한 상황들을 다른 누구도 재현할 수 없기 때문이다.

요컨대, 클로드 3와 같은 혁신적인 AI 모델의 출시는 기술 세계에 큰 변화를 가져올 수 있는 가능성을 내포하지만, 이러한 기술의 진정한 가치와 능력을 이해하는 것이 매우 복잡한 과정임을 의미한다. Anthropic와 같은 기업들이 제시하는 "거의 인간 수준"과 같은 주장은 분명 주목할 만하지만, 이러한 AI 기술이 실제 세계에서 어떻게 활용될 수 있을지에 대하여는 여전히 광범위한 테스트와 연구가 필요하다. AI 벤치마크와 성능 평가는 이 기술의 발전을 측정하는 한 방법일 뿐, 사용자 경험과 그에 따른 만족도는 결국 가장 중요한 판단 기준이 될 것이다.

저작자표시 비영리 동일조건 (새창열림)

해당 내용이 유용하셨다면, 공감이랑 구독 그리고 커피 한 잔 사주시면 감사하겠습니다🫶🏻
관련글 관련글 더보기