2026.AI 기술 발전 속도가 관리 역량을 초월하고 있다는 'AI 인덱스 2026' 보고서의 핵심 메시지.
- Suemin YI
- 4월 29일
- 35분 분량
AI 기술 발전 속도가 관리 역량을 초월하고 있다는 'AI 인덱스 2026' 보고서의 핵심 메시지.
보고서는 AI 기술 발전이 거버넌스, 평가, 교육 시스템의 적응 속도를 훨씬 앞지르고 있다고 지적합니다.
1. AI 인덱스 2026 보고서 주요 내용
AI 기술 발전 속도가 거버넌스, 평가, 교육 시스템의 적응 속도를 훨씬 앞지르고 있어, AI가 사회에 미치는 영향에 대한 준비 부족이 심화되고 있음을 강조한다.
AI 기술의 빠른 발전 속도에 맞춰 신뢰할 수 있는 글로벌 데이터를 제공하여 정책 입안자, 연구원, 경영진, 언론인, 대중이 AI에 대해 정보에 입각한 결정을 내릴 수 있도록 돕는다.
AI가 교실, 병원, 입법부에 깊숙이 침투하고 사람들이 일하고 배우고 통치하는 방식을 재편함에 따라 불완전한 데이터로 인한 비용이 계속 증가하고 있다.
기술의 성공에 이해관계가 있는 조직에서 많은 데이터가 생산되는 분야에서 중립적이고 엄격한 측정에 대한 요구가 계속 커지고 있다.
AI 인덱스는 독립성을 유지하며 헤드라인 아래의 장기적인 패턴을 밝히는 데 중점을 둔다.
이 보고서는 전 세계 정부, 연구 기관 및 기업에서 신뢰하며 언론 매체와 학술 논문에서도 인용된다.
이 보고서는 AI 궤적에 대한 가장 포괄적이고 독립적인 정보를 제공하며, 아직 측정할 수 없는 부분이 측정할 수 있는 부분만큼 중요하다는 점을 명확히 한다.
AI 기술이 빠르게 발전함에 따라 이를 둘러싼 시스템이 따라갈 수 있는지에 대한 의문이 제기된다.
거버넌스 프레임워크, 평가 방법, 교육 시스템, AI의 영향을 추적하는 데 필요한 데이터 인프라가 기술 자체의 속도를 따라잡기 위해 고군분투하고 있다.
AI가 할 수 있는 것과 이를 관리할 준비가 되어 있는 정도 사이의 격차가 올해 보고서의 모든 장에 걸쳐 나타난다.
새로운 내용
AI가 추론, 안전, 실제 작업 실행 전반에 걸쳐 더욱 야심 차게 테스트되고 있으며, 이러한 측정값이 점점 더 신뢰하기 어려워지는 이유를 추적한다.
생성형 AI의 경제적 가치에 대한 새로운 추정치와 노동 시장 효과에 대한 새로운 증거, AI 주권에 대한 분석 프레임워크를 포함한다.
AI의 빠른 대중화
지난해 보고서는 AI가 주류 세력으로 부상했음을 기록했으며, 올해 데이터는 그 이후의 상황을 보여준다.
AI는 개인용 컴퓨터나 인터넷보다 빠르게 대중 채택에 도달한 기술이다.
생성형 AI는 3년 이내에 인구 수준 채택률 53%에 육박했다.
선도적인 AI 기업들은 이전 기술 세대가 걸린 시간의 일부만으로 상당한 매출 규모에 도달하고 있으며, 2025년 글로벌 기업 투자는 두 배 이상 증가했다.
조직 채택률은 88%로 증가했으며, 초기 추정치에 따르면 생성형 AI의 소비자 가치는 1년 이내에 상당히 증가했다.
기술적 발전과 평가 시스템의 한계
기술적 최전선에서 선도적인 모델들은 이제 서로 거의 구별할 수 없는 수준이다.
오픈 웨이트 모델은 그 어느 때보다 경쟁력이 있지만, 모델이 수렴함에 따라 이를 평가하는 데 사용되는 도구는 관련성을 유지하는 데 어려움을 겪고 있다.
벤치마크는 포화 상태에 이르고, 최전선 연구소는 정보 공개를 줄이고 있으며, 독립적인 테스트가 항상 개발자가 보고하는 내용을 확인하지는 않는다.
AI의 실질적 영향과 정책적 대응
이러한 활동 및 역량 규모가 실제로 무엇을 의미하는지 추적한다.
과학 분야에서 AI는 개별 연구 단계를 가속화하는 것에서 전체 워크플로우를 완전히 대체하려는 시도로 전환되었다.
의학 분야에서 임상 AI 도구는 파일럿 프로그램에서 더 광범위한 배포로 이동했으며, 주변 AI 기록원과 같은 시스템은 의료 시스템 전반에 걸쳐 확장되고 있다.
전 세계 정부는 2025년에 AI에 대해 조치를 취했지만, 같은 방향은 아니었다.
EU AI 법의 첫 번째 금지 조치가 발효된 반면, 미국은 규제 완화로 전환되었다.
일본, 한국, 이탈리아는 각각 국가 AI 법을 통과시켰으며, 새로 채택된 국가 AI 전략의 절반 이상이 처음으로 정책 환경에 진입하는 개발도상국에서 나왔다.
AI 주권은 이러한 모든 노력의 중심 조직 원리로 부상했다.
대중 또한 상충되는 신호를 탐색하고 있다. 2025년 AI에 대한 글로벌 낙관론은 증가했지만, 불안감도 증가했다.
결론: 시스템 적응 속도를 초월하는 AI 발전
데이터는 한 방향을 가리키지 않는다.
이는 주변 시스템이 적응할 수 있는 속도보다 빠르게 확장되는 분야를 보여준다.
독자들이 직접 탐색하고 결정하도록 권장한다.
AI 능력의 가속화 및 확산
AI 능력은 정체되지 않고 가속화되며 그 어느 때보다 많은 사람들에게 도달하고 있다.
2025년에는 산업계가 주목할 만한 최첨단 모델의 90% 이상을 생산했으며, 이들 모델 중 일부는 박사 수준의 과학 문제, 다중 모드 추론, 경쟁 수학에서 인간 기준을 충족하거나 능가한다.
주요 코딩 벤치마크인 SWE-bench Verified에서 성능은 1년 만에 인간 기준의 60%에서 거의 100%로 상승했다.
조직 채택률은 88%에 달했으며, 5명 중 4명의 대학생이 이제 생성형 AI를 사용한다.
미국-중국 AI 모델 성능 격차 해소
미국과 중국 모델 간의 AI 성능 격차는 사실상 해소되었다.
2025년 초부터 미국과 중국 모델은 여러 차례 선두를 주고받았다.
2025년 2월, DeepSeek-R1은 잠시 최고 미국 모델과 동등한 수준에 도달했으며, 2026년 3월 현재 Anthropic의 최고 모델은 단 2.7% 차이로 앞서고 있다.
미국은 여전히 더 많은 최고 수준의 AI 모델과 더 큰 영향력의 특허를 생산하는 반면, 중국은 출판량, 인용, 특허 생산 및 산업용 로봇 설치에서 선두를 달린다.
한국은 인구당 AI 특허에서 세계를 선도하며 혁신 밀도가 돋보인다.
AI 데이터 센터 및 하드웨어 공급망 집중
미국은 가장 많은 AI 데이터 센터를 보유하고 있으며, 대부분의 칩은 대만의 한 파운드리에서 제조된다.
미국은 다른 어떤 나라보다 10배 이상 많은 5,427개의 데이터 센터를 보유하고 있으며, 다른 어떤 나라보다 더 많은 에너지를 소비한다.
단일 회사인 TSMC는 거의 모든 선도적인 AI 칩을 제조하여 글로벌 AI 하드웨어 공급망이 대만의 한 파운드리에 의존하게 만들고 있다.
다만, TSMC-미국 확장 공장은 2025년에 운영을 시작했다.
AI의 불균형한 능력: '들쭉날쭉한 최전선'
AI 모델은 국제 수학 올림피아드에서 금메달을 딸 수 있지만, 시간을 정확하게 알려주지는 못한다.
이는 연구자들이 AI의 '들쭉날쭉한 최전선(jagged frontier)'이라고 부르는 예시이다.
Gemini Deep Think은 IMO에서 금메달을 획득했지만, 최고 모델은 아날로그 시계를 50.1%만 정확하게 읽는다.
AI 에이전트는 OSWorld(운영 체제 전반의 실제 컴퓨터 작업을 테스트)에서 작업 성공률이 12%에서 약 66%로 도약했지만, 구조화된 벤치마크에서는 여전히 3번 중 1번꼴로 실패한다.
로봇의 현실 세계 작업 한계
로봇은 통제된 환경에서는 뛰어나지만, 대부분의 가사 작업에서는 여전히 실패한다.
로봇은 가사 작업의 12%만 성공하여 AI가 물리적 세계를 마스터하는 데 얼마나 멀리 떨어져 있는지 보여준다.
RLBench에서 소프트웨어 기반 시뮬레이션의 로봇 조작은 89.4%의 성공률에 도달했지만, 예측 가능한 실험실 환경과 예측 불가능한 가정 환경 간의 격차는 크다.
책임감 있는 AI의 발전 지연
책임감 있는 AI는 AI 능력의 속도를 따라가지 못하고 있으며, 안전 벤치마크는 뒤처지고 사고는 급증하고 있다.
거의 모든 선도적인 최첨단 AI 모델 개발자는 능력 벤치마크에 대한 결과를 보고하지만, 책임감 있는 AI 벤치마크에 대한 보고는 여전히 미흡하다.
문서화된 AI 사고는 2024년 233건에서 2025년 362건으로 증가했다.
최근 연구에 따르면 안전과 같은 하나의 책임감 있는 AI 차원을 개선하면 정확도와 같은 다른 차원이 저하될 수 있다는 점이 문제로 추가된다.
미국의 AI 투자 선도와 인재 유치 감소
미국은 AI 투자에서 선두를 달리고 있지만, 글로벌 인재 유치 능력은 감소하고 있다.
미국의 민간 AI 투자는 2025년 2,859억 달러에 달했으며, 이는 중국에 투자된 124억 달러의 23배 이상이다.
다만, 민간 투자 수치만으로는 중국 정부의 지침 기금을 고려할 때 중국의 총 AI 지출을 과소평가할 가능성이 있다.
미국은 또한 2025년에 1,953개의 신규 AI 기업에 자금을 지원하여 기업가 활동에서 선두를 달렸으며, 이는 다음으로 가까운 국가보다 10배 이상 많다.
그러나 미국으로 이주하는 AI 연구원 및 개발자의 수는 2017년 이후 89% 감소했으며, 지난 1년 동안에만 80% 감소했다.
AI 채택의 역사적 확산과 소비자 가치
AI 채택은 역사적인 속도로 확산되고 있으며, 소비자들은 종종 무료로 이용하는 도구에서 상당한 가치를 얻고 있다.
생성형 AI는 3년 이내에 인구 채택률 53%에 도달했으며, 이는 PC나 인터넷보다 빠른 속도이다.
다만, 속도는 국가별로 다르며 1인당 GDP와 강한 상관관계를 보인다.
싱가포르(61%)와 아랍에미리트(54%)와 같이 예상보다 높은 채택률을 보이는 국가도 있는 반면, 미국은 28.3%로 24위를 차지한다.
2026년 초까지 미국 소비자에게 제공되는 생성형 AI 도구의 추정 가치는 연간 1,720억 달러에 달했으며, 사용자당 평균 가치는 2025년과 2026년 사이에 세 배 증가했다.
AI로 인한 생산성 향상과 고용 감소
AI로 인한 생산성 향상은 초급 고용이 감소하기 시작하는 많은 분야에서 나타나고 있다.
연구에 따르면 고객 지원 및 소프트웨어 개발에서 14%에서 26%의 생산성 향상이 나타났으며, 더 많은 판단이 필요한 작업에서는 효과가 약하거나 부정적이었다.
거의 모든 비즈니스 기능에서 AI 에이전트 배포는 한 자릿수에 머물고 있다.
AI의 측정된 생산성 향상이 가장 명확한 소프트웨어 개발 분야에서 미국 개발자(22세에서 25세)의 고용은 2024년 이후 거의 20% 감소했으며, 반면 나이든 개발자의 수는 계속 증가하고 있다.
AI의 환경 발자국 증가
AI의 환경 발자국은 그 능력과 함께 확장되고 있다.
Grok 4의 추정 훈련 배출량은 72,816톤의 CO2e에 달했다.
AI 데이터 센터 전력 용량은 29.6GW로 증가했으며, 이는 뉴욕주의 최대 전력 수요와 맞먹는 수준이다.
GPT-4o 추론에만 연간 사용되는 물은 1,200만 명의 식수 수요를 초과할 수 있다.
과학 분야 AI 모델의 발전과 한계
과학 분야 AI 모델은 인간 과학자를 능가할 수 있지만, 더 큰 모델이 항상 더 나은 성능을 보이는 것은 아니다.
최첨단 모델은 ChemBench에서 인간 화학자보다 평균적으로 뛰어난 성능을 보이지만, 천체 물리학 복제에서는 20% 미만, 지구 관측 질문에서는 33%의 점수를 기록한다.
1억 1,100만 개의 매개변수를 가진 단백질 언어 모델인 MSAPairformer는 ProteinGym에서 이전의 선도적인 방법을 능가했으며, 2억 개의 매개변수를 가진 유전체학 모델인 GPN-Star는 거의 200배 더 큰 모델보다 뛰어난 성능을 보였다.
과학 분야의 대부분의 AI 파운데이션 모델은 범용 AI의 산업 지배적인 환경과는 대조적으로 부문 간 협력을 통해 나온다.
AI는 임상 치료를 변화시키고 있지만, 엄격한 증거는 여전히 제한적이다.
환자 방문에서 임상 노트를 자동으로 생성하는 AI 도구는 2025년에 상당한 채택을 보였다.
여러 병원 시스템에서 의사들은 노트 작성에 소요되는 시간이 최대 83% 감소하고 번아웃이 크게 줄었다고 보고했다.
그러나 특정 도구를 제외하고 임상 AI에 대한 증거 기반은 여전히 미약하다.
500개 이상의 임상 AI 연구를 검토한 결과, 거의 절반이 실제 환자 데이터가 아닌 시험 스타일 질문에 의존했으며, 실제 임상 데이터를 사용한 연구는 5%에 불과했다.
AI 교육의 지연과 평생 학습의 확산
정규 교육은 AI를 따라가지 못하고 있지만, 사람들은 삶의 모든 단계에서 AI 기술을 배우고 있다.
미국 고등학생 및 대학생의 80% 이상이 이제 학교 관련 작업에 AI를 사용하지만, 중고등학교의 절반만이 AI 정책을 시행하고 있으며, 교사의 6%만이 해당 정책이 명확하다고 말한다.
교실 밖에서는 아랍에미리트, 칠레, 남아프리카 공화국에서 AI 엔지니어링 기술이 가장 빠르게 가속화되고 있다.
미국과 캐나다의 신규 AI 박사 학위 수는 2022년에서 2024년 사이에 22% 증가했지만, 이러한 증가를 구성하는 박사 학위는 산업계가 아닌 학계에서 일자리를 얻었다.
AI 주권의 부상과 오픈소스 개발의 역할
AI 주권은 국가 정책의 결정적인 특징이 되고 있지만, 오픈소스 개발이 참여자를 재분배하는 데 도움이 되더라도 역량은 여전히 불균형하다.
국가 AI 전략은 특히 개발도상국 사이에서 확장되고 있으며, AI 슈퍼컴퓨팅에 대한 국가 지원 투자가 병행하여 증가하고 있다.
이는 AI 생태계에 대한 국내 통제에 대한 야망이 커지고 있음을 나타내는 신호이다.
그러나 모델 생산은 여전히 미국과 중국에 집중되어 있다.
오픈소스 개발은 참여를 재분배하기 시작했으며, 전 세계의 기여가 이제 유럽을 능가하고 GitHub에서 미국에 접근하여 언어적으로 더욱 다양한 모델과 벤치마크를 촉진하고 있다.
AI 전문가와 대중의 상이한 관점
AI 전문가와 대중은 기술의 미래에 대해 매우 다른 관점을 가지고 있으며, AI 관리에 대한 기관에 대한 글로벌 신뢰는 분열되어 있다.
사람들이 일하는 방식에 관해서는 전문가의 73%가 긍정적인 영향을 예상하는 반면, 대중은 23%만이 긍정적인 영향을 예상하여 50% 포인트의 격차를 보인다.
AI가 경제 및 의료 서비스에 미치는 영향에 대해서도 비슷한 격차가 나타난다.
전 세계적으로 AI 규제에 대한 정부의 신뢰는 다양하다.
조사 대상 국가 중 미국은 AI 규제에 대한 자국 정부의 신뢰 수준이 31%로 가장 낮다고 보고했다.
전 세계적으로 EU는 미국이나 중국보다 AI를 효과적으로 규제할 것이라는 신뢰를 더 많이 받는다.
2
AI 개발을 위한 자원은 2025년에도 계속 증가했지만, 주목할 만한 모델 출시는 줄어들고 최첨단 시스템은 소수의 조직에 집중되고 있다.
AI 개발 자원 증가 및 집중화
2025년 AI 개발을 위한 자원은 계속 증가했지만, 전년보다 주목할 만한 모델 출시는 줄어들었다.
최첨단 시스템은 점점 더 소수의 조직에 집중되고 있다.
산업계는 이제 주목할 만한 AI 모델의 90% 이상을 차지하며, 가장 유능한 시스템은 훈련 코드, 데이터셋 크기, 매개변수 수가 점점 더 공개되지 않아 투명성이 가장 낮다.
컴퓨팅 파워 및 공급망 취약성
이러한 모델을 뒷받침하는 컴퓨팅 파워는 2022년 이후 연간 약 3.3배 증가했지만, 거의 모든 것이 대만의 단일 칩 파운드리를 통해 공급되어 글로벌 하드웨어 공급망이 취약하다.
오픈소스 개발 및 연구 환경의 변화
오픈소스 개발과 AI 출판물은 계속 증가했으며, 연구 환경은 지리적으로 더욱 분산되고 있다.
중국은 이제 출판량, 인용 점유율, 특허 부여에서 선두를 달리는 반면, 스위스, 싱가포르와 같은 작은 국가들은 1인당 AI 연구원 수에서 선두를 달린다.
그러나 이 분야의 일부 측면은 전혀 변하지 않았다.
AI 인재의 성별 격차는 2010년 이후 어떤 국가에서도 의미 있는 진전 없이 깊이 뿌리박혀 있다.
이 장은 AI 모델의 환경부터 이를 지원하는 컴퓨팅, 데이터 센터, 에너지, 오픈소스 소프트웨어, 그리고 출판물, 특허, 인재와 같은 더 넓은 연구 생태계에 이르기까지 연구 및 개발 파이프라인을 다룬다.
주목할 만한 AI 모델 및 투명성 감소
2025년 산업계는 주목할 만한 AI 모델의 90% 이상을 생산했지만, 가장 유능한 모델은 이제 투명성이 가장 낮다.
OpenAI, Anthropic, Google을 포함한 가장 자원 집약적인 시스템 중 일부는 훈련 코드, 매개변수 수, 데이터셋 크기 및 훈련 기간을 더 이상 공개하지 않는다.
연구 리더십: 중국 vs. 미국
중국은 연구에서 선두를 달리는 반면, 미국은 주목할 만한 모델 개발에서 선두를 달린다.
중국은 출판량, 인용, 특허 부여에서 선두를 달리는 반면, 미국은 더 큰 영향력의 특허를 유지하고 2025년에 중국의 30개에 비해 50개의 주목할 만한 모델을 생산했다.
한국은 1인당 AI 특허에서 선두를 달리고 있으며, 중국의 상위 100개 최다 인용 AI 논문 점유율은 2021년 33개에서 2024년 41개로 증가했다.
보고된 매개변수는 공개가 줄어들면서 수조 개에 머물렀다.
매개변수 수는 3년 동안 1조 개에 가까운 수준을 유지했지만, 최전선 연구소의 보고는 중단되었다.
독립적으로 추정할 수 있는 훈련 컴퓨팅은 계속 증가했다.
합성 데이터의 한계와 데이터 중심 방법의 부상
합성 데이터는 사전 훈련에서 실제 데이터를 대체하지 못하고 있지만, 데이터 품질 및 후처리 기술은 가능성을 보여주고 있다.
Grok 4보다 거의 90배 적은 매개변수를 가진 OLMo 3.1 Think 32B는 가지치기, 중복 제거 및 큐레이션만으로 여러 벤치마크에서 비슷한 결과를 달성한다.
글로벌 AI 컴퓨팅 용량 증가 및 공급망 집중
글로벌 AI 컴퓨팅 용량은 2022년 이후 연간 3.3배 증가하여 1,710만 H100 등가에 도달했다.
Nvidia는 총 컴퓨팅의 60% 이상을 차지하며, Google과 Amazon이 나머지 대부분을 공급하고 Huawei는 작지만 성장하는 점유율을 차지한다.
이러한 확장은 하이퍼스케일러 데이터 센터 확장과 최첨단 모델 훈련 및 추론에 대한 지속적인 수요에 의해 주도되고 있다.
미국은 AI 데이터 센터에서 선두를 달리고 있으며, 대만의 한 파운드리에서 대부분의 칩을 제조한다.
미국은 다른 어떤 나라보다 10배 이상 많은 5,427개의 데이터 센터를 보유하고 있으며, 다른 어떤 지역보다 더 많은 에너지를 소비한다.
단일 회사인 TSMC는 거의 모든 선도적인 AI 칩을 제조하여 글로벌 AI 하드웨어 공급망이 대만의 한 파운드리에 의존하게 만들고 있다.
다만, TSMC-미국 확장 공장은 2025년에 운영을 시작했다.
AI의 환경 발자국 증가
AI의 환경 발자국은 전력, 물, 배출량 전반에 걸쳐 증가하고 있다.
2025년 Grok 4의 추정 훈련 배출량은 72,816톤의 CO2e에 달했다.
AI 데이터 센터 전력 용량은 29.6GW로 증가했으며, 이는 뉴욕주의 최대 전력 수요와 맞먹는 수준이다.
GPT-4o 추론에만 연간 사용되는 물은 1,200만 명의 식수 수요를 초과할 수 있다.
오픈소스 AI 개발의 확장과 미국 프로젝트의 높은 참여도
오픈소스 AI 개발은 계속 확장되고 있으며, GitHub에는 560만 개의 프로젝트가 있고 Hugging Face 업로드는 2023년 이후 세 배 증가했다.
미국 기반 프로젝트는 여전히 가장 많은 참여를 유치하며, 10개 이상의 별을 받은 프로젝트 전반에 걸쳐 누적 GitHub 별 3천만 개를 기록했다.
미국으로의 AI 연구원 및 개발자 유입 감소
미국으로 이주하는 AI 연구원 및 개발자의 수는 2017년 이후 89% 감소했다.
이러한 감소는 가속화되고 있으며, 지난 1년 동안에만 80% 감소했다.
미국은 여전히 다른 어떤 나라보다 더 많은 AI 인재를 보유하고 있지만, 10년 이상 만에 가장 낮은 비율로 새로운 인재를 유치하고 있다.
AI 인재 지도의 변화와 성별 격차 지속
AI 인재 지도는 변화하고 있지만, 성별 격차는 깊이 뿌리박혀 있다.
스위스와 싱가포르는 1인당 AI 연구원 및 개발자 수에서 세계를 선도하며, 사우디아라비아(32.3%), 캐나다(29.6%), 호주(30.1%)를 포함한 일부 국가에서는 상대적으로 높은 여성 대표성을 보인다.
그러나 어떤 국가도 성별 평등에 근접하지 못한다.
2.3. 주목할 만한 AI 모델
모델 데이터셋 및 분석 기준
이 섹션은 Epoch AI의 선별된 주목할 만한 모델 데이터셋을 사용하여 최첨단 AI 모델의 출처, 배포 방식, 구축에 필요한 요소를 조사한다.
Epoch AI는 최첨단 발전, 역사적 중요성, 높은 인용률과 같은 기준에 따라 모델을 주목할 만한 것으로 지정한다.
이는 수동 선별이므로, 데이터셋은 모든 AI 모델의 전체 목록이나 모든 모델 개발 활동의 완전한 지도가 아니다.
추세는 도메인 내의 패턴으로 해석해야 한다.
이후 섹션에서는 컴퓨팅, 데이터 센터, 에너지 비용, 오픈소스 소프트웨어를 포함하여 이러한 시스템을 뒷받침하는 인프라 및 입력 요소를 추적한 다음, 출판물, 특허, 인재를 통해 더 넓은 연구 생태계를 살펴본다.
이 장은 연구 및 개발 파이프라인과 그 입력 요소에 중점을 둔다. 다음 장인 기술 성능은 모델 기능 및 벤치마크 성능을 자세히 검토한다.
국가별 주목할 만한 AI 모델 생산
주목할 만한 AI 모델 생산은 소수의 국가에 집중되어 있다.
역사적으로 미국이 총 생산량에서 가장 많았고, 중국이 그 뒤를 이었다.
이러한 패턴은 2025년에도 계속되어 미국이 50개, 중국이 30개, 한국이 5개의 주목할 만한 AI 모델을 출시하며 선두를 달렸다.
주요 지리적 지역 전반에 걸쳐 신규 모델 출시 수는 전년 대비 감소했다.
부문 및 조직별 주목할 만한 AI 모델 생산
주목할 만한 AI 모델 개발은 주로 산업계에 집중되어 있다.
지난 10년 동안 산업계가 생산하는 비중은 꾸준히 증가하여 현재는 압도적으로 가장 큰 비중(91.6%)을 차지한다.
2025년 Epoch AI는 학계에서 1개, 산업계에서 87개의 주목할 만한 AI 모델을 확인했다.
산업계 내에서는 소수의 조직이 많은 출시를 차지한다.
2025년 주요 기여자는 OpenAI(19개), Google(12개), Alibaba(11개)였다.
2014년 이후 Google이 가장 많은 주목할 만한 모델을 생산했으며, Meta와 OpenAI가 그 뒤를 이었다.
학계 내에서는 칭화대학교(26개), 스탠포드 대학교(26개), 카네기 멜론 대학교(25개)가 지난 10년 동안 가장 많은 모델을 생산했다.
모델 출시 및 접근성 변화
주목할 만한 AI 모델의 출시 패턴은 통제된 접근 방식으로 계속 전환되고 있다.
2025년에는 API 접근이 가장 일반적인 출시 유형으로, 95개 모델 중 45개가 이 방식으로 제공되었다.
API 전용 출시는 2020년 이후 꾸준히 증가했다.
두 번째로 일반적인 출시 유형은 "오픈 웨이트(무제한)"로, 모델이 사용, 수정 및 재배포에 완전히 사용할 수 있음을 의미한다.
나머지 모델은 "호스팅 접근(API 없음)", "오픈 웨이트(제한적 사용)", "오픈 웨이트(비상업적)"를 포함한 다양한 접근 유형으로 출시되었다.
"알 수 없음"은 접근 유형이 불분명하거나 공개되지 않은 모델을 의미하며, "미출시" 모델은 독점적으로 개발자 또는 일부 파트너만 접근할 수 있다.
훈련 코드는 모델 코드보다 접근성이 더욱 낮아지고 있다.
2025년에는 95개의 주목할 만한 모델 중 80개가 해당 훈련 코드 없이 출시되었으며, 4개만이 코드를 "오픈소스"로 만들었다.
2020년에는 오픈소스 및 미출시 훈련 코드를 가진 모델의 수가 거의 같았지만, 2023년에는 대부분이 미출시되었고 그 격차는 계속 확대되고 있다.
이러한 불투명성 증가는 외부 연구자들이 결과를 재현하고, 개발을 감사하고, 안전 주장을 검증하는 능력을 제한한다.
매개변수 및 컴퓨팅 추세
주목할 만한 AI 모델의 매개변수 수는 2010년대 초부터 2022년까지 모델 아키텍처의 복잡성 증가, 데이터 가용성 증가, 하드웨어 개선, 대규모 모델의 입증된 효능에 힘입어 크게 증가했다.
그 이후로 보고된 매개변수 수의 증가는 둔화되었지만, 이는 특정 데이터 포인트의 부재로 인해 실제 성장을 과소평가할 가능성이 높다.
OpenAI, Anthropic, Google을 포함하여 최근 몇 년간 출시된 가장 자원 집약적인 모델 중 일부는 매개변수 수, 훈련 데이터셋 크기 또는 훈련 기간을 공개적으로 밝히지 않았다.
마찬가지로, 훈련 데이터셋 크기와 훈련 기간은 2020년대 초까지 증가했으며, 선도적인 모델은 100일 이상 동안 수십조 개의 토큰으로 훈련되었다.
다시 말하지만, 주요 최전선 연구소의 제한된 공개로 인해 최근 데이터는 불완전하다.
컴퓨팅은 직접 보고되지 않더라도 추정할 수 있으므로, 주목할 만한 모델의 훈련 컴퓨팅 추세는 같은 기간 동안 명확한 성장을 보여준다.
주목할 만한 모델의 컴퓨팅 요구 사항은 여러 자릿수 증가했으며, 산업계가 가장 높은 값을 차지한다.
모델 생산량이 가장 많은 두 국가를 비교할 때, 미국 모델은 중국 모델에 비해 여전히 가장 계산 집약적이다.
그러나 최근 몇 년간 미국 모델이 훈련 컴퓨팅을 직접 보고하지 않았기 때문에 비교를 완전히 입증할 수는 없다.
하이라이트: 모델이 데이터 고갈에 직면할 것인가?
지난해 AI 인덱스는 데이터 병목 현상과 훈련 데이터와 관련된 스케일링 접근 방식의 지속 가능성에 대한 우려를 강조했다.
선도적인 AI 연구원들은 대규모 모델 훈련에 사용할 수 있는 고품질 인간 텍스트 및 웹 데이터 풀이 고갈되었다고 공개적으로 주장했으며, 이는 종종 "피크 데이터"라고 불린다.
이는 역사적으로 점점 더 큰 데이터셋에 의존해 온 스케일링 법칙의 지속 가능성에 대한 업계 전반의 우려를 계속 불러일으켰다.
Epoch AI의 한 예측 세트는 특정 가정 하에 추정된 고갈 날짜가 2026년에서 2032년 사이에 올 수 있음을 시사한다.
사전 훈련에서의 합성 데이터
합성 데이터(AI 시스템이 생성한 데이터)를 사용하여 후속 모델의 성능을 향상시킬 수 있다면 실제 데이터 가용성의 한계는 덜 중요할 수 있다.
이전 AI 인덱스 보고서에서는 사전 훈련 단계에서 합성 데이터가 모델 성능을 향상시킨다는 결정적인 증거를 찾지 못했다.
2024년 보고서는 실제 훈련 데이터가 합성 데이터로 대체될 때 모델 성능이 붕괴될 수 있음을 시사하는 연구를 언급했다.
2025년 보고서는 실제 데이터가 훈련 세트의 일부로 남아 있으면 이러한 붕괴를 피할 수 있지만, 단순히 더 많은 데이터를 추가하는 것이 반드시 성능 향상으로 이어지는 것은 아니라는 최근 연구 결과를 언급했다.
합의는 대체로 변함이 없다. 사전 훈련 맥락에서 합성 데이터가 실제 데이터 고갈을 완전히 상쇄할 수 있다는 결정적인 증거는 여전히 없다.
그러나 최근 연구에 따르면 합성 데이터는 더 제한된 환경에서 가치를 제공할 수 있다.
실제 데이터와 합성 데이터를 결합하는 하이브리드 훈련 접근 방식은 최종 모델 성능에서 실제 데이터를 능가하지 않으면서도 훈련을 크게 가속화할 수 있으며, 때로는 규모에서 5~10배 가속화할 수 있다.
순수 합성 데이터로 훈련하는 것은 더 작은 모델이나 분류, 코드 생성 또는 저자원 언어 작업과 같은 좁게 정의된 작업에서 가능성을 보여주었지만, 이러한 이점은 대규모 범용 언어 모델로 일반화되지 않았다.
합성 전용 훈련이 실제 데이터와 비슷한 성능을 달성한 경우, 일반적으로 현재 최첨단 시스템과 직접 비교할 수 없는 상당히 작은 모델이 포함되었다.
예를 들어, 순전히 합성 데이터로 훈련된 SYNTHLLM 모델군은 강력한 결과를 달성하지만, 주요 벤치마크에서는 여전히 선도적인 모델에 뒤처진다
하이라이트: 데이터 중심 방법
데이터 가용성에 대한 논의는 최근 AI 연구의 중요한 변화를 간과하는 경우가 많다.
성능 향상은 점점 더 많은 데이터를 확보하는 것이 아니라 기존 데이터셋의 품질을 개선하는 데서 비롯된다.
연구자들은 데이터를 무차별적으로 확장하는 대신, 훈련 입력의 가지치기, 큐레이션 및 정제에 더 많은 노력을 기울이고 있다.
데이터 중심 방법은 레이블 정리, 샘플 중복 제거, 고품질 데이터셋 구축과 같은 관행을 통해 성능 향상을 강조한다.
점점 더 많은 연구에서 저품질 또는 오염된 데이터로 모델을 훈련하면 성능이 크게 저하될 수 있음을 보여준다.
마찬가지로, 최근 증거는 가장 유익한 훈련 입력을 선택하는 데이터 가지치기가 모든 가용 데이터를 무차별적으로 훈련하는 접근 방식보다 종종 더 나은 성능을 보인다는 것을 보여준다.
최근 대규모 모델 개발: AIME 2025에서 모델 성능은 이러한 패러다임을 실제로 보여준다.
Olmo 3 연구원들은 무차별적인 데이터 스케일링보다는 대규모 중복 제거, 품질 인식 데이터 선택 및 단계별 훈련 커리큘럼을 우선시했다.
이러한 개입은 후보 데이터 혼합을 평가하고 개선하기 위한 반복적인 피드백 루프와 결합되어, 다른 선도적인 최첨단 모델보다 훨씬 적은 토큰으로 훈련했음에도 불구하고 경쟁력 있는 성능을 달성할 수 있었다.
예를 들어, Olmo 3.1의 Think 32B 모델은 약 320억 개의 매개변수를 포함하며, Grok 4의 3조 개보다 거의 90배 적지만, AIME 2025를 포함한 여러 벤치마크에서 비슷한 성능을 달성한다.
후처리에서의 합성 데이터
최근 연구에 따르면 합성 생성 데이터는 미세 조정, 정렬, 지시 튜닝 및 강화 학습을 포함한 후처리 환경에서 모델 성능을 향상시키는 데 효과적일 수 있다.
2025년에 발표된 점점 더 많은 연구가 이 연구 결과를 뒷받침한다.
증거에 따르면 합성 후처리 데이터는 소수 샷 생성 환경, 긴 컨텍스트 기능 개선, 강화 학습 워크플로우 최적화 및 추론 전반 강화에 효과적이다.
합성 콘텐츠의 확산
2022년 11월 ChatGPT 출시 이후, 인터넷이 곧 AI 생성 콘텐츠로 넘쳐날 것이라는 예측이 있었다.
Graphite의 최근 연구에 따르면 2025년 1월부터 새로 게시된 온라인 콘텐츠의 50% 이상이 AI에 의해 생성되었다.
다른 연구에서는 2026년에는 그 비중이 훨씬 더 높을 수 있다고 예측했다.
AI 시스템 훈련에 합성 데이터의 적합성에 대한 우려가 커짐에 따라, 이러한 추세는 현재 스케일링 궤적의 장기적인 신뢰성에 대한 의문을 제기한다.
이에 대응하여 고품질 훈련 데이터에 의존하는 많은 기업들은 점점 더 독점적인 소스로 전환하고 있다.
2025년 5월, 뉴욕 타임즈는 아마존과 콘텐츠를 훈련 목적으로 사용할 수 있도록 하는 라이선스 계약을 체결했다.
2025년 중반까지 Meta는 뉴스 조직과 비슷한 논의를 진행하고 있었으며, 브리스톨 마이어스 스큅과 같은 건강 및 생명 과학 기업들은 유사한 전략을 추구했다.
이러한 발전은 최첨단 AI 시스템을 훈련하는 기업들이 공개적으로 사용 가능한 훈련 데이터의 양이 계속 감소함에 따라 데이터 확보 전략을 조정하고 있음을 시사한다.
AI 모델 개발에는 상당한 인프라 투자가 필요하다.
훈련 프로세스가 규모와 복잡성 면에서 확장됨에 따라, 기본 하드웨어 또한 속도와 효율성 면에서 개선되었다.
결과적으로 이러한 이점은 연구원과 연구소가 현실적으로 구축할 수 있는 모델의 종류를 결정한다.
이전 섹션에서 논의된 훈련 컴퓨팅의 성장은 해당 하드웨어 기능 개선 없이는 불가능했을 것이다.
이 섹션은 Epoch AI의 데이터를 활용하여 시간 경과에 따른 하드웨어 성능, 채택 및 총 컴퓨팅 용량을 추적한다.
성능 및 효율성
머신러닝 하드웨어의 최고 계산 성능은 2008년에서 2025년 사이에 출시된 제품 전반에 걸쳐 기하급수적으로 증가했다.
이러한 이점은 낮은 정밀도 유형에서 특히 두드러지며, 여기서 정밀도는 숫자 값을 나타내는 데 사용되는 비트 수를 의미한다.
FP16 및 Tensor-FP16/BF16과 같은 낮은 정밀도 형식은 이제 가장 높은 성능 수준을 보이며 많은 훈련 및 추론 설정에서 표준이 되었다.
Figure 1.2.1: 2008-25년 다양한 정밀도에 대한 ML 하드웨어의 최고 계산 성능
주목할 만한 모델을 위한 하드웨어
주목할 만한 AI 모델 간의 하드웨어 채택 패턴은 성능 및 효율성 향상을 반영한다.
2017년 이후 A100급 하드웨어로 훈련된 주목할 만한 모델의 누적 수는 증가하여 2025년에는 84개 모델이 훈련되었다.
이전 세대인 V100은 여전히 상당한 비중(69개 모델)을 차지한다.
H100과 같은 새로운 하드웨어는 초기 빠른 채택(28개)을 보였으며, TPU v3 및 TPU v4와 같은 다른 범주는 안정적인 곡선을 보인다.
Figure 1.2.2: 2017-25년 가속기별 훈련된 주목할 만한 AI 모델의 누적 수
글로벌 컴퓨팅 용량
주요 칩 설계업체의 AI 컴퓨팅 용량 공급은 계속 증가했다.
총 컴퓨팅 용량은 2022년 이후 연간 3.3배 증가하여 약 1,710만 H100 등가에 도달한 것으로 추정된다.
Nvidia AI 칩은 현재 총 컴퓨팅의 60% 이상을 차지하며, Google과 Amazon이 나머지 대부분을 공급하고 Huawei는 작지만 성장하는 점유율을 차지한다.
컴퓨팅 용량의 증가는 4장에서 설명된 투자 패턴과 밀접하게 일치하며, 선도적인 AI 기업들은 자본 지출을 늘렸고 인프라는 민간 AI 자금 조달에서 가장 빠르게 성장하는 초점 영역이 되었다.
Figure 1.2.3: 2022-25년 주요 설계업체의 AI 칩 글로벌 컴퓨팅 용량
데이터 센터 전력 용량
컴퓨팅 용량 확장은 직접적인 에너지 비용을 수반한다.
총 AI 데이터 센터 전력 용량은 2025년 4분기까지 약 29.6GW에 도달했으며, 이는 뉴욕주의 최대 수요 시 모든 전력을 공급하기에 충분한 양이다.
열 설계 전력으로 측정된 AI 칩 전력은 총 11.8GW를 차지했으며, 나머지는 냉각, 네트워킹 및 기타 데이터 센터 인프라에 할당되었다.
이 추정치는 시간이 지남에 따라 판매된 선도적인 AI 칩의 정격 전력 용량을 기반으로 하며, 인프라 전력 공급에 필요한 추가 요구 사항을 설명하기 위해 약 2.5배의 승수가 적용되었다.
Figure 1.2.4: 2022-25년 글로벌 AI 데이터 센터 전력 용량
2.5. 데이터 센터
개요
AI 개발을 뒷받침하는 물리적 인프라는 이전 섹션에서 설명한 모델 및 컴퓨팅을 넘어선다.
데이터 센터는 컴퓨팅이 수용되는 곳이며, 그 용량, 지리적 분포 및 기본 공급망은 어떤 AI 시스템을 구축할 수 있고 어디에 구축할 수 있는지를 결정한다.
이 섹션은 Cloudscene의 데이터를 활용하여 데이터 센터의 글로벌 분포를 추적하고, 지리적 및 공급망 역학에 대한 맥락을 제공하기 위해 더 넓은 AI 인프라 생태계에 대한 개요를 소개한다.
AI 인프라: GPU를 넘어
현대 AI 데이터 센터는 컴퓨팅, 스토리지, 통신 및 특수 하드웨어의 조합에 의존하여 AI 시스템이 대규모로 실행될 수 있도록 한다.
GPU 및 Tensor Processing Units(TPU)와 같은 맞춤형 가속기가 가장 널리 논의되지만, 이는 더 넓은 인프라 스택의 한 계층에 불과하다.
이러한 칩에 의해 처리되는 모든 데이터는 고대역폭 메모리(HBM)에 저장되며, 이는 대량의 데이터를 효율적으로 이동시키는 것을 지원한다.
HBM의 선도적인 제조업체는 SK하이닉스(한국), 삼성(한국), 마이크론(미국)이다.
훈련 중에 GPU는 서로 데이터를 지속적으로 공유해야 하며, 이는 InfiniBand와 같은 고대역폭 네트워킹 아키텍처를 실행하는 광섬유 케이블을 통해 달성되는 빠르고 높은 처리량의 네트워크 연결을 필요로 한다.
이러한 하드웨어 뒤의 공급망은 또 다른 차원을 추가한다.
Nvidia 및 SK하이닉스와 같은 회사는 칩을 설계하지만 제조하지는 않는다.
대신, 그들은 전문 반도체 파운드리, 주로 대만 반도체 제조 회사(TSMC) 및 삼성 파운드리에 설계를 제공하며, 이들은 현대 AI 하드웨어가 요구하는 나노미터 규모로 칩을 제조한다.
제조된 칩은 ASE 그룹(대만) 및 Amkor Technology(미국)와 같은 조립 회사에서 패키징 및 테스트된다.
TSMC는 Nvidia의 Blackwell GPU 및 AMD의 MI300X를 포함하여 거의 모든 선도적인 AI 칩을 제조하므로 글로벌 AI 공급망에서 단일 의존 지점이다.
모든 계층에는 수십 년간 축적된 전문 지식, 특수 장비 및 상당한 자본 투자가 필요한 높은 진입 장벽이 있다.
인프라 생태계는 AI 기능 외에도 교육 우선순위 및 인력 개발을 형성하므로 중요하다.
7장(교육)은 AI 소프트웨어 관련 학위와 AI 하드웨어 관련 학위를 구분한다.
이러한 구분은 여기서도 관련이 있으며, 다른 국가들이 공급망 전반에 걸쳐 다른 역할을 수행한다.
지리적 분포
세계 데이터 센터 인프라의 대부분은 소수의 국가에 위치한다.
2025년 미국은 5,427개의 데이터 센터로 압도적인 선두를 달렸으며, 이는 다른 어떤 국가보다 10배 이상 많은 수치이다.
독일(529개), 영국(523개), 중국(449개)이 그 뒤를 이었으며, 나머지 대부분의 국가들은 각각 300개 미만의 시설을 보유했다.
미국이 분명한 선두를 보이지만, 다른 국가 순위는 시설 규모, 컴퓨팅 용량 또는 활용도 차이를 반영하지 않는다는 점을 이해하고 평가해야 한다.
2.6. 에너지 및 환경 영향
개요
AI 시스템이 확장되고 더 널리 배포됨에 따라 에너지 소비 및 환경 발자국이 매우 가시화되었다.
이전 섹션에서 설명한 컴퓨팅 및 인프라 추세는 에너지, 물 및 탄소 배출량에 대한 막대한 수요로 이어진다.
이 섹션은 AI 개발의 세 가지 영역인 훈련, 추론 및 데이터 센터 에너지 사용 전반에 걸쳐 이러한 비용을 조사한다.
분석은 Epoch AI의 모델 수준 데이터, 최근 학술 벤치마킹 연구(Jegham et al., 2025), 데이터 센터에 대한 국제 에너지 기구(IEA, 2025) 보고서 및 de Vries와 Gao(2025)의 데이터를 활용한다.
훈련
선도적인 머신러닝 하드웨어는 2016년 이후 와트당 FLOP/s로 측정했을 때 더욱 효율적으로 성장했다.
선도적인 칩은 10년 전보다 와트당 약 10배 더 많은 계산을 제공하며, Nvidia B200 및 Google TPU v5e가 가장 효율적인 칩 중 하나이다.
그러나 모델은 효율성 개선보다 빠르게 확장되었으므로, 최첨단 시스템을 훈련하는 데 필요한 총 전력은 계속 증가했다.
모델 훈련에 필요한 총 전력 소비량은 2010년대 초 이후 여러 자릿수 증가했다.
데이터 세트에서 가장 컴퓨팅 집약적인 모델인 Grok 3 및 Llama 4 Behemoth는 훈련 중에 1억 와트 이상을 필요로 했다.
개발자의 제한된 공개로 인해 새로 출시된 많은 모델에 대한 전력 소비량 정보는 제공되지 않는다.
훈련으로 인한 탄소 배출량은 훨씬 더 급격하게 증가했다.
2012년 AlexNet 훈련은 0.01톤의 CO2e를 배출한 것으로 추정되는 반면, 2025년 Grok 4 훈련은 약 72,816톤을 배출했다.
이를 맥락화하면, 이는 평균 자동차의 평생 탄소 배출량(63톤)보다 많은 양이다.
일반적으로 더 큰 모델은 더 많은 배출량을 생성하지만 항상 그런 것은 아니다.
이는 하드웨어 효율성, 훈련 기간 및 사용되는 에너지원의 탄소 집약도에 따라 달라질 수 있다.
예를 들어, DeepSeek v3는 약 597톤을 배출했으며, 이는 비슷한 크기의 모델보다 훨씬 적은 양이다.
추론
훈련 비용이 일반적으로 가장 많은 관심을 받았지만, 추론은 AI의 총 에너지 발자국에서 점점 더 큰 비중을 차지한다.
모델이 대규모로 배포되면 쿼리를 처리하는 데 필요한 누적 에너지가 몇 달 이내에 훈련의 일회성 비용을 초과할 수 있다.
Jegham et al. (2025)의 최근 벤치마킹은 모델당 추론 에너지 소비량 및 중간 길이 프롬프트(약 1,000개 입력 토큰 및 1,000개 출력 토큰으로 정의됨)에 대한 탄소 배출량 추정치를 제공한다.
2025년 에너지 소비량 상위 15개 모델 중 DeepSeek V3.2 Exp 및 DeepSeek V3.2가 쿼리당 가장 많은 양(23Wh)을 소비했으며, GPT-5 (high)가 21.9Wh로 그 뒤를 이었다.
Claude 4 Opus 및 GPT-5 min (medium)과 같은 모델은 5~6Wh를 소비하며 하위권에 속한다.
탄소 배출량으로 순위를 매길 때도 모델은 비슷한 패턴을 보인다.
DeepSeek V3.2 Exp 및 DeepSeek V3.2는 중간 길이 프롬프트당 약 14그램의 CO2e로 가장 높은 배출량을 기록했다.
비교를 위해 Claude 4 Opus 및 Mistral Medium 3은 각각 1.6그램 및 1.5그램으로 가장 낮았다.
같은 해에 출시된 모델들 사이에서도 넓은 편차가 나타나며, 추론 효율성이 다양할 뿐만 아니라 더 높은 기능이 반드시 환경 비용에 비례하는 것은 아님을 보여준다.
단일 쿼리 수준에서는 수치가 더 적당해 보인다.
짧은 GPT-4o 쿼리는 약 0.42Wh를 소비하며, 이는 Google 검색(0.3Wh)보다 40% 더 많다.
8개의 중간 길이 쿼리로 구성된 일일 세션은 스마트폰 2대를 충전하는 것과 비슷한 에너지(9.7Wh)를 사용한다.
그러나 매일 수억 개의 쿼리를 처리하면 소비량은 훨씬 더 커진다.
물 소비량도 마찬가지이다.
GPT-4o 추론에 대한 연간 추정치는 약 1.3~1.6킬로리터에 달하며, 이는 상한선에서 1,200만 명의 연간 식수 수요를 초과한다.
데이터 센터 사용량
모델 및 쿼리의 전력 수요는 훨씬 더 큰 인프라 발자국으로 이어진다.
AI 가속기 모듈의 추정 전력 수요는 2024년까지 누적 약 5,200MW에 달했다.
Nvidia가 가장 큰 비중을 차지했으며, 이는 글로벌 AI 칩 용량에서 회사의 선도적인 위치와 일치한다.
이러한 가속기를 지원하는 전체 시스템(서버, 냉각, 네트워킹)을 포함하면 추정 수요는 약 9,400MW에 달했다.
그러나 de Vries와 Gao(2025)의 이러한 수치는 활용률 및 시설 수준 효율성의 변동으로 인한 불확실성을 포함하며, 이는 차트의 오차 막대에 반영되어 있다.
Figure 1.4.9: AI 가속기 모듈의 추정 전력 수요
Figure 1.4.10: 올인 AI 시스템의 추정 전력 수요
이러한 규모를 관점에서 보면, 올인 AI 시스템의 누적 전력 수요는 스위스 또는 오스트리아의 국가 전력 소비량과 비슷하며, 비트코인 채굴의 약 절반에 해당한다.
암호화폐를 제외하면, 글로벌 데이터 센터는 약 47,000MW로 가장 높은 추정 전력 수요를 차지했으며, AI 하드웨어는 그 총량에서 점점 더 큰 비중을 차지한다.
Figure 1.4.11: 추정 전력 수요: AI 하드웨어 vs. 국가 소비량, 비트코인 채굴 및 글로벌 데이터 센터
그러나 비용은 반대 방향으로 움직이고 있다.
2006년 이후 GPU 컴퓨팅 비용은 99% 이상 감소했다.
이러한 감소는 이 장에서 설명된 스케일링 추세를 가능하게 하는 데 핵심적인 역할을 했으며, 10년 전만 해도 비용이 너무 많이 들어 불가능했을 수준으로 모델을 훈련하고 배포하는 것을 경제적으로 실현 가능하게 만들었다.
지역 수준에서 데이터 센터 전력 소비량은 모든 주요 지역에서 증가했으며, 2030년까지 계속 증가할 것으로 예상된다.
미국이 가장 큰 비중을 차지하며, 중국, 유럽 및 나머지 아시아가 그 뒤를 잇는다.
2.7. 오픈소스 AI 소프트웨어
개요: AI 개발 활동
이전 섹션에서는 주목할 만한 최첨단 모델과 이를 구축하고 유지하는 데 필요한 인프라에 중점을 두었다.
GitHub 및 Hugging Face와 같은 오픈소스 플랫폼은 AI 모델을 실험하고 구축하는 개발자 생태계를 보여주는 다른 관점을 제공한다.
이러한 활동의 대부분은 학술 출판물이나 최첨단 모델 출시에는 반영되지 않는다.
AI 인덱스는 두 플랫폼의 데이터를 분석하여 오픈소스 AI 개발이 시간이 지남에 따라 어떻게 진화하고 있는지 더 잘 이해한다.
프로젝트
오픈소스 개발 규모는 꾸준히 증가했다.
AI 관련 GitHub 프로젝트 수는 2011년 1,549개에서 2025년 약 560만 개로 증가했으며, 2024년 대비 연간 성장률은 23.7% 가속화되었다.
그러나 대부분의 저장소는 종종 개인 또는 실험적인 작업으로 구성되며 최소한의 관심을 받는다.
커뮤니티 참여의 대략적인 지표인 최소 10개의 별을 받은 프로젝트로 필터링하면 2025년에는 206,880개로 감소한다.
두 측정값 모두 성장 궤적은 비슷하다.
더 가시적인 오픈소스 AI 프로젝트의 지리적 분포는 시간이 지남에 따라 변화했다.
최소 10개의 별을 받은 프로젝트 중 미국은 2025년에 가장 큰 비중(31.7%)을 차지했지만, 다른 지역의 개발자들이 플랫폼에서 존재감을 높이면서 2011년 거의 80%에서 꾸준히 감소했다.
유럽과 나머지 세계는 프로젝트 수에서 증가했으며, 중국의 비중은 2019년 이후 안정되었다.
인도는 계속해서 기여도가 증가하여 최소 10개의 별을 받은 프로젝트의 5.2%를 차지한다.
GitHub 데이터는 Gitee 또는 GitCode와 같은 국내 플랫폼을 사용하는 중국 개발자를 포착하지 못하므로, 중국의 글로벌 오픈소스 AI 활동 비중은 과소평가될 가능성이 높다.
중국에 대한 기존 지리적 귀속은 IP 기반 지리적 위치가 아닌 자체 보고된 위치를 사용한다.
프로젝트 수 외에도 GitHub 별점은 오픈소스 커뮤니티에서 개발자 관심과 참여의 또 다른 신호를 제공한다.
AI 프로젝트의 총 별점 수는 2023년 1,400만 개에서 2025년 1,820만 개로 증가했다.
모든 주요 지리적 지역에서 전년 대비 증가를 보였다.
그러나 별점에 대한 지리적 패턴은 위 프로젝트 점유율 데이터와 다르다.
프로젝트 점유율이 감소했음에도 불구하고 미국은 누적 3천만 개의 별점으로 가장 많은 별점을 축적했다.
따라서 오픈소스 활동이 지리적으로 더욱 분산되더라도, 가장 많은 참여를 유치하는 프로젝트는 여전히 불균형적으로 미국 기반이다.
모델 및 데이터셋 생태계
GitHub 보기를 보완하기 위해 이 섹션에서는 AI 모델 및 데이터셋을 위한 널리 사용되는 커뮤니티 플랫폼이자 오픈 저장소인 Hugging Face의 메타데이터를 사용한다.
분석은 최근 활동 및 채택 추세를 이해하기 위해 2022년에서 2025년 사이에 생성 또는 업로드된 자산에 중점을 둔다.
업로드 활동은 지난 몇 년 동안 계속 증가했으며, 2024년 2분기 이후 눈에 띄게 증가했다.
2023년에서 2025년까지 모델 업로드는 세 배 이상 증가했으며, 데이터셋 업로드는 네 배 증가했다.
다운로드 분포도 2023년 이후 변화했다.
지리적으로 미국에서 개발된 모델은 비제휴 사용자에게 점유율을 잃었다.
개발자 측면에서는 Google 및 Meta와 같은 주요 민간 행위자들이 주요 저자에서 상대적으로 적은 다운로드 비중을 차지하는 것으로 전환되었으며, Sentence Transformers 및 BERT 커뮤니티와 같은 커뮤니티는 성장했다.
총 모델 다운로드의 상당 부분은 "기타" 범주에 속하며, 이는 가장 많이 다운로드된 모델이 소수의 소스와 연결되어 있음에도 불구하고 개발 활동의 더 넓은 분포를 반영한다.
가장 인기 있는 모델 유형은 지난 3년 동안 변화했다.
텍스트 임베더, 분류기 및 오디오 모델은 2022년에 전체 다운로드의 거의 70%를 차지했지만, 2025년에는 6% 미만으로 감소했다.
텍스트 생성, 다중 모드 및 비디오 생성 모델이 그 자리를 차지하며 성장했다.
텍스트 생성은 2025년에 선두를 달렸으며, 전체 다운로드의 42% 이상을 차지했다.
이미지 생성 모델도 꾸준히 증가하여 두 번째로 많이 다운로드된 범주로 남아 있다.
이러한 변화에도 불구하고 다운로드는 여전히 매우 집중되어 있으며, 거의 80%가 상위 세 가지 범주와 관련되어 있다.
2.8. 출판물
개요
이 장의 전반부에서는 AI 개발을 뒷받침하는 모델, 인프라 및 에너지를 추적했다.
이 섹션은 연구 결과물, 특히 영어 AI 출판물 및 인용으로 전환한다.
출판물은 AI 연구 활동의 규모를 종단적으로 보여주는 신뢰할 수 있는 신호를 제공하며, AI 인덱스는 이를 시간이 지남에 따라 일관되게 추적해 왔다.
출판량은 연구 품질의 척도가 아니며, 모든 연구가 색인된 데이터베이스에 나타나는 것은 아니지만, 이 접근 방식은 매년 연구 최전선을 추적하는 일관된 방법을 제공한다.
분석은 2025년부터 AI 인덱스가 사용해 온 서지 데이터베이스인 OpenAlex를 활용하며, 출판량과 인용 패턴을 통한 하위 영향력을 모두 고려한다.
총 AI 출판물 수
총 AI 출판물 수는 계속 증가하고 있다.
AI 출판물은 2013년에서 2024년 사이에 두 배 이상 증가하여 약 102,000개에서 약 258,000개로 증가했다.
2024년에도 성장은 계속되었지만, 2023년 대비 6.3% 증가하여 속도는 둔화되었다.
AI 연구는 이제 더 넓은 컴퓨터 과학 생태계의 상당 부분을 차지하며, 2024년에는 전체 컴퓨터 과학 출판물의 40.9%를 차지한다.
장소별
2024년에는 저널이 AI 출판물의 가장 큰 비중(62.8%)을 차지했으며, 회의(23.8%)가 그 뒤를 이었다.
2013년 이후 저널 및 회의 출판물은 절대적인 수치에서 증가했지만, 상대적인 비중은 변화했다.
회의에 나타나는 AI 출판물의 비중은 2013년 36.6%에서 현재 수준으로 꾸준히 감소했다.
그러나 가장 최근 연도의 결과는 장소 할당의 지연을 반영할 수도 있다.
논문은 종종 arXiv와 같은 저장소에 먼저 나타난 다음 저널이나 회의에 공식적으로 출판되기 때문이다.
회의 참석
출판 장소 패턴은 AI 연구가 공식적으로 출판되는 곳을 포착하는 반면, 회의 참석은 연구 커뮤니티 참여에 대한 보완적인 관점을 제공한다.
AI 인덱스가 추적하는 16개 주요 회의(AAAI, AAMAS, CVPR, EMNLP, FAccT, ICAPS, ICCV, ICLR, ICML, ICRA, IJCAI, IROS, KR, NeurIPS, UAI, IUI) 전반에 걸쳐 2024년 총 참석자 수는 전년 대비 증가했다.
NeurIPS, CVPR, ICML을 포함한 대규모 회의는 계속해서 가장 많은 참석자를 유치했으며, ICAPS, KR, UAI와 같은 소규모 회의는 안정적인 참여 수준을 유지했다.
이 데이터는 많은 회의가 최근 가상 또는 하이브리드 형식으로 전환되었으므로 주의해서 해석해야 한다.
회의 주최측은 가상 회의에서 정확한 참석자 수를 측정하기 어렵다고 보고하며, 가상 회의는 전 세계 연구원들의 더 높은 참석을 허용한다.
AI 인덱스는 가상, 하이브리드 및 대면 참여를 포함하는 총 참석자 수를 보고한다.
국가별 소속
2024년 중국은 AI 출판물의 17.8%를 차지했으며, 유럽은 11.1%, 인도는 7.6%를 차지했다.
중국 AI 출판물은 2024년 전체 AI 인용의 20.6%를 차지했으며, 유럽이 19.5%, 미국이 12.6%로 그 뒤를 이었다.
미국은 출판 점유율에서 3% 포인트 감소했지만, 인용 점유율은 상대적으로 변함이 없었다(2024년 12.6% vs. 2023년 13.03%).
출판 데이터에서 "알 수 없음"의 비중은 2024년 39.3%로 급증했으며, 이는 메타데이터 범위의 변화를 반영할 가능성이 높다.
출판물 및 인용의 지리적 분포는 이 장의 앞부분에서 논의된 주목할 만한 모델 추세에 맥락을 추가하며, 소수의 국가가 활동의 불균형한 비중을 차지한다.
부문 및 조직별
학계는 2024년 AI 출판물의 대부분(68.1%)을 생산했으며, 정부 기관(12.4%), 산업계(11.5%), 비영리 조직(4.6%)이 그 뒤를 이었다.
부문별 분포는 지역별로 다르다.
미국에서는 AI 출판물의 더 높은 비중이 산업계(24.6%)에서 나왔으며, 중국(18%)과 비교된다.
중국에서는 정부 기관이 더 의미 있는 기여자(25.1%)였다.
유럽은 학계에서 시작된 AI 출판물의 비율이 가장 높았다(55.3%).
Figure 1.6.8: 2013-24년 부문별 CS 분야 AI 출판물 비율(총계)
Figure 1.6.9: 2024년 부문 및 지역별 CS 분야 AI 출판물 비율(총계)
2024년 AI 연구는 소수의 핵심 주제에 집중되어 있었지만, 영역의 폭은 계속 확장되었다.
이전과 마찬가지로 가장 널리 퍼진 연구 주제는 머신러닝(37%)이었고, 컴퓨터 비전(22.4%), 패턴 인식(11.2%), 자연어 처리(10%)가 그 뒤를 이었다.
생성형 AI에 대한 출판물은 전년도 추세를 이어가며 급격한 성장을 보였다.
AI 인덱스 주제 분류기는 단일 출판물에 여러 주제 레이블을 할당할 수 있으므로, 주제 총계는 상호 배타적인 범주가 아닌 중복되는 범주로 볼 수 있다.
Figure 1.6.10: 2013-24년 주요 주제별 AI 출판물 수
AI 인덱스는 OpenAlex의 인용 데이터를 사용하여 2021년에서 2024년까지 가장 많이 인용된 AI 출판물 100개를 식별했다.
인용 지연으로 인해 이 세트는 시간이 지남에 따라 인용이 축적되면서 변화할 수 있다.
위 출판량 데이터는 연구 활동의 규모를 포착하는 반면, 상위 100개는 어떤 작업이 가장 많은 인정과 영향력을 얻고 있는지에 대한 더 선별적인 관점을 제공한다.
상위 100개 출판물의 지리적 분포는 시간이 지남에 따라 변화했다.
미국은 여전히 매년 가장 많이 인용된 출판물에서 가장 높은 순위를 차지하지만, 그 비중은 2021년 64개에서 2024년 46개로 점차 감소했다.
중국의 비중은 2023년 34개에서 2024년 41개로 증가했으며, 호주는 2023년 2개에서 2021년 6개, 2024년 14개로 많이 인용된 출판물이 증가했다.
Figure 1.6.11: 2021-24년 주요 지역별 상위 100개 고인용 출판물 수
상위 100개 출판물의 부문 구성은 학계가 가장 많이 인용된 출판물을 생산하면서 일관성을 유지했다.
산업계 기여는 2021년 17개, 2022년 19개에서 2024년 6개로 급격히 감소했으며, 이는 산업계의 주목할 만한 모델 출시 비중이 계속 증가했음에도 불구하고 나타났다.
조직 분포는 연도별로 다르지만, 결과는 소수의 기관에 집중되어 있다.
2024년에는 스탠포드 대학교와 구글이 각각 7개의 출판물로 선두를 달렸으며, 중국 과학원과 마이크로소프트가 각각 5개의 출판물로 그 뒤를 이었다.
2.9. 특허
개요
출판물이 연구 결과물을 추적하는 반면, 특허는 응용 혁신 및 상업 개발에 대한 통찰력을 제공한다.
이 섹션은 시간 경과에 따른 글로벌 AI 특허 추세를 조사한다.
특허는 특히 응용 AI 맥락에서 조직 및 지리적 영역 전반의 혁신을 추적하는 또 다른 렌즈를 제공할 수 있다.
출판물 데이터와 마찬가지로 AI 특허 데이터가 사용 가능해지기까지 상당한 지연이 있으며, 2024년이 가장 최근에 접근 가능한 연도이다.
분석은 유럽 특허청(EPO)에서 제공하는 포괄적인 데이터베이스인 PATSTAT Global의 특허 수준 서지 기록을 활용한다.
글로벌 동향
전 세계적으로 부여된 AI 특허 수는 2010년 3,866개에서 2024년 131,121개로 기하급수적으로 증가했다.
2023년에서 2024년 사이에 특허 부여는 8.2% 증가했다.
중국은 전 세계 총계의 74.2%를 차지하며 대부분을 차지한다.
미국은 12.1%(15,290개 특허)로 다음으로 주요 기여자이며, 유럽(3%)과 인도(0.4%)가 그 뒤를 이었다.
지난 10년 동안 미국의 비중은 2015년 42.8%의 정점에서 꾸준히 감소한 반면, 중국의 비중은 20% 미만에서 현재 수준으로 증가했다.
특허와 출판물은 R&D 파이프라인의 다른 단계를 반영하므로, 중국의 두 분야에서의 선두는 직접적으로 상관관계가 없더라도 이전에 설명된 국가의 연구 존재감 증가와 일치한다.
1인당 특허
인구 규모로 특허 활동을 정규화하면 다른 지역 리더가 나타난다.
2024년 한국은 1인당 부여된 AI 특허 수가 가장 많았고(14.3%), 룩셈부르크(12.3%), 중국(7.0%)이 그 뒤를 이었다.
선행 인용 흐름
새로 출원된 특허가 이전 특허를 참조할 때, 이러한 참조를 선행 인용이라고 한다.
이는 종종 영향력의 대리 지표로 사용되는데, 이는 발명이 나중에 작업에 얼마나 자주 영향을 미치는지 나타내기 때문이다.
이러한 측정에 따르면, 미국은 전체 AI 특허 선행 인용의 절반 이상을 차지하며, 이는 특허량의 12.1% 점유율과 대조되는 하위 영향력의 신호이다.
중국은 가장 많은 특허량을 생산했음에도 불구하고 2위를 차지한다.
선행 인용과 기술적 영향력 간의 관계는 간단하지 않으며 의문이 제기되었다(Higham et al., 2021).
또한 모든 국가에서 강한 국내 편향이 있으며, 대부분의 인용은 국내에서 발생한다.
이는 특허 인용 지리에서 잘 문서화된 패턴이다(Jaffe et al., 1993; Cotterlaz et al. 2025; Verluise et al., 2025).
그럼에도 불구하고 국경 간 흐름은 대칭적이지 않다.
중국 특허는 미국 출원에서 자주 인용되는 반면, 미국 특허는 중국 특허에서 훨씬 덜 자주 나타난다.
지식 확산 속도
특허 인용 지연(특허 출판과 첫 번째 선행 인용 사이의 시간)은 학문 분야 내에서 지식이 얼마나 빨리 확산되는지 측정하는 데 사용될 수 있다.
AI 특허의 경우, 대부분은 2~3년 이내에 첫 번째 인용을 받으며, 이는 비교적 빠른 확산을 반영한다.
속도는 국가별로 다르다.
미국 특허는 시간이 지남에 따라 더 빨리, 더 일관되게 인용되는 경향이 있으며, 다른 지역의 32%~44%와 비교하여 19%만이 인용되지 않은 상태로 남아 있다.
일본 특허는 초기에는 영향력이 적지만, 약 6년 후에는 인용 활동이 모든 지역에서 안정된다.
이러한 패턴은 위 선행 인용 데이터와 일치하지만, 인용 규범 및 국내 편향의 차이도 역할을 할 수 있다.
Figure 1.7.6: 지역별 AI 특허 지식 확산 속도
기술적 근접성
기술적 근접성은 국가들이 유사한 유형의 AI 혁신에 수렴하고 있는지 또는 다른 경로를 추구하고 있는지 측정한다.
Bar et al. (2012)이 제안한 방법을 사용하여, 분석은 각 국가의 AI 특허 포트폴리오가 두 가지 가장 큰 참조점인 미국과 중국과 얼마나 밀접하게 일치하는지 비교한다.
중복은 0(유사성 없음)에서 1(동일)까지의 척도로 점수가 매겨진다.
대부분의 국가들은 오른쪽 상단에 집중되어 있으며, 이는 그들의 AI 특허가 미국과 중국 모두와 유사한 기술 영역을 다루고 있으며, 미국 포트폴리오에 더 강하게 기울어져 있음을 의미한다.
예를 들어, 인도와 호주는 두 국가 모두와 거의 80%의 중복을 보이는 특허 포트폴리오를 가지고 있다.
덴마크는 두 참조점과 가장 유사성이 낮으며, 중국과 45%, 미국과 52%의 중복만 보인다.
이는 덴마크의 AI 특허가 미국과 중국 모두를 지배하는 핵심 컴퓨팅 및 데이터 처리 범주(G06F, G06N, G06K)가 아닌 에너지 및 풍력 관련 기술 범주(특허 코드 Y02E, F03D, F05B)에 집중되어 있기 때문이다.
대부분의 국가의 AI 혁신 포트폴리오는 유사하게 구성되어 있지만, 국가 산업 강점은 AI가 적용되는 분야에 영향을 미치는 경향이 있다.
Figure 1.7.7: 2010-24년 AI 특허 포트폴리오의 미국 및 중국과의 기술적 근접성
하이라이트: AI 특허 사례
특허 CN111431996A: 자원 구성 방법 및 장치, 장비 및 매체, 2022, 중국
머신러닝 예측 모델은 클러스터 내 여러 서비스에 컴퓨팅 자원을 할당하는 방법을 결정한다.
이 시스템은 트래픽 볼륨, CPU, 메모리 및 네트워크 사용량과 같은 과거 및 실시간 신호를 학습하여 올바른 자원 구성을 추론한다.
이를 통해 수동 규칙에 의존하지 않고 자동화된 동적 스케일링 결정을 내릴 수 있다.
특허 US11436777B1: 머신러닝 기반 위험 시각화 시스템, 2022, 미국
이 시스템은 머신러닝 모델을 훈련하여 특정 위치에 대한 위험 속성(시간, 경로, 심각도)을 예측하고 지리 공간 이미지에서 인프라를 식별한다.
모델 출력을 결합하여 지도를 주석 처리하고, 위험이 중요한 자산과 교차하는 위치를 보여준다.
이 시스템은 또한 인과 추론을 지원한다. 예를 들어, 위험에 반복적으로 영향을 받는 인프라를 식별한다.
이러한 기능은 결정론적 매핑 논리보다는 학습된 예측 및 이미지 인식 모델에 의존한다.
특허 US2023239456A1: 넓은 시야에 걸쳐 ML 기반 스테레오 뷰 합성을 제공하는 디스플레이 시스템, 2025, 미국
이 헤드 마운트 디스플레이는 깊이 추정 및 재구성을 포함한 머신러닝 기술을 사용하여 외부 카메라에서 원근법적으로 정확한 스테레오 이미지를 생성한다.
신경 모델은 장면 기하학을 추론하고 카메라 시점이 사용자 눈과 일치하지 않는 간격을 채워 디스오클루전, 아티팩트 감소 및 선명화와 같은 실시간 시각 문제를 처리한다.
2.10. AI 저자 및 발명가
개요
위에서 논의된 출판물 및 특허는 연구 및 개발 결과물을 반영한다.
Zeki 데이터를 사용하여 AI 인덱스는 시간이 지남에 따라 이러한 작업의 저자 및 발명가의 지리적 분포 및 이동 패턴을 조사했다.
이 섹션은 4장(경제)에서 논의된 더 넓은 노동 시장 지표보다 더 좁은 AI 인재 활동을 다룬다.
Zeki는 중국 외부의 인재를 연구, 데이터 저장소 및 새로운 모델과 같은 관찰 가능한 AI 결과물을 기반으로 식별한다.
데이터셋은 북미, 유럽, 아시아, 라틴 아메리카 및 중동의 국가 그룹에 걸쳐 2010년에서 2025년까지의 기간을 다룬다.
지리적 분포
2025년에는 식별된 AI 저자 및 발명가의 가장 큰 비중이 미국(220,520명)에서 나왔고, 인도(50,460명), 독일(48,520명)이 그 뒤를 이었다.
영국(34,370명), 캐나다(31,450명), 프랑스(18,820명)는 호주, 네덜란드, 이탈리아, 브라질, 스위스 등과 함께 더 넓은 기여자 분포를 구성하는 두 번째 계층을 형성했다.
1인당 데이터를 살펴보면, 총량으로 볼 때 보이지 않는 상대적으로 높은 수준의 AI 활동을 보이는 국가들이 나타난다.
스위스는 인구 10만 명당 110.5명의 AI 저자 및 발명가로 선두를 달렸고, 싱가포르(109.5명)가 그 뒤를 이었다.
핀란드(77.6명), 네덜란드(77.6명), 덴마크(66.3명)와 같은 인구가 적은 국가들은 독일(58.1명) 및 영국(49.6명)과 같은 더 큰 국가들보다 높은 순위를 차지한다.
Figure 1.8.1: 2025년 국가별 상위 AI 저자 및 발명가 수
Figure 1.8.2: 2025년 국가별 인구 10만 명당 상위 AI 저자 및 발명가 수
교육 수준별
상위 AI 저자 및 발명가의 교육 프로필은 국가별로 다르지만, 대부분의 국가에서 박사 학위 소지자와 석사 학위 소지자가 2025년에 대부분을 차지한다.
영국(51.1%)과 호주(50.5%)가 박사 학위 소지자의 비중이 가장 높았고, 스위스(43.6%), 한국(42.5%), 미국(42%)이 그 뒤를 이었다.
인도와 브라질은 박사 학위 소지자의 비중이 상대적으로 낮고 다른 학위 수준에 걸쳐 더 넓은 분포를 보이는 등 더 다양한 분포를 보인다.
Figure 1.8.3: 2010-25년 교육 수준 및 국가별 상위 AI 저자 및 발명가 비율
성별
AI 저자 및 발명가 간의 성별 격차는 모든 국가에서 나타나며, 모든 경우에 남성이 대부분을 차지하지만 격차의 크기는 다양하다.
브라질, 한국, 일본에서는 식별된 AI 인재의 80% 이상이 남성이다.
사우디아라비아(32.3%), 호주(30.1%), 캐나다(29.6%), 이탈리아(29.5%)에서는 여성 대표성이 다소 높지만, 어떤 국가도 평등에 근접하지 못한다.
더 중요한 것은 거의 모든 국가에서 남성-여성 비율이 2010년에서 2025년까지 변동이 없었다는 점이다.
전반적인 AI 인재 증가에도 불구하고 성별 균형에는 의미 있는 진전이 없었다.
7장(교육)은 AI 관련 학위 취득에서 비슷한 패턴을 설명하며, 모든 수준에서 여성이 여전히 과소 대표된다.
전문 분야별
AI 저자 및 발명가는 다양한 전문 분야에 분포되어 있지만, 각 국가는 자체적인 강조점을 보인다.
의료 및 생물정보학, 컴퓨터 비전 및 이미지 처리, 소프트웨어 엔지니어링은 전 세계적으로 가장 일반적인 분야 중 하나이며, 여러 국가에서 전체 인력의 10% 이상을 차지한다.
몇 가지 국가 수준 패턴은 이 장의 앞부분에서 논의된 연구 결과와 연결된다.
예를 들어, 한국은 하드웨어, VLSI 및 IoT 분야에서 가장 높은 인재 비중(20%)을 차지하며, 이는 1.3절에서 설명된 반도체 공급망에서의 역할과 일치한다.
브라질은 소프트웨어 엔지니어링 인재의 가장 높은 비중(18%)을 차지하는 반면, 사우디아라비아는 보안, 개인 정보 보호 및 암호화 분야에서 선두를 달린다(15%).
이동성
이동성은 순유입으로 측정되며, 이는 해당 국가로 이동하거나 해당 국가에서 이동하는 AI 저자 및 발명가의 수의 차이이다.
미국은 2020년 이후 순유입이 계속 양수였으며, 이는 인재를 잃는 것보다 더 많은 인재를 유치한다는 것을 의미한다.
그러나 그 규모는 2022년 324.6명에서 2025년 26.0명으로 감소했다.
대부분의 다른 국가들은 더 작은 규모로 운영된다.
사우디아라비아(3.1명)와 덴마크(2.1명)는 2025년에 순유입이 양수인 몇 안 되는 국가 중 하나였다.
2020년경에 강한 유입을 보였던 캐나다는 2025년까지 -7.1명으로 감소했다.
독일도 -2.4명으로 순유입이 음수였으며, 인도는 2025년에 -16.9명으로 가장 큰 순유출을 기록했다.
이러한 흐름은 4장 노동 시장 섹션에서 더 자세히 논의된 이민 정책 및 투자 및 고용의 지리적 분포를 포함한 다른 요인과 관련이 있다.
3. 기술 성능
AI 모델은 2025년에 언어, 추론, 코딩, 수학 전반에 걸쳐 벤치마크 점수가 상승하며 빠르게 개선되었다. 그러나 평가 도구는 기술 발전 속도를 따라가지 못하고 있으며, 벤치마크의 신뢰성에 대한 의문이
커지고 있다.
3.1. 개요
AI 모델의 빠른 발전과 평가 시스템의 한계
AI 모델은 2025년에 언어, 추론, 코딩, 수학 전반에 걸쳐 벤치마크 점수가 상승하며 빠르게 개선되었다.
그러나 평가 도구는 측정하도록 구축된 기술 발전 속도를 따라가지 못하고 있으며, 벤치마크의 신뢰성에 대한 의문이 커지고 있다.
이러한 한계에도 불구하고, 상위 모델 간의 격차가 줄어들고 있다는 명확한 패턴이 나타난다.
이러한 격차 축소는 지리적으로도 확장되어, 미국과 중국의 상위 모델 간의 격차가 거의 완전히 해소되었다.
능력이 더 이상 명확한 차별화 요소가 아니므로, 경쟁 압력은 비용, 신뢰성 및 실제 유용성으로 이동하고 있다.
전문 분야에서의 AI 성능과 에이전트의 발전
전문 분야에서 세금, 법률 추론 및 기업 금융에 대한 평가는 일부 영역에서 다른 영역보다 더 강력한 성능을 보여준다.
AI 시스템이 할 수 있는 범위도 확장되고 있다.
AI 에이전트는 개선되고 있지만, 여전히 3번 중 1번꼴로 실패한다.
비디오 생성 모델은 더 이상 사실적인 콘텐츠만 생성하는 것이 아니라, 일부는 물리적 세계가 실제로 어떻게 작동하는지 배우기 시작하고 있으며, 이러한 발전은 AI를 물리적 공간으로 가져오는 데 도움이 될 수 있다.
로봇 공학 및 자율 주행의 발전과 과제
로봇은 비구조화된 환경에서 어려움을 겪고 있지만, 자율 주행 차량은 주목할 만한 예외로, 유망한 초기 안전 기록과 함께 대규모 배포에 도달했다.
전반적으로 AI의 기술 발전은 경이로움과 속도의 이야기이며, 이후 장에서 논의될 평가, 거버넌스 및 채택 프레임워크보다 빠르다.
3.2. 장별 주요 내용
AI 능력의 벤치마크 초월 및 인간 수준 성능 달성
AI 능력은 이를 측정하도록 설계된 벤치마크를 능가하고 있으며, 인간 수준의 성능을 초과하고 있다.
최첨단 모델은 인간 전문가에게는 어렵고 AI에게는 유리하도록 구축된 벤치마크인 Humanity's Last Exam에서 1년 만에 30% 포인트의 점수를 얻었다.
수년 동안 도전적일 것으로 예상되었던 평가는 몇 달 만에 포화 상태에 이르러, 벤치마크가 진행 상황을 추적하는 데 유용한 기간을 압축하고 있다.
상위 모델 성능의 수렴
상위 모델 성능은 수렴하고 있으며, Arena Leaderboard에서 인간 투표로 서로 평가했을 때 4개 회사가 25 Elo 포인트(체스 등급에서 영감) 이내로 묶여 있다.
2026년 3월 현재 Anthropic(1,503), xAI(1,495), Google(1,494), OpenAI(1,481), Alibaba(1,449), DeepSeek(1,424) 모두 Arena Elo 등급의 최상위 계층을 차지하며, 경쟁 압력이 비용, 신뢰성 및 도메인별 성능으로 이동하고 있다.
오픈 웨이트 모델 성능 격차 재개
오픈 웨이트 성능 격차는 전년도에 잠시 좁혀진 후 2025년에 다시 벌어졌다.
2026년 3월 현재 최고 폐쇄형 모델은 최고 오픈형 모델보다 3.3% 앞서고 있으며, 이는 2024년 8월 0.5%에서 증가한 수치이다.
Arena Leaderboard의 상위 10개 모델 중 6개가 이제 폐쇄형 모델이다.
미국-중국 AI 모델 성능 격차 해소
미국과 중국 AI 모델 성능 격차는 사실상 해소되었다.
미국과 중국 모델은 2025년 초부터 여러 차례 성능 순위에서 자리를 주고받았다.
2025년 2월, DeepSeek-R1은 잠시 최고 미국 모델과 동등한 수준에 도달했다.
2026년 3월 현재 최고 미국 모델은 2.7% 앞서고 있으며, 지난 1년 동안 격차는 한 자릿수 내에서 변동했다.
AI 진행 측정 벤치마크의 신뢰성 및 게임화 우려
AI 진행을 측정하는 데 사용되는 벤치마크는 신뢰성 및 게임화 우려가 커지고 있으며, 널리 사용되는 평가에서 오류율이 최대 42%에 달한다.
한 검토에서는 MMLU Math에서 2%에서 GSM8K에서 42%에 이르는 유효하지 않은 질문 비율을 발견했다.
별도의 연구에서는 Arena 리더보드 순위가 일반적인 능력보다는 플랫폼 적응을 부분적으로 반영할 수 있음을 시사한다.
비디오 생성 모델의 객체 동작 포착 능력 향상
비디오 생성 모델은 객체가 어떻게 행동하는지 포착하기 시작하고 있다.
Google DeepMind의 Veo 3는 18,000개 이상의 생성된 비디오를 통해 부력 시뮬레이션 및 미로 해결과 같은 작업을 훈련받지 않고도 수행하는 능력을 보여주었다.
AI 모델의 불균형한 지능: '들쭉날쭉한 지능'
AI 모델은 국제 수학 올림피아드에서 금메달을 딸 수 있지만, 여전히 시간을 정확하게 알려주지는 못하며, 이는 연구자들이 '들쭉날쭉한 지능(jagged intelligence)'이라고 부르는 것을 보여준다.
Gemini Deep Think은 2025년 IMO에서 4.5시간의 시간 제한 내에서 자연어로 처음부터 끝까지 작업하여 35점(금메달)을 획득했으며, 이는 2024년 28점(은메달)에서 상승한 수치이다.
ClockBench에서 최고 모델은 아날로그 시계를 50.1%만 정확하게 읽었으며, 인간은 90.1%를 기록했다.
AI 모델의 전문 분야 확장 및 성능
AI 모델은 전문 분야로 확장되고 있으며, 세금, 주택 담보 대출 처리, 기업 금융 및 법률 추론 평가에서 60%에서 90%의 성능을 보여준다.
상위 15개 모델의 성능은 각 벤치마크에서 3% 포인트만큼만 차이가 난다.
높은 역량과 신뢰성이 요구되는 이러한 종류의 도메인은 AI 모델에게 여전히 큰 도전 과제이다.
AI 에이전트의 발전과 한계
AI 에이전트는 2025년에 질문에 답하는 것에서 작업을 완료하는 것으로 발전했지만, 구조화된 벤치마크에서는 여전히 3번 중 1번꼴로 실패한다.
운영 체제 전반의 실제 컴퓨터 작업을 테스트하는 OSWorld에서 정확도는 약 12%에서 66.3%로 상승했으며, 이는 인간 성능의 6% 포인트 이내이다.
로봇의 현실 세계 작업 한계
로봇은 통제된 환경에서는 뛰어나지만, 대부분의 가사 작업에서는 여전히 실패한다.
로봇은 실제 가사 작업의 12%만 성공하여 AI가 물리적 세계를 마스터하는 데 얼마나 멀리 떨어져 있는지 보여준다.
RLBench에서 소프트웨어 기반 시뮬레이션의 로봇 조작은 89.4%의 성공률에 도달했지만, 예측 가능한 실험실 환경과 예측 불가능한 가정 환경 간의 격차는 크다.
자율 주행 차량의 대규모 배포 및 안전 기록
자율 주행 차량은 2025년에 대규모 배포에 도달했다.
Waymo는 미국 5개 도시에서 약 45만 건의 주간 운행을 기록했다.
중국에서는 Apollo Go가 1,100만 건의 완전 무인 운행을 완료했으며, 이는 전년 대비 175% 증가한 수치이다.
유럽 운영자들은 활동적이지만, 비교 가능한 배포 데이터는 공개적으로 제공되지 않아 글로벌 그림을 제한한다.
지금까지의 배포는 일반적으로 날씨가 좋은 지역에서 이루어졌으며, 필요할 때 인력이 현장 외부에서 개입할 수 있다.
3.3. 주요 모델 출시 타임라인
2025년 1월 20일: xAI
DeepSeek-R1 LLM: 강화 학습 접근 방식인 GRPO를 도입하여 레이블이 지정된 데이터나 별도의 비판 모델에 의존하지 않고 추론 능력을 훈련한다.
생성된 출력 그룹을 미리 정의된 규칙과 비교하여 훈련 복잡성을 줄인다.
더 높은 비용 시스템에 비해 모델의 강력한 성능으로 인해 일부 투자자들은 AI 부문의 경쟁 역학을 재평가하게 되었다.
출시 후, 더 효율적인 훈련 방법이 기존 비즈니스 모델에 영향을 미칠 수 있다는 우려로 인해 주요 미국 기술 주식은 시장 가치에서 1조 달러 이상 일시적으로 하락했다.
2025년 3월 25일: OpenAI
GPT-5.1 Multimodal: 기능과 효율성 모두에서 상당한 개선을 제공한다.
GPT-5보다 빠르게 실행되며, 코딩 및 추론 벤치마크(예: SWE-bench Verified에서 약 76.3% vs. 약 72.8%)에서 더 높은 점수를 기록하고, 작업 복잡성에 따라 추론 노력을 동적으로 조정한다.
2025년 9월 29일: Google DeepMind
Gemini 2.5 Pro Multimodal: 2.0에서 주요 업데이트로, 컨텍스트를 1M 토큰으로 확장하고 강력한 추론 및 코딩 결과(예: SWE-Bench Verified에서 약 63.8%)를 제공하며 LMArena에서 1위를 차지했다.
2025년 11월 12일: Anthropic
Claude Sonnet 4.5 LLM: 실제 기능에서 큰 도약을 이루었다.
OSWorld 컴퓨터 사용 작업에서 61.4%, SWE-bench Verified에서 77.2%+를 기록했다.
또한 체크포인트, VS Code 확장, 메모리 편집 및 Claude Agent SDK를 포함한 새로운 도구를 출시하여 개발자가 장기 실행 자율 워크플로우를 구축할 수 있도록 했다.
3.4. 전반적인 성능 추세
개요
이 섹션은 AI 성능의 패턴을 조사하며, 모델이 인간 수준에 도달하는 속도부터 선도적인 모델과 국가 간의 경쟁이 어떻게 좁혀졌는지까지 다룬다.
또한 이러한 진행 상황을 측정하는 데 사용되는 도구 자체가 어떻게 부족한지 평가한다.
다양한 평가 작업을 비교할 수 있도록 성능 지표는 공통 참조점으로 스케일링된다.
AI 인덱스 팀이 개발한 스케일링 방법론은 주어진 연도에 가장 성능이 좋은 모델이 해당 작업에 대한 확립된 인간 기준의 백분율로 측정되도록 각 벤치마크를 보정한다.
예를 들어, 이 접근 방식을 사용하면 105%의 값은 모델이 인간 기준보다 5% 더 나은 성능을 보인다는 것을 나타낸다.
이 분석에 포함된 벤치마크는 구조적으로 평가할 수 있는 작업을 나타낸다.
이는 실제 AI 배포에 필요한 기능의 폭을 완전히 포착하지 못할 수 있다.
이 섹션의 후반부에 있는 "AI 벤치마킹" 하위 섹션에서는 이러한 한계를 자세히 살펴본다.
기술 성능 벤치마크 vs. 인간 성능
AI 성능은 2025년에 광범위한 벤치마크 범주에서 계속 개선되었으며, 불과 몇 년 전만 해도 인간 기준 성능보다 훨씬 낮았던 작업에서 가장 큰 이점이 나타났다.
최첨단 시스템은 ImageNet, SuperGLUE, MMLU를 포함한 장기 실행 벤치마크에서 확립된 인간 성능 수준을 충족하거나 초과한다.
지난해 보고서 이후, 더 고급 추론을 테스트하도록 설계된 여러 벤치마크가 박사 수준 과학 문제(GPQA Diamond), 다중 모드 추론(MMMU), 수학적 추론(AIME)을 포함하여 인간 벤치마크에 도달하거나 근접했다.
모델은 자율 소프트웨어 엔지니어링(SWE-bench Verified) 및 에이전트 기반 다중 모드 컴퓨터 사용(OSWorld) 분야에서 여전히 기준보다 낮은 성능을 보이지만, 개선 속도는 빠르게 가속화되고 있다.
예를 들어, SWE-bench Verified에서 성능은 2024년 약 60%에서 2025년 거의 100%로 상승했다.
Figure 2.1.1: AI 인덱스 기술 성능 벤치마크 vs. 인간 성능
폐쇄형 vs. 오픈 웨이트 모델
선도적인 폐쇄형 및 오픈 웨이트 모델 간의 성능 격차는 지난 3년 동안 변동했으며, 오픈 웨이트 시스템은 격차를 좁혔다가 새로운 독점 모델이 출시되면서 뒤처졌다.
2023년 5월, 선도적인 폐쇄형 모델(GPT-4-0314)은 Arena Leaderboard에서 최고 오픈 웨이트 모델(Vicuna-13B)보다 174점(15.2%) 더 뛰어난 성능을 보였다.
Mixtral, WizardLM, Llama-3.1-405B를 포함한 더 강력한 오픈 웨이트 출시로 인해 2024년 8월까지 격차는 7점(0.5%)으로 좁혀졌다.
지난 1년 동안 o1-preview 및 Gemini 2.5 Pro와 같은 새로운 폐쇄형 최첨단 시스템의 등장으로 이러한 추세는 역전되었다.
2026년 3월 현재 최고 폐쇄형 모델인 Claude Opus 4.6(1,503)은 최고 오픈 웨이트 모델 GLM-5(1,454)보다 49점(3.4%) 앞서고 있다.
폐쇄형 모델이 여전히 선두를 달리고 있지만, 오픈 웨이트 모델은 몇 년 전보다 훨씬 더 경쟁력이 있다.
Figure 2.1.2: Arena에서 최고 폐쇄형 vs. 오픈 모델 성능
미국 vs. 중국 기술 성능
2023년 미국의 상당한 선두는 2025년 초까지 크게 줄어들었으며, 그 이후로 성능 격차는 좁게 유지되었다.
2025년 2월, DeepSeek-R1(1,400)은 선도적인 미국 모델(o1-2024-12-17, 1,405)보다 단 5 Arena 포인트(0.4%) 뒤처졌다.
2026년 3월 현재 최고 미국 모델(Claude Opus 4.6, 1,503)은 최고 중국 모델(Dola-Seed-2.0 Preview, 1,464)보다 39점(2.7%) 앞서고 있다.
지난 1년 동안 격차는 거의 동등한 수준에서 낮은 한 자릿수 사이에서 변동했다.
이러한 수렴은 1장에서 검토된 연구 역학 및 4장에서 논의된 투자 패턴을 포함하여 두 가지 다른 개발 환경 및 제도적 맥락에서 나타났기 때문에 특히 주목할 만하다.
Figure 2.1.3: Arena에서 최고 미국 vs. 중국 모델 성능
최첨단 모델 성능 수렴
지난 1년 동안 최첨단 모델은 더욱 밀접하게 묶였으며, 여러 회사가 Arena Leaderboard 상단에서 매우 좁은 성능 대역으로 이동했다.
2023년 초 OpenAI는 최고 모델이 1,322점을 기록한 반면 Google은 1,117점을 기록하여 분명한 선두를 달렸다.
Google, Anthropic 및 기타 회사들이 더 강력한 모델을 출시하면서 2024년 내내 이 격차는 꾸준히 좁혀졌다.
2025년 2월까지 DeepSeek은 Arena에서 최고 미국 시스템과 잠시 동등하거나 능가했다.
지난해 보고서에서 상위 4개 모델은 약 97점의 범위에 걸쳐 있었지만, 2026년 3월 현재 상위 4개 모델은 25점 미만의 차이를 보인다.
Anthropic이 1,503점으로 선두를 달리고 있으며, xAI(1,495), Google(1,494), OpenAI(1,481)가 그 뒤를 바짝 쫓고 있다.
DeepSeek(1,424)과 Alibaba(1,449)는 약간 뒤처진다.
Meta의 Arena 성능은 2025년 초 이후 둔화되었으며, 이는 경쟁 출시의 둔화를 반영하지만 2026년에는 새로운 모델이 출시될 수 있다.
선도적인 모델이 벤치마크 성능에서 구별하기 어려워짐에 따라 비용, 지연 시간, 신뢰성 및 도메인별 최적화와 같은 요소가 사용자 채택에 더 큰 역할을 할 수 있다.
Figure 2.1.4: Arena에서 주요 제공업체별 최고 모델 성능
AI 벤치마킹
벤치마크는 여전히 AI의 기술적 진행 상황을 측정하는 데 중요한 역할을 하지만, 그 한계는 더욱 분명해지고 있다.
지난해 보고서 이후, AI 인덱스는 벤치마크가 여전히 유용한 부분과 부족한 부분을 조사하기 위해 분석을 확장했다.
이 보고서의 이전 판에서 강조된 몇 가지 과제는 여전히 남아 있다.
모델이 너무 높은 점수를 달성하여 테스트가 더 이상 모델을 구별할 수 없는 벤치마크 포화는 여전히 우려 사항이다.
더 어렵게 설계된 테스트는 시스템이 이를 능가하기 전까지 몇 년 동안만 유용하게 유지되는 경우가 많다.
1장에서 문서화된 바와 같이, 보고 불일치는 계속되고 있으며, 가장 유능한 현대 모델은 이제 가장 불투명한 모델 중 하나이다.
점점 더 불투명해지고 비표준적인 프롬프트 기술은 모델 간 비교를 신뢰할 수 없게 만들며, 타사 평가는 독립적인 테스트에서 모델이 개발자가 보고한 결과보다 더 나쁜 성능을 보이는 사례를 문서화했다.
또한 오염(훈련 중에 모델이 테스트 세트 데이터에 노출되는 경우)은 잘못 부풀려진 점수로 이어질 수 있다.
2025년 Meta는 Llama 4 모델이 리더보드 순위를 개선하기 위해 특수 변형을 사용하여 최적화되었으며 벤치마크 테스트 데이터로 훈련되었을 수 있다는 비판에 직면했지만, 회사는 이러한 주장을 부인했다.
또한 널리 사용되는 벤치마크에 대한 감사 결과, 많은 벤치마크가 부적절한 문서화, 통계적 유의성 보고 부족, 복제 스크립트 부족으로 인해 여전히 제대로 구축되지 않은 것으로 나타났다.
벤치마크 점수가 기술적으로 유효하더라도 강력한 벤치마크 성능이 항상 실제 유용성으로 이어지는 것은 아니다.
지난해 보고서는 또한 현재 AI 시스템에 더욱 중요한 복잡하고 상호 작용적인 형태의 지능을 벤치마킹하는 것이 얼마나 어려운지 강조했다.
다중 에이전트 조정, 인간-AI 상호 작용, 도구 사용 에이전트 및 물리적 세계 로봇 공학(예: 로봇 조작, 구체화된 추론 및 에이전트 작업)에 대한 많은 벤치마크가 제안되었지만, 여전히 미개발 상태이다.
이러한 도메인은 물리적 작업이 예측 불가능한 환경, 다양한 하드웨어 및 반복 가능한 점수에 저항하는 다양한 유효한 접근 방식을 포함하므로 본질적으로 표준화하기가 더 어렵다.
이 장의 후반부 섹션에서는 이러한 벤치마크 중 일부를 자세히 보고한다.
벤치마킹 환경은 이러한 반복적인 우려를 넘어 몇 가지 발전을 보였다.
첫째, AI 성능을 개별적으로 측정하는 것보다 인간-AI 협력을 측정하는 평가에 대한 필요성이 커지고 있다.
가장 널리 사용되는 벤치마크는 인간의 개입 없이 시스템을 테스트하지만, 많은 실제 배포에는 사람들이 AI 출력을 감독, 조종 및 통합하는 것이 포함된다.
최근 연구는 인간과 AI가 공동으로 작업을 해결하는 평가인 센타우르 평가를 채택해야 한다고 주장한다.
이는 실제 사용을 더 잘 반영하고 기존 벤치마크가 무시하는 해석 가능성 및 유용성과 같은 인간 중심적 특성을 측정할 수 있기 때문이다.
둘째, 유효하지 않은 벤치마크 질문을 해결하기 위한 새로운 방법이 등장했다.
스탠포드 연구원들의 검토에 따르면 9개의 널리 사용되는 벤치마크에서 유효하지 않은 질문의 비율이 MMLU Math에서 2%에서 GSM8K에서 42%에 이르는 것으로 나타났다.
Truong et al., 2025는 응답 패턴의 통계적 분석을 사용하여 전문가 검토를 위한 문제가 있는 항목을 표시하는 프레임워크를 도입하여 최대 84%의 정확도를 달성했다.
별도로 Cheng et al., 2025는 안전한 환경, 지속적으로 새로 고쳐지는 테스트 항목 및 지연된 결과 공개를 통해 커뮤니티가 관리하고 감독하는 "인증 등급"의 동료 기반 평가 프레임워크로 전환할 것을 제안했다.
댓글