강화학습 (Reinforcement Learning)을 공부해 보셨던 분들이라면 policy gradient 방법을 발명한 Richard Sutton 교수를 아실 겁니다. 강화학습의 이론적인 기틀을 체계화한 founder죠.
최근 The Bitter Lesson이라는 Sutton 교수의 블로그 글을 보게 되었는데, 엄청난 양의 데이터와 computing power로 인공지능 역사가 매 순간 진보되는 최근 동향을 미리 예측한 듯한 깊은 통찰을 엿볼 수 있었습니다. (해당 글은 2019년 3월로 5년 전이네요)
인공지능이라는 개념이 태동한 이후 연구자들은 기계에 각 도메인이나 주어진 task에 맞는 인간의 지식을 전이하려고 했습니다만, 70년이 넘는 인공지능 연구역사는 결국 수많은 데이터와 엄청난 양의 계산이 가장 효율적이었다는 것을 보여줍니다. 특히 특화된 인간의 지식은 계산량이 한정되어 있다면 인공지능 성능 향상에 약간의 도움은 될 수 있겠으나, 시간이 지나면서 필연적으로 사용 가능한 계산량이 증가하기에 결국 대규모 계산이 문제를 더 효율적으로 해결했다는 것이죠.
체스 챔피언 카스파로프를 박살 낸 1997년의 딥블루는 인간이 체스를 두는 룰이 아니라 결국 대규모, 심층 brute force 검색에 기반했습니다. 20여 년이 흐른 알파고 또한 대규모 자가 학습을 통한 value function 학습이 있었기에 이세돌을 이길 수 있었습니다. 즉, 데이터와 학습이 키였다는 것이죠.
음성 인식이나 computer vision의 다양한 task도 예전에는 human crafted feature나 다양한 인간의 지식을 prior로 두어 시도했었으나 딥러닝 시대 이후로 어느 누구도 음성의 형태소를 분석하거나 이미지의 edge, SIFT feature를 뽑지 않습니다. 단지 convolution, attention 같은 개념 안에서 end-to-end로 학습할 뿐입니다.
즉, 인공지능 역사와 다양한 사례로부터 알 수 있는 점은 연구자들은 모델에 인간의 지식을 부여하고 싶지만 결국 커다란 스텝업을 이뤄낸 방법은 데이터와 학습의 계산 확장에 기반했다는 씁쓸한 교훈입니다. (그래서 포스트의 제목이 Bitter Lesson이 아닐까 합니다 ㅎㅎ) 인공지능이 사람처럼 행동하길 기대했기에 인간 중심 방식의 연구로 접근했지만 목표 달성을 위한 방법은 인간이 생각하는 방식이 장기적으로는 아니었던 것이죠.
Sutton 교수는 사용가능한 계산 증가에 따라 데이터와 학습을 확장해서 장기적이고 지속적인 인공지능 모델의 발전을 추구하면서, 인간의 사고와 정신은 너무 복잡해서 간단하게 모사할 수 없기에 인간이 알고 발견한 것을 모델에 투사하는 것이 아닌 복잡성을 스스로 발견하고 찾을 수 있는 방법을 구축해야 한다고 말합니다. ChatGPT나 SORA를 보면 나타나는 대표적인 특징인 창발성 (emergent) 또한 Sutton 교수의 혜안과 궤를 같이하는 것 같습니다.
결국 우리가 필요한 것은 scale일까요...? 어떠한 인공지능 모델이 발표될지 매일매일이 기다려지는 2024년입니다.
'Generative Models > Diffusion' 카테고리의 다른 글
OpenAI SORA Technical Report 분석 (1) | 2024.02.24 |
---|