안녕하세요, 카카오클라우드입니다.
"규칙으로는 충분하지 않다." 1990년대 초반, AI 연구자들은 이런 결론에 도달했습니다. 인간의 지식을 일일이 규칙으로 표현하는 것은 너무나 비효율적이었고, 때로는 불가능했습니다. 그들은 인간이 학습하는 것처럼 컴퓨터도 스스로 배울 수 있게 만들어야 한다고 생각했습니다.
지난 편에서 규칙 기반 AI의 전성기와 한계를 살펴보았다면, 이번에는 컴퓨터가 데이터로부터 스스로 학습하는 방법을 터득해 나간 1990년부터 2010년까지의 이야기를 들려드리겠습니다.
1. 패러다임의 전환: 규칙에서 데이터로
전문가 시스템의 한계를 경험한 AI 연구자들은 완전히 다른 접근법을 모색하기 시작했습니다. 명시적 규칙을 프로그래밍하는 대신, 컴퓨터가 데이터로부터 패턴을 찾아내도록 하는 것입니다. 이는 마치 아이가 수많은 예시를 보면서 자연스럽게 학습하는 것과 유사한 방식이었습니다.
이러한 접근법의 대표적 사례가 번역 분야였습니다. IBM은 1990년대 초반, 방대한 프랑스어-영어 번역 쌍을 컴퓨터에 입력하여 통계적 패턴을 학습시켰고, 이는 기존의 규칙 기반 번역보다 훨씬 나은 결과를 보여주었습니다. 구글은 이를 더욱 발전시켜 웹상의 방대한 다국어 데이터를 활용한 번역 서비스를 선보였습니다.
2. 기계학습의 핵심 기술
이 시기에 다양한 기계학습 알고리즘들이 개발되었습니다. 서포트 벡터 머신(SVM)은 복잡한 패턴을 고차원 공간에서 분류하는 강력한 도구였고, 의사결정 트리는 직관적이면서도 효과적인 학습 방법을 제공했습니다. 특히 앙상블 학습은 여러 모델의 예측을 결합하여 더 나은 성능을 이끌어내는 혁신적인 방법이었습니다.
이러한 알고리즘을 기반으로 금융권에서는 신용평가 모델이 큰 성공을 거두었습니다. 기존의 규칙 기반 시스템보다 훨씬 정확하게 대출 위험을 예측할 수 있게 되었고, 이는 금융기관의 리스크 관리를 획기적으로 개선했습니다. 또, 제조업에서는 품질 관리 시스템이 진화했습니다. 수많은 센서 데이터를 분석하여 제품 불량을 예측하고, 생산라인의 문제를 조기에 발견할 수 있게 되었습니다.
3. IBM Deep Blue: 체스 챔피언을 이기다
1997년은 AI 역사에서 중요한 이정표가 된 해입니다. IBM의 Deep Blue가 체스 세계 챔피언 가리 카스파로프를 이긴 것입니다. Deep Blue는 규칙 기반과 기계학습을 결합한 하이브리드 시스템이었습니다. 규칙 기반 설계에 추가로 방대한 체스 게임 데이터를 학습하여 각 상황에서 좀 더 최적의 수를 찾아낼 수 있었습니다.
4. 도전과 한계
하지만, 이 시기의 기계학습도 여러 가지 한계에 직면했습니다.
1) 데이터 의존성
기계학습 모델의 성능은 전적으로 학습 데이터의 품질과 양에 의존했습니다. 충분한 데이터가 없는 분야에서는 여전히 좋은 성과를 내기 어려웠습니다.
2) 계산 능력의 한계
복잡한 패턴을 학습하기 위해서는 엄청난 계산 능력이 필요했지만 당시의 하드웨어로는 이를 감당하기 어려웠습니다.
3) 특성 공학의 어려움
특성 공학(Feature Engineering)은 원본 데이터를 AI 모델이 잘 학습할 수 있는 형태로 변환하는 과정을 말합니다. 예를 들어, 주택 가격을 예측하는 모델을 만든다고 가정해보겠습니다. 단순히 집의 크기나 방의 개수만 입력하는 것보다는 '단위 면적당 가격', '최근 6개월간 시세 변동률', '인근 지하철역까지의 도보 시간' 등 새로운 특성을 만들어 추가하면 모델의 성능이 크게 향상될 수 있습니다.
하지만 이러한 특성들을 발굴하고 설계하는 것은 해당 분야의 전문 지식과 많은 시행착오를 필요로 했습니다. 더구나 분야가 바뀌면 처음부터 다시 시작해야 했죠. 음성 인식, 이미지 인식, 자연어 처리 등 각 분야마다 전문가들이 수년간의 연구를 통해 최적의 특성을 찾아내야 했습니다.
이러한 특성 공학에의 의존성은 당시 기계학습의 큰 한계점이었고, 이는 후에 딥러닝이 혁명적으로 해결하게 되는 과제였습니다.
5. 현대 AI에 주는 시사점
기계학습 시대의 경험은 오늘날의 AI 발전에도 중요한 교훈을 제공합니다.
1) 데이터의 중요성
AI 시스템의 성능은 알고리즘 못지않게 데이터의 품질과 양에 좌우된다는 교훈은 여전히 유효합니다.
2) 하이브리드 접근의 가치
Deep Blue가 보여준 것처럼 규칙 기반과 학습 기반을 적절히 결합하는 것이 효과적일 수 있습니다.
3) 도메인 지식의 중요성
순수한 데이터 기반 접근만으로는 부족하며 해당 분야의 전문 지식을 어떻게 모델에 반영할 것인지가 중요합니다.
다음 편에서는 2010년 이후 딥러닝이 AI 분야를 완전히 장악하게 된 과정을 살펴보겠습니다. 특성 공학의 필요성을 획기적으로 줄이고 대규모 데이터로부터 자동으로 특성을 학습하는 딥러닝이 어떻게 AI의 새로운 혁명을 일으켰는지 알아보도록 하겠습니다.
댓글