피자를 시켜달라고 했더니 AI가 스스로 피자를 전화로 주문하고, 스스로 자신의 코드를 리뷰하고 개선하는 AI 사례까지 등장하는 상황에서 이제 사람들의 관심은 ChatGPT에서 AI 모델이 스스로 외부 툴을 활용하여 보다 적은 사람의 개입으로 더 복잡한 일을 처리해주는 'Autonomous AI Agent (이하, 자율 AI 에이전트)'로 이동하고 있습니다. 자율 AI 에이전트가 주목을 받기 시작한 것은 이와 같은 프레임워크를 개발자들이 사용해볼 수 있도록 한 Auto-GPT라는 오픈소스 앱이 화제가 되었기 때문인데요. 과거 Auto-GPT는 출시한지 불과 한 달여 밖에 되지 않은 ‘실험’이었지만, 한 달만에 GitHub에서 30번째로 가장 star 수가 많은 프로젝트로 등재될 정도로 많은 관심을 받았었습니다.
하지만 연구자 및 개발자 커뮤니티에서 받고 있는 뜨거운 관심 대비, Auto-GPT를 비롯한 자율 AI 에이전트는 아직 ChatGPT만큼 대중적인 화제가 되지는 못하였습니다. 이는 크게 일반 사용자들에게는 다소 낯선 설치 방식과 인터페이스, 기대 이하의 성능, 그리고 비용으로 인한 한계점에 봉착하였기 때문입니다. 앞서 설명드린 피자 전화 주문 사례는 재미있지만, 이를 설계하기 위한 과정은 쉽지 않습니다. 물론 도큐멘테이션을 보고 얼마든지 앱을 실행해볼 수 있지만, 일반적으로 대중들은 이를 시도해보기도 전에 쉽사리 포기를 하기 일쑤입니다.
이에 별도의 설치과정 없이 웹페이지를 통해 Auto-GPT를 사용해볼 수 있게 하는 서비스들이 등장하며, Auto-GPT와 같은 자율 AI 에이전트가 더 이상 실험이 아닌 서비스로서 거듭나고 있는데요. 뿐만 아니라 일각에서는 멀티 에이전트, 멀티모달 에이전트를 구현한 실험적 사례들도 추가로 등장하면서 다른 일각에서는 자율 AI 에이전트의 다양화가 이루어지는 것을 확인할 수 있었습니다. 추가적으로 금주에는 ChatGPT Plugin과 Web Browsing 기능의 베타 버전이 출시되었는데요. OpenAI의 ChatGPT 또한 현재 Auto-GPT를 주축에 위치한 자율 AI 에이전트들이 나아가는 방향과 유사하게 나아갈 것인지 지켜볼 필요가 있습니다.
그럼 출시 한 달이 지난 지금까지도 큰 관심을 받고 있는 일명 자율 AI 에이전트 Auto-GPT가 무엇이고, 어떻게 ChatGPT와 차별되는지, 왜 자율 AI 에이전트가 ChatGPT가 이후에 올 새로운 메가트렌드로 자리 잡을 것으로 예상하는지에 대하여 다루어보겠습니다.
Autonomous AI Agent (자율 AI 에이전트)
자율 AI 에이전트란 : GPT-4와 같은 AI 모델의 외부 툴에 대한 접근을 허용하는 제품 및 서비스를 의미합니다. 브라우저, AI 모델, 스토리지, 컴퓨팅 엔진 등과 같은 외부 툴 을 활용하게 함으로서 모델이 사람의 개입없이 완전한 자율성을 가지고 태스크를 수행하는 것을 목적으로 합니다.
✅ 자율 AI 에이전트의 주요 기능
ChatGPT와 Auto-GPT는 동일한 AI 모델을 기반으로 하지만, 아래와 같이 크게 두 가지 기능을 중심으로 차별됩니다. 아래 내용 살펴보겠습니다:
1. 외부 툴을 활용하는 기능 :
우선적으로 자율 AI 에이전트는 외부 툴 (검색, 메모리, TTS, 생성형 AI 모델)을 활용하여 프롬프트에 대한 결과값을 내놓는 반면, ChatGPT는 그렇지 못 합니다. 따라서 거짓 정보를 마치 옳은 것과 같이 제시하는 할루시네이션의 위험도 줄고, 좀 더 다양한 도구를 사용할 수 있어 보다 복잡한 태스크 수행이 가능합니다. 뿐만 아니라 보다 메모리 접근을 통해 장기 기억 능력이 향상되어 내용을 보존하여 태스크 처리 능력이 향상되기도 합니다.
2. Autonomous Iteration (자율 반복 기능) :
기존에 ChatGPT에는 명확하게 목적과 목적을 달성하기 위한 instruction (이하 지시) 사항을 명시해줘야 했는데요. Auto-GPT는 AI 에이전트가 목표에 달성할 때 까지 사용자의 프롬프트 입력 없이 하위 태스크를 설계, 검토 및 실행하는 과정을 반복, 즉 셀프 프롬프팅 (스스로 프롬프트를 주입하는 과정)을 반복할 수 있다는 것이 자율 AI 에이전트의 두 번째 주요 기능입니다.
✅ 자율 AI 에이전트에 좋은 프롬프트는?
직접 각종 자율 AI 에이전트 앱 및 서비스들을 테스트 해보고 GitHub, Reddit, Stack Overflow 등 개발자 커뮤니티에 올라온 사용 후기들을 종합해본 결과, 자율 AI 에이전트에게 초반에 입력하는 프롬프트, 그리고 실행 중인 에이전트에게 피드백을 줄 때 아래와 같은 사항들을 참고하여 테스트를 한다면 에이전트가 좀 더 효과적으로 작동한다고 생각되어 정리하여 소개드립니다.
"Auto-GPT is the next frontier of prompt engineering
(Auto-GPT는 프롬프트 엔지니어링의 다음 개척지이다)." - Andrej Karpathy
※ Auto-GPT를 포함한 신규 자율 AI 에이전트 서비스 출시 및 업데이트가 빈번히 일어나고 있는 관계로, 좋은 프롬프트를 작성하는 방법은 현재 다들 찾아가는 과정 중에 있다고 생각됩니다. 아래 내용은 리서치하고 진행해본 테스트 결과들을 기반으로 주관적 입장에서 작성되었으니 가볍게 참고 정도만 부탁드리며, 최적의 프롬프트를 찾아가는 다양한 과정을 시도해보시는 것을 권장드립니다.
1. 프롬프트 안에 간결하고 명확하게 목표 서술 :
자율 AI 에이전트는 목표(주로 Goal 또는 Objective라고 표현합니다)를 명확하고 간결하게 해주어 자율 AI 에이전트에게 스스로 문제를 해결하기 위한 공간을 남겨두는 것이 효과적이었으며, 오히려 목표에 도달하기 위한 지시 사항을 세세하게 서술하여 입력할 경우 자율 AI 에이전트가 과도하게 많은 태스크를 생성하는 등 비효율적으로 작동하는 것을 확인할 수 있습니다.
2. 적합한 외부 툴, 레퍼런스를 지정하여 선택의 폭 좁혀주기 :
자율 AI 에이전트들은 실시간으로 외부 검색, 서비스 등을 활용하여 결과물을 내놓는데요. 테스트를 해본 결과, AI 에이전트의 선택의 폭이 너무 넓기 때문에 번거롭더라도 목표에 적합하게 툴들을 미리 지정하여 선택의 폭을 좁혀주는 것이 조금 더 효과적이라고 생각되었습니다. 예를 들어, 최초 프롬프트는 간결하게 작성하되, 자율 AI 에이전트가 내놓는 답변을 지속 모니터링하여 앞으로 나아가지 못 하고 있다고 보여질 때 특정 사이트를 이르집어 메인 레퍼런스로 활용하라는 피드백을 넣어주어 AI의 사고 프로세스를 단축했습니다.
자율 AI 에이전트 트렌드의 발단, Auto-GPT
Significant-Gravitas라는 스타트업에서 LangChain 라이브러리를 활용하여 개발한 오픈소스 파이썬 애플리케이션으로 OpenAI의 텍스트 생성 모델 GPT-3.5, GPT-4모델이 다양한 외부 소프트웨어와 서비스와 소통하여 사용자 인풋 없이도 스스로 자율적으로 반복을 거쳐 목표에 도달하는 것이 특징입니다. Auto-GPT는 개발자 커뮤니티에서 AGI (Artificial General Intelligence)의 초기 버전이다라는 평을 받으며 출시 이후 많이 회자되었으며, 오늘 날 '자율 AI 에이전트' 트렌드가 떠오르게 된 발단이라고 볼 수 있습니다.
✅ Auto-GPT 프레임워크
Auto-GPT에 목표를 입력하게 되면 하나의 에이전트가 실행되는 것 같지만, 백엔드에서는 태스크 생성, 태스크 우선 순위 선정, 그리고 태스크 수행이라는 세 개의 주요 워크로드를 담당하는 에이전트들 (GPT-4 기반)로 구성되어 있습니다. 아래 Auto-GPT가 론칭하는 자율 AI 에이전트가 어떤 프로세스로 작동하는지 개략적으로 정리해보았습니다.
- Goal Initialization : 사용자가 목표를 입력하면, Task Queue (태스크 대기 목록)을 지나 Task Creation Agent에 전달
- Memory Querying: 목표를 받은 Task Creation Agent가 메모리에 이제까지 완료된 태스크가 있는지 확인
- Task Generation : 전달받은 목표와 이제까지 완료된 태스크 목록을 기반으로 새로운 태스크 목록을 생성하여 Task Queue에 전달
- Task Prioritization : Task Prioritization Agent가 목표와 마지막으로 수행된 태스크를 기반으로 Task Queue에 있는 태스크의 우선 순위를 배정하고, 목록을 정리하여 다시 Task Queue에 전달하고, 사용자에게 전달하여 정리된 태스크 목록을 계획대로 실행할 것에 대한 승인 요청. 승인 요청을 받으면 Task Queue로 보낸 후 Task Execution Agent에게 실행 요청
◉ 처음 목표를 입력하면 사용자는 화면에 AI가 스스로 이름, 역할, 그리고 하위 목표, 실행 계획을 설계하여 사용자의 허락 및 피드백을 구하는 것을 확인할 수 있음
◉ 이후에 한 사이클이 끝날 때 마다 새롭게 정리된 태스크 목록 및 실행 계획을 받아보고, 이를 네 가지 방법으로 승인하여 계획을 행동으로 옮길 수 있음 : 수동 승인 (y), n번 자동으로 승인 (y -N), AI 셀프 피드백 및 승인 (s), 중지 (n) - Task Execution : Task Queue에서 Task Prioritization Agent가 새롭게 정리해준 태스크 목록을 Task Execution Agent에게 보내면, 해당 에이전트가 우선 순위가 가장 높은 태스크를 처리
- Storage : AI가 수행한 태스크 목록, 결과값, 그리고 수행한 태스크에 대한 피드백을 벡터 데이터베이스에 저장
- Autonomous Iteration : 1번에서 6번까지 최초 사이클이 한 번 돌았다면, 이후에는 AI 에이전트가 1번에서 사용자가 입력한 목표에 도달할 때 까지 2~6번을 자율적으로 반복
위 프레임워크를 기반으로 작동하는 자율 AI 에이전트가 사용자에게 어떤 모습으로 보여지는지 아래 실제 화면을 토대로 정리해보았습니다:
✅ 실사용 예시
※ Auto-GPT의 소스코드는 무료로 제공되지만, GPT-3.5, GPT-4를 기반으로 하여 OpenAI의 Paid Plan 등록이 필요합니다. 또한 ChatGPT와 같이 서비스 형태로 제공되지 않아 아래 설치 과정을 거쳐야만 앱 실행이 가능합니다. Auto-GPT의 보다 상세한 설치 과정은 도큐멘테이션 참고 부탁드립니다.
※ 또한 Auto-GPT는 설치 과정이 다소 번거로운데요. 자율 AI 에이전트를 설치 없이 보다 간편하게 직접 사용해보고 싶으신 분들은 아래 '자율 AI 에이전트 서비스' 목록을 확인해보시는 것을 추천드립니다.
별도의 OpenAI외 API를 연결하지 않고 Auto-GPT에게 다양한 목표를 주고 GPT-4 ONLY Mode를 실행하여 테스트해본 결과, Auto-GPT는 컨텐츠 요약을 하거나, 브레인스토밍하는 목표에 잘 달성하는 것을 확인할 수 있었습니다. 하지만 AI 에이전트가 나 대신 식당을 예약해준다거나, 예산에 맞는 집을 알아봐주고 리스트로 정리해준다거나, AI 뉴스를 정리하여 뉴스레터 또는 팟캐스트 형태로 만들어주는 것과 같이 조금만 태스크가 더 복잡해지면 사용자가 설계하기에 복잡해지고, 설계하여 실행한다고 해도 'Logic Loop (논리 루프)'에 빠져 동일 태스크 생성하고 실행하기를 무한 반복하는 굴레에 빈번하게 갇혔습니다.
✅ 문제점 : 동일 내용의 하위 태스크 생성을 반복하는 'Logic Loop'
상기 이미지를 보시면 식당 예약 플랫폼 OpenTable을 메인 레퍼런스 사이트로 지정해주어도 다시 보다 광범위한 구글 브라우저 검색을 할 것을 고집하고 있는데요. 자율적으로 동일 내용의 태스크 설립, 실행 계획 수립 등을 반복하는 문제점으로 생각보다 원하는 결과물을 받기 어려웠습니다. 이는 Auto-GPT가 추론 (reasoning)을 하는 과정에 있어 다소 성능이 떨어지기 때문이라고 하는데요. 이러한 무한 루프 현상은 에이전트가 효과적으로 태스크를 처리하지 못 할 뿐 더러 필요 이상으로 토큰을 낭비하기 때문에 발견시 추가적으로 피드백을 입력하여 태스트 수행 시 필요한 툴이나 지시 사항을 구체화 해주거나 에이전트를 종료하는 것을 추천드립니다.
지난 2023년 3월, ChatGPT는 일반 대중이 누구나 쉽게 사용할 수 있는 성능 좋고 심지어는 무료인 거대 언어 모델 서비스를 제공함으로써 전세계적으로 생성형 AI 트렌드를 주도했습니다. 이후 4월에 등장한 Auto-GPT는 ChatGPT를 능가하는, AGI의 가능성을 엿볼 수 있는 프로젝트로 개발자 및 연구자 커뮤니티에서 칭송 받으며 세레브럴 밸리의 가장 핫한 AI 트렌드로 떠올랐지만 Auto-GPT와 함께 떠오른 자율 AI 에이전트 트렌드는 일반 대중에게까지 전파되지 못 했습니다. Auto-GPT가 출시된 지 한 달이 지난 후, 더 많은 유사 서비스 및 실험이 오픈소스 커뮤니티 뿐만 아니라 Hugging Face와 OpenAI에서도 출시되며 자율 AI 에이전트의 대중화를 향한 움직임을 보였고, 지금은 더 많은 기업들이 더 다양한 가능성에 도전하고 있습니다. 자율 AI 에이전트가 시장의 기대에 부합하는 성능, 그리고 비용의 한계점을 극복하고 대중화에 성공하게 된다면, ChatGPT 다음의 메가 트렌드로 자리매김할 수 있을 것으로 예상됩니다.
✅ Auto-GPT의 대중화를 위해 극복되어야 할 2가지
- 성능 : 다양한 앱과 툴을 복합적으로 활용해야하는 복잡한 목표 달성의 경우 특정 태스크에 머물러 무한 로직 루프에 갇히는 문제점이 발생될 수 있습니다. 그리고 실생활에서 사용해볼만 한 시나리오의 목표를 달성하게 하기 위해서는 API Key 입력, 플러그인 설치 등 사용자의 사전적인 개입이 요구됩니다. 글 초반에 소개한 피자 주문 사례와 같이 다양한 API를 연동하고 인터페이스를 직접 노코드로 설계할 수도 있지만, 이는 분명 누구나 쉽게 해볼 수 있는 것은 아니라고 생각이 됩니다.
- 비용 : Auto-GPT는 OpenAI Paid Account를 기반으로 하기 때문에 사용량, 그리고 불필요한 토큰 (비용)을 반복적으로 소비하는 무한 로직 루프에 걸리는 현상을 주의해야합니다. 또한 앞서 말한 보다 복잡한 태스크 처리를 위해서는 다양한 유료 API Key 입력이 요구되는 경우가 많습니다.
✅ '자율 AI 에이전트'는 빠르게 개선되고 점차 대중화! ChatGPT을 잇는 새로운 메가트렌드로 자리 잡을 것으로 기대!
자율 AI 에이전트는 현재 초기의 연구자향에서 소비자향으로 이동되어 다양한 측면에서 사용성이 개선되고 있습니다. 뿐만 아니라, 오픈소스 모델의 비약적인 발전 속도로 미루어 보았을 때 빅테크, 폐쇄형 모델의 성능, 규모를 추월할 것으로 예상되고, 향후 사용자가 선택 및 조합할 수 있는 모델의 폭이 더욱 넓어져 성능과 특히 비용적 측면에서 개선이 이루어질 것으로 기대되고 있습니다. 빠르게 발전하는 테크사이드, 그리고 업계의 소식 등을 종합해 보았을 때, 자율 AI 에이전트는 성능, 비용, 그리고 추후 거론될 수 있는 사용성 문제들도 빠르게 개선해나가며 ChatGPT 다음으로 오는 가장 큰 기술 트렌드로 자리 잡을 수 있지 않을까 기대됩니다.🌐
(※ 이 글은 카카오엔터프라이즈의 기술블로그 ‘Tech&(테크앤)’의 TECH TREND 콘텐츠 '자율 AI 에이전트, ChatGPT 다음의 메가트렌드?’를 재구성한 콘텐츠입니다. )
✅ 함께 읽으면 좋은 콘텐츠를 소개합니다.
- <인사이트> Chat-GPT도 공감 능력이 있을까? - 멀티 에이전트 협업의 무한한 가능성
- <인사이트> 더 ‘정확한 AI’를 만들기 위한 해답
댓글