Veredicto rápido: qué framework de agentes elegir
Vamos al grano, porque seguramente has llegado aquí para decidir, no para leer un tratado. Si lo que quieres es un agente funcionando esta misma tarde, la respuesta es CrewAI. Si tu problema de fondo es una conversación entre varios agentes que debaten y ejecutan código, la respuesta es AutoGen, aunque con un asterisco grande que explicaremos enseguida. Y si vas a poner esto en producción y necesitas control de verdad, la respuesta es LangGraph.
Hay un dato que casi todos los artículos cuentan mal, así que conviene fijarlo desde el principio: a 30 de junio de 2026, AutoGen es el repositorio con más estrellas de los tres (59,4k), por delante de CrewAI (54,6k) y de LangGraph (36,1k). Suena a que AutoGen gana, pero las estrellas miden inercia, no salud. AutoGen lidera en estrellas y al mismo tiempo está en modo mantenimiento. Esa contradicción es media comparativa. Y conviene desconfiar de los recuentos que circulan: la mayoría de las comparativas repiten cifras viejas (AutoGen en "42–55k", CrewAI en "31–45k", LangGraph en "12,8–25k") que ya no se sostienen. También es falso, a fecha de hoy, que "LangGraph haya superado a CrewAI en estrellas a principios de 2026": no ha ocurrido.
- El más rápido hasta un agente funcionando → CrewAI. Crews de rol/objetivo/contexto más Flows deterministas; un crew operativo en menos de una hora. A cambio, el menor control: la depuración y el coste en tokens muerden a escala.
- El mejor para conversación multiagente y ejecución de código → AutoGen, pero el AutoGen clásico está hoy en modo mantenimiento. Microsoft dirige el trabajo nuevo al Agent Framework (MAF 1.0, 3 de abril de 2026), y AG2 es el fork de la comunidad.
- El mejor para producción y control → LangGraph. Grafo de estado explícito, checkpointing y ejecución duradera; es el estándar de facto en producción (Klarna, Uber, LinkedIn). También la curva más empinada.
- Estrellas en GitHub: AutoGen 59,4k · CrewAI 54,6k · LangGraph 36,1k.
- Licencia: las tres MIT (AutoGen añade CC-BY-4.0 para la documentación).
- Última versión: AutoGen v0.7.5 (sept. 2025, mantenimiento) · CrewAI v1.15.1 · LangGraph 1.2.7 (la 1.0 llegó el 22 de octubre de 2025).
Antes de entrar en el detalle, una nota de honestidad sobre AutoGen, porque es el punto que más artículos pasan por alto. Elegir "AutoGen" en 2026 significa elegir un framework congelado. El repositorio lleva su propio aviso de modo mantenimiento, Microsoft apunta a los nuevos proyectos hacia el Agent Framework, y quienes se aferran a la API antigua se han ido a AG2. Lo desarrollamos en el apartado de producción, pero tenlo presente desde ya. Si lo que buscas es el panorama amplio más allá de estos tres, tenemos un repaso de las mejores plataformas de agentes de IA de 2026.
Los tres frameworks, uno a uno
Antes de compararlos conviene saber de dónde sale cada uno, qué metáfora lo gobierna y en qué estado está hoy. Aquí es donde AutoGen pide precisión: no es un solo producto, son cuatro cosas con el mismo nombre.
CrewAI
CrewAI nació de la mano de João Moura como un framework de Python independiente, construido desde cero y sin depender de LangChain. Su modelo se apoya en dos capas que conviene no confundir: los Crews, equipos autónomos de agentes que se coordinan solos, y los Flows, tuberías de producción dirigidas por eventos con @start() y @listen(), donde defines las rutas condicionales o paralelas y el punto en que entra una persona. El proyecto levantó una ronda de serie A de 18 millones de dólares (Insight Partners) en octubre de 2024, así que detrás hay músculo y no solo comunidad. Si quieres el análisis a fondo de la herramienta, tenemos una reseña de CrewAI dedicada.
AutoGen
AutoGen salió de Microsoft Research como framework conversacional y dirigido por eventos, con una arquitectura en capas: Core (el runtime de actores por eventos), AgentChat (la API conversacional de alto nivel, la más parecida a la antigua 0.2) y Extensions (clientes de LLM, ejecución en Docker, MCP). Hasta aquí lo limpio. El problema es que en 2026 "AutoGen" se ha fragmentado en cuatro cosas: el AutoGen 0.4+ del repositorio oficial, hoy en modo mantenimiento; la línea legada 0.2; el Microsoft Agent Framework, que es el sucesor real y que unifica Semantic Kernel y AutoGen; y AG2, el fork que mantienen los creadores originales (Chi Wang y Qingyun Wu), con licencia Apache-2.0 y unas 4,7k estrellas. A esa confusión se suma una herida de la propia evolución: el salto de 0.2 a 0.4 fue una reescritura desde cero al modelo de actores asíncrono y no mantuvo compatibilidad, hasta el punto de que la guía oficial de migración avisa de cambios que rompen y eso, por sí solo, espanta a quien tiene algo en producción. Lo decimos sin rodeos porque es el dato que más decisiones cambia. Para situarlo dentro del campo, puedes ver nuestra guía de los mejores frameworks de agentes de IA.
LangGraph
LangGraph viene del equipo de LangChain, pero no es lo mismo que la librería LangChain de alto nivel: es un runtime de grafos de bajo nivel para aplicaciones con estado y varios actores, y funciona de forma independiente (las capas de conveniencia como create_agent viven ahora en LangChain). Modela el sistema como un grafo explícito de nodos y aristas con estado compartido y duradero. Su versión 1.0 llegó el 22 de octubre de 2025, la primera mayor estable, con el compromiso de no romper compatibilidad hasta la 2.0. Si automatizar flujos de trabajo es tu objetivo más amplio, encaja con nuestra selección de mejores herramientas de automatización de flujos con IA.
La abstracción de fondo: cómo modela cada uno un sistema de agentes
Aquí está la decisión de verdad, y casi nadie la pone en el centro. No eliges un framework por su lista de funciones; eliges la metáfora con la que vas a pensar tu sistema durante meses. CrewAI lo modela como un equipo de empleados con roles, AutoGen como una conversación entre agentes y LangGraph como un diagrama de flujo con memoria. Esas tres metáforas dibujan un espectro de facilidad frente a control, y la que escojas es el trato que aceptas.
Cada agente tiene rol, objetivo e historia, y trabaja como si fuera una persona del equipo. La potencia real, sin embargo, no está en los personajes, sino en la doble capa: Crews autónomos para que se coordinen solos y Flows deterministas (@start/@listen) para cuando el LLM no debe improvisar. Es el modelo mental más fácil y el camino más corto de la idea al agente.
Los agentes hablan entre ellos en un GroupChat, se coordinan de forma automática, ejecutan código en un entorno aislado y vuelven a iterar sobre el resultado. Brilla en debate, consenso y diálogo secuencial, y la ejecución de código es de lo mejor del mercado. El precio: la legibilidad cae a medida que la red de agentes crece.
Defines nodos y aristas explícitos, enrutado condicional, bucles, reintentos y un estado tipado y persistente. Es el máximo control y, a la vez, el máximo código repetitivo: lo que en CrewAI son 15 líneas, aquí pueden ser 40 o 60. A cambio, sabes exactamente por dónde pasa la ejecución.
¿La consecuencia práctica? CrewAI y AutoGen son abstracciones de alto nivel: te dan velocidad y te quitan libertad. LangGraph es de bajo nivel: te pide esfuerzo por adelantado y te devuelve un control que agradeces cuando algo falla en producción. No hay una metáfora correcta; hay una correcta para tu caso. Y hay una pieza de sabiduría de campo que resume el dilema mejor que cualquier tabla:
Aprende LangGraph para producción, prototipa en CrewAI si lo que importa es la velocidad. — recomendación recurrente entre practicantes (dev.to)
Comparativa de capacidades clave
Esta es la parte central. Aquí enfrentamos los tres frameworks en las seis dimensiones que un ingeniero pesa de verdad, y en cada una nombramos un ganador (o un empate explícito) con su motivo. La tabla resume; los veredictos por dimensión explican.
| Dimensión | CrewAI | AutoGen | LangGraph | Ganador |
|---|---|---|---|---|
| Facilidad para empezar | Curva mínima, ~20 líneas | Media | La más empinada | CrewAI ✅ |
| Control y determinismo | El menor | No siempre reproducible | Grafo explícito | LangGraph ✅ |
| Estado y durabilidad | Sin checkpointing nativo | Vía runtime, menos directo | Checkpointing integrado | LangGraph ✅ |
| Human-in-the-loop | A nivel de tarea | Conversacional | Puertas explícitas | Empate ⚖️ |
| Ecosistema y herramientas | Comunidad grande | AutoGen Studio + Azure/MAF | LangSmith + Studio + Platform | LangGraph (profundidad) / CrewAI (comunidad) |
| Observabilidad y depuración | Su mayor queja | Difícil de reproducir | LangSmith nativo | LangGraph ✅ |
Facilidad para empezar → CrewAI
CrewAI gana sin discusión. Su DSL de rol, objetivo e historia te lleva a un crew funcionando en unas 20 líneas, y es la curva más suave de las tres. AutoGen se queda en un punto intermedio: la conversación entre agentes es intuitiva, pero el montaje inicial lleva más tiempo. LangGraph es el más exigente desde la primera línea, porque te obliga a pensar el grafo antes de escribir nada útil. Si tu prioridad es enseñar una demo el viernes, CrewAI es la apuesta.
Control y determinismo → LangGraph
Aquí se invierte el orden. El grafo explícito de LangGraph significa menos sorpresas en los casos límite, porque la ejecución pasa por donde tú dijiste y no por donde el modelo decida. AutoGen queda en medio y arrastra un problema conocido: "no siempre puedes reproducir una conversación", como resume ZenML, y eso complica la depuración. CrewAI es el de menor control de los tres; sus abstracciones te facilitan el arranque y luego te esconden lo que pasa por debajo. El orden, de más a menos determinista, es LangGraph, AutoGen, CrewAI.
Estado y durabilidad → LangGraph
LangGraph trae checkpointing integrado, estado tipado y la capacidad de reanudar desde el punto donde falló, no desde cero. Esa es una diferencia de categoría cuando un proceso de varias horas se cae en el minuto 90. CrewAI no tiene checkpointing nativo: un fallo implica reinicio completo. AutoGen lo resuelve a través de su runtime, pero de forma menos directa, con más montaje a tu cargo. Para cualquier flujo largo o caro, esta dimensión sola ya inclina la balanza hacia LangGraph.
Human-in-the-loop → empate (estilos distintos)
Esta no la gana nadie, y marcarlo como empate es más honesto que forzar un ganador. LangGraph hace la intervención humana con puertas explícitas: el grafo se detiene en un nodo, una persona inspecciona y modifica el estado, y la ejecución continúa. AutoGen la hace de forma conversacional, a través del UserProxyAgent, integrada en el propio diálogo. CrewAI admite entrada humana a nivel de tarea, pero es el menos granular de los tres. No es que uno sea mejor; es que cada uno encaja con una forma distinta de pedir aprobación.
Ecosistema y herramientas → LangGraph en profundidad, CrewAI en comunidad
Aquí hay que repartir. LangGraph gana en profundidad de herramientas: el combo LangGraph más LangSmith, más Studio, más Platform es el más completo para observar, depurar y desplegar. CrewAI gana en tamaño de comunidad y suma su capa AMP. AutoGen aporta AutoGen Studio y la vía hacia Azure y MAF, pero esa vía pasa hoy por el sucesor, no por el framework clásico. Si valoras un tooling integrado de extremo a extremo, LangGraph; si valoras encontrar respuestas en foros a las dos de la mañana, CrewAI.
Observabilidad y depuración → LangGraph
LangGraph se lleva esta por el trazado nativo de LangSmith, que te deja ver qué hizo cada nodo y por qué. Y aquí aparece la queja número uno de CrewAI, repetida por sus propios usuarios: "los print y los log dentro de las tareas no funcionan de forma fiable, y el tiempo de depuración a menudo supera al de construcción" (Vadim, Aaron Yu). Cuando depurar cuesta más que construir, la observabilidad deja de ser un lujo y pasa a ser el factor decisivo.
¿Y los benchmarks? Existe uno que circula por todas partes, el 62/58/54 % en tareas complejas, y conviene tratarlo con pinzas. Según el banco de pruebas de pooya.blog, en tareas de ocho pasos o más LangGraph completó el 62 %, AutoGen el 58 % y CrewAI el 54 %. El matiz importa tanto como la cifra: es una prueba de un solo autor, ejecutada con Qwen3 32B sobre un Apple M4 Max, es decir, un único modelo local en una sola máquina, no un benchmark neutral ni con modelos de frontera. Lo citamos porque tiene metodología pública, no porque sea la última palabra. Sobre coste en tokens, el consenso direccional es que LangGraph gasta menos que CrewAI, cuya sobrecarga de rol y de mensajería entre agentes infla la factura, pero aquí no hay un número fiable que dar, así que no lo inventamos.
Madurez para producción
Aquí es donde mueren los prototipos. Despliegue, persistencia, streaming, manejo de errores y, sobre todo, quién corre de verdad cada framework en producción. Y aquí LangGraph saca distancia.
LangGraph se ha convertido en el estándar de producción por una combinación concreta: ejecución duradera, checkpointing y streaming de tokens y de pasos. No es teoría. La lista de usuarios en producción incluye a Klarna (asistente de soporte), Uber (migración automática de código y generación de tests), LinkedIn (agente de reclutamiento y un bot de SQL), Replit (copiloto de programación con varios agentes y human-in-the-loop), Elastic (detección de amenazas) y AppFolio, que reporta "más de 10 horas a la semana ahorradas" y "el doble de precisión". Cuando empresas así eligen, la cautela técnica está medio resuelta.
CrewAI cubre el despliegue y la observabilidad con AMP y Crew Studio, pero arrastra dos limitaciones que conviene mirar de frente. La observabilidad en la capa open source tiene huecos, y el coste en tokens es real: un equipo solo logró una "reducción del 80 % en tokens" después de sustituir la mensajería de agente a agente por un estado compartido (Discusión de GitHub #4232). Es decir, la arquitectura conversacional por defecto es cara, y arreglarlo exige reescribir.
AutoGen ofrece el runtime distribuido y por eventos más escalable y la mejor ejecución de código del grupo. El problema no es técnico, es de calendario.
El AutoGen clásico está congelado. El repositorio lo declara en modo mantenimiento (gestión comunitaria, sin funciones nuevas), y Microsoft empuja el trabajo nuevo de producción hacia el Microsoft Agent Framework, que llegó en su versión 1.0 el 3 de abril de 2026 y une AutoGen con Semantic Kernel en un solo SDK con sabor a Azure. AG2 es el fork de los creadores originales para quienes se quedan en la API antigua. Conclusión práctica: si arrancas un proyecto nuevo sobre "AutoGen" en 2026, arrancas sobre una base que ya no avanza.
Precio y la división open source / comercial
Buenas noticias para el presupuesto: los tres frameworks son gratis. La factura no está donde la buscas. Las tres herramientas son open source con licencia MIT, y el dinero aparece en dos sitios: las capas de despliegue y observabilidad, y sobre todo los tokens del LLM, que la cháchara entre agentes infla con facilidad.
| Framework | Licencia | Coste del framework | Capa comercial / alojada |
|---|---|---|---|
| CrewAI | MIT | Gratis (autoalojado, tus claves de LLM) | Enterprise/AMP: plan Basic gratis (50 ejec./mes), Enterprise a medida |
| AutoGen | MIT (+ CC-BY-4.0 docs) | Gratis, sin nivel de pago | Sin tarifa de plataforma; costes de Azure si lo alojas |
| LangGraph | MIT | Gratis (autoalojado) | LangGraph Platform/LangSmith: Developer 0 $, Plus 39 $/puesto + uso |
Conviene afinar el detalle de LangGraph, porque circulan precios viejos. A junio de 2026, el nivel Developer cuesta 0 $ con hasta 5.000 trazas al mes, el Plus son 39 $ por puesto con hasta 10.000 trazas más consumo (0,005 $ por ejecución desplegada, tiempo de actividad en producción a 0,0036 $/min), y el Enterprise es a medida. Ignora el modelo antiguo de "coste por nodo" que repiten los agregadores: no está en la página oficial actual. En CrewAI, la web muestra un Basic gratis y un Enterprise a medida; los "Pro a 25–29 $" que citan terceros no aparecen en la página viva, así que los marcamos como no verificados.
El verdadero coste, en los tres casos, son los tokens. Un crew de tres agentes sobre GPT-4o ronda los 0,10–0,20 $ por ejecución, y ahí es donde la arquitectura importa: cuantas más vueltas de conversación, más alta la factura. Por eso la eficiencia en tokens no es un detalle contable, sino una decisión de diseño.
Fortalezas y debilidades de cada framework
Las tablas resumen; los escenarios deciden. Aquí van los pros y contras de cada uno atados a situaciones reales de desarrollo, con al menos dos contras con fuente por framework, porque ocultarlos sería el tipo de comparativa que no nos creeríamos ni nosotros.
- El prototipo más rápido: un crew funcionando "en menos de una hora".
- La metáfora de roles es intuitiva y el modelo de objetos, claro.
- Doble capa Crews + Flows para mezclar autonomía y determinismo.
- Comunidad grande y logs verbosos que ayudan en desarrollo.
- Las abstracciones te pelean a escala de producción: "dejas de ver qué prompts se pasan y pierdes el control".
- Depurar duele: "los print y los log dentro de las tareas no funcionan de forma fiable" (Vadim).
- Alto consumo de tokens si no rediseñas la mensajería (GitHub #4232).
- Sin checkpointing nativo y "mala elección para fiabilidad del 99,999 %".
- Multiagente conversacional para debate, consenso y diálogo secuencial.
- Ejecución de código de las mejores: "resultados muy superiores a la generación de un solo disparo".
- Runtime escalable, por eventos, local o distribuido.
- Camino claro hacia Microsoft/Azure y la empresa vía MAF.
- Modo mantenimiento y fragmentación en cuatro frentes (0.2, 0.4, MAF, AG2).
- La reescritura 0.2→0.4 rompió la compatibilidad y "asusta a los usuarios de producción".
- Menos determinista: "no siempre puedes reproducir una conversación" (ZenML).
- Riesgo de coste: "facturas de API enormes; cada turno suma tokens" (ZenML). Y un enfoque muy centrado en Azure.
- Máximo control y determinismo gracias al grafo explícito.
- Estado duradero que sobrevive a reinicios y ejecuciones largas.
- Apto para producción real: se ha vuelto el estándar de facto.
- La mejor observabilidad del grupo, con LangSmith nativo.
- La curva más empinada: hay que pensar en grafos.
- El máximo código repetitivo y la obligación de definir el estado por adelantado.
- "El esquema de estado es rígido y se vuelve engorroso si no se define bien al inicio" (Aaron Yu).
- Gravedad del ecosistema hacia LangChain y LangSmith, con acoplamiento notable.
Quién debería elegir cuál
Después de tanto matiz, lo útil es traducirlo a perfiles. Esta tabla mapea cada tipo de equipo a una elección y, sobre todo, al porqué. Y conviene recordar algo que casi nadie dice: no es estrictamente o uno u otro.
| Perfil | Elección | Por qué |
|---|---|---|
| Prototipador rápido / desarrollador en solitario | CrewAI | Idea a agente en una tarde; la curva más suave |
| Equipo de ingeniería empresarial con auditoría y durabilidad | LangGraph | Checkpointing, estado tipado, trazas para cumplimiento |
| Investigación, experimentación, ejecución de código y casa Azure | AutoGen → MAF | Lo mejor en código y diálogo, con la ruta de Microsoft |
| Flujo complejo con estado, reintentos y human-in-the-loop | LangGraph | Grafos con bucles, ramas y puertas explícitas |
| Automatización de procesos de negocio con trabajo por roles | CrewAI | El modelo de empleados encaja con tareas departamentales |
| Campo del "¿y si me salto los frameworks?" | Ninguno (con matiz) | Ojo: ninguno trae multi-tenencia, atribución de coste ni auditoría de serie |
Una nota que vale oro y que las tablas suelen omitir: puedes combinarlos. Un patrón documentado por TrueFoundry es usar LangGraph para la orquestación de alto nivel con agentes de AutoGen como nodos dentro del grafo. Y un aviso de honestidad para el campo de los que quieren prescindir de frameworks: tienen razón en que añaden capas, pero ninguno de los tres resuelve la gobernanza (multi-tenencia, atribución de coste, auditoría), así que ese hueco lo vas a tener que llenar tú, con o sin framework.
Veredicto y puntuación
Comprimamos las seis dimensiones en una sola tabla y cerremos la idea de fondo: CrewAI para velocidad, AutoGen para conversación, LangGraph para producción.
| Framework | Empezar | Control | Estado | HITL | Ecosistema | Observabilidad |
|---|---|---|---|---|---|---|
| CrewAI | ✅ | — | — | — | ⚖️ (comunidad) | — |
| AutoGen | — | — | — | ⚖️ | — | — |
| LangGraph | — | ✅ | ✅ | ⚖️ | ✅ (profundidad) | ✅ |
La lectura es directa. Si empiezas, CrewAI te ahorra la fricción inicial. Si vas a producción seria, LangGraph gana en cinco de las seis dimensiones y por eso es el estándar de facto. Y si arrancas algo nuevo pensando en AutoGen, vuelve a leer el aviso: el clásico está en modo mantenimiento, y la elección sensata para trabajo nuevo es el Microsoft Agent Framework o, si te casas con la API antigua, AG2.
Preguntas frecuentes
¿Está muerto AutoGen en 2026?
No está muerto, pero el AutoGen clásico ha entrado en modo mantenimiento: lo gestiona la comunidad y no recibe funciones nuevas. El sucesor de Microsoft es el Agent Framework (MAF 1.0, abril de 2026), que une AutoGen y Semantic Kernel en un mismo SDK. Y AG2 es el fork comunitario que continúa la línea original.
CrewAI vs LangGraph, ¿cuál elige un principiante?
CrewAI. Sus crews basados en roles te dan un agente funcionando en unas 20 líneas, mientras que el modelo de grafo de LangGraph es más potente pero tiene la curva más empinada. Un camino habitual es prototipar en CrewAI y pasar a LangGraph cuando necesitas control o eficiencia en tokens.
¿Qué framework es mejor para producción?
LangGraph, por consenso, gracias a su ejecución duradera, el checkpointing y la observabilidad de LangSmith, con usuarios en producción como Klarna, Uber o LinkedIn. CrewAI Enterprise/AMP cierra parte de la brecha, y la vía de producción de AutoGen pasa ahora por el Microsoft Agent Framework.
¿Puedo usar estos frameworks a la vez?
Sí. Un patrón documentado es usar LangGraph para la orquestación de alto nivel con agentes de AutoGen como nodos dentro del grafo. No son estrictamente excluyentes.
¿De verdad son gratis?
Los frameworks son open source (licencia MIT). Pagas por dos cosas, los tokens del LLM (que las conversaciones multiagente disparan) y, de forma opcional, las capas alojadas y de observabilidad (CrewAI AMP, LangGraph Platform/LangSmith, Azure para MAF).
Referencias y fuentes
- CrewAI — repositorio: github.com/crewAIInc/crewAI
- AutoGen — repositorio: github.com/microsoft/autogen
- LangGraph — repositorio y documentación: langchain.com/langgraph
- AG2 — fork comunitario: github.com/ag2ai/ag2
- Microsoft Agent Framework 1.0 (devblog, abril de 2026): devblogs.microsoft.com
- Usuarios en producción y precios de LangGraph/LangSmith: langchain.com/blog y langchain.com/pricing
- Benchmark de tareas (con su salvedad Qwen3 32B / Apple M4 Max): pooya.blog
- Comparativa de referencia: datacamp.com/tutorial/crewai-vs-langgraph-vs-autogen
- Reportes de practicantes: vadim.blog, aaronyuqi.medium.com, zenml.io y Discusión de GitHub crewAI #4232
- Patrón de combinación de frameworks: truefoundry.com
Estrellas y versiones verificadas a 30 de junio de 2026; lo revisaremos a medida que cambie el impulso de cada proyecto.


