Saltar al contenido principal

Dejamos que nuestra IA escriba código, revise PRs y se despliegue sola.

La historia de construir un pipeline de desarrollo totalmente autónomo donde la IA escribe, revisa, prueba y envía sus propias mejoras.

El bucle que se cerró solo

3 de febrero de 2026. El mensaje del commit dice: “feat(ci): agregar validación de bucle cerrado para Claude autónomo en GitHub Actions.”

Ese commit completó un circuito que se había estado construyendo durante semanas. El resultado: un bucle de desarrollo completamente autónomo donde la IA escribe código, lo prueba, lo revisa, crea un PR y valida el resultado, todo sin que un humano toque el teclado.

Así es como se ve el bucle:

  1. Se presenta un issue en GitHub
  2. Claude lee el issue y la base de código
  3. Claude escribe una solución en una nueva rama
  4. Claude ejecuta las pruebas
  5. Si las pruebas fallan, Claude lee los errores y corrige el código
  6. Cuando las pruebas pasan, Claude crea un PR con un resumen
  7. Una instancia separada de Claude revisa el PR
  8. Un humano revisa todo y decide si fusionar

Los pasos 1 a 7 suceden automáticamente. El paso 8 es la única intervención humana.

Cómo llegamos aquí

Esto no sucedió en un día. Se construyó de manera incremental durante seis semanas, una capacidad a la vez.

Semana 1: Resolución de issues (25 de diciembre). Comenzamos con la versión más simple: Claude lee un issue de GitHub, escribe una solución y empuja una rama. Sin pruebas. Sin revisión. Solo “aquí hay una rama con una solución potencial, échale un vistazo.”

Semana 2: Creación de PR (26-27 de diciembre). En lugar de solo empujar una rama, Claude crea una solicitud de extracción adecuada con un título, descripción y issue vinculado. Ahora la solución es visible para el equipo sin necesidad de revisar ramas manualmente.

Semana 3: Revisión de código (principios de febrero). Un flujo de trabajo separado de Claude se activa en nuevos PRs. Revisa el código en busca de errores, problemas de seguridad y violaciones de estilo. Los comentarios aparecen en el PR igual que los comentarios de un revisor humano.

Semana 4: Validación de bucle cerrado (3 de febrero). La pieza final: Claude ejecuta las pruebas antes de enviar el PR. Si las pruebas fallan, lee la salida de errores, modifica el código y lo intenta de nuevo. El PR solo se crea cuando la suite de pruebas pasa.

Cada semana se añadió una capa. Cada capa hizo que todo el sistema fuera más confiable.

Lo que aprendimos sobre el desarrollo impulsado por IA

La IA necesita restricciones, no libertad. Al principio, Claude a veces “solucionaba” un pequeño error de UI refactorizando tres módulos y cambiando el esquema de la base de datos. Aprendimos a agregar restricciones explícitas: “Solo modifica archivos directamente relacionados con el issue. No refactorices. No agregues funciones. Corrige el error.”

Resúmenes concisos superan explicaciones detalladas. Las primeras descripciones de PR de Claude tenían 2,000 palabras. Nadie las leía. Ajustamos el prompt para requerir resúmenes de menos de 200 palabras. “Qué cambió y por qué” en dos oraciones. Eso es todo lo que un revisor necesita para comenzar su revisión.

La revisión de código detecta problemas reales. Éramos escépticos de que una IA revisando código generado por IA encontrara algo útil. Lo hace. Manejo de errores faltante. Referencias nulas potenciales. Importaciones no utilizadas. Problemas de seguridad. El revisor de código de IA no es perfecto, pero detecta el 80% de los problemas que los humanos encuentran con una revisión rápida, y lo hace en segundos.

La separación de preocupaciones importa. La IA que escribe el código y la IA que revisa el código deben ser separadas. Mismo modelo, diferente contexto, diferente prompt, diferentes preocupaciones. El escritor es optimista (“aquí está mi solución”). El revisor es escéptico ("¿qué podría salir mal?"). Ambas perspectivas son necesarias.

La realidad meta

Digamos lo obvio: estamos construyendo una plataforma para agentes de IA autónomos, y estamos usando agentes de IA autónomos para construirla.

Nuestros usuarios ejecutan agentes de IA que ejecutan código en entornos aislados, leen y escriben archivos, y completan tareas de manera autónoma. Nuestro proceso de desarrollo ejecuta agentes de IA que ejecutan código en entornos de CI, leen y escriben archivos, y completan tareas de manera autónoma.

La diferencia es superficial: nuestros usuarios utilizan la interfaz web de LikeClaw, y nuestro CI utiliza GitHub Actions. El patrón subyacente es idéntico: define una tarea, deja que la IA la ejecute, revisa los resultados.

Esto no es una coincidencia. Construimos la pipeline de desarrollo utilizando los mismos principios que enseñamos a nuestros usuarios. Y las cosas que aprendemos al ejecutar esta pipeline mejoran el producto que construimos para ellos. Es un ciclo virtuoso.

Los números

Desde que habilitamos la pipeline de desarrollo autónoma:

  • PRs creados por IA: docenas
  • Tiempo promedio de issue a PR: minutos, no horas
  • Fallos de pruebas detectados antes de la presentación: múltiples por semana
  • Incidentes en producción causados por código escrito por IA: cero (hasta ahora)

Ese último número es el que más importa. Cero incidentes en producción. Cada cambio escrito por IA pasó por pruebas, revisión de IA y revisión humana antes de fusionarse. La red de seguridad de tres capas funciona.

Esto es solo el comienzo

Hoy, la IA maneja correcciones de errores, actualizaciones de dependencias e implementaciones de funciones sencillas. Mañana, manejará tareas más complejas: refactorización de múltiples archivos, optimización de rendimiento, generación de pruebas.

La clave no es que la IA pueda escribir código. Es que la IA puede participar en un flujo de trabajo de desarrollo con las restricciones adecuadas. Pruebas, revisiones y supervisión humana hacen que el código generado por IA sea seguro. Elimina cualquiera de esas capas y tienes un riesgo. Mantén las tres y tienes una herramienta que multiplica la producción de tu equipo.

Somos un equipo pequeño que entrega 7.5 commits por día. Algunos de esos commits son escritos por humanos. Algunos son escritos por IA. Todos ellos están aprobados por humanos.

Ese es el futuro del desarrollo de software. No IA reemplazando desarrolladores. IA acelerando a los desarrolladores. Con las restricciones adecuadas. A las 3 AM. Mientras el equipo duerme.

El pipeline de desarrollo autónomo

  1. 1

    Problema reportado

    Se reporta un error o se solicita una función a través de GitHub Issues. Puede provenir de un usuario, un miembro del equipo o de un monitoreo automatizado.

  2. 2

    La IA lee y entiende

    Claude lee el problema, explora la base de código, identifica los archivos relevantes y formula un enfoque de solución.

  3. 3

    El código está escrito

    Claude escribe la corrección o la función en una nueva rama. Ejecuta la suite de pruebas. Si las pruebas fallan, corrige el código y vuelve a intentarlo.

  4. 4

    Se crea y revisa el PR.

    Se crea un PR automatizado con un resumen conciso. Una instancia separada de Claude revisa el código en busca de errores, seguridad y estilo.

  5. 5

    El humano aprueba

    Un humano revisa el PR, los comentarios de revisión de código del AI y los resultados de las pruebas. Luego fusiona o solicita cambios.

Antes

Desarrollo sin AI en el proceso

  • El problema se queda en la lista de pendientes durante días o semanas.
  • El desarrollador pasa más de 30 minutos entendiendo el contexto.
  • La revisión de código toma horas de espera.
  • Los errores simples consumen bloques enteros de la mañana.

Después

Desarrollo con IA en el circuito

  • El problema tiene un PR en cuestión de minutos después de ser presentado.
  • La IA ya ha explorado la base de código y ha escrito pruebas.
  • La revisión de código es instantánea: el humano solo revisa la revisión.
  • Los errores simples se corrigen antes de que el equipo se despierte.

Preguntas sobre el desarrollo impulsado por IA

¿Cuánto de tu código está escrito por IA?

Varía. Las correcciones de errores rutinarias, las actualizaciones de dependencias y las funciones simples son principalmente escritas por IA con revisión humana. Las decisiones arquitectónicas, las funciones complejas y el código sensible a la seguridad son escritos por humanos con revisión de IA. La proporción cambia de semana a semana.

¿Qué impide que la IA haga cambios perjudiciales?

Tres capas: pruebas automatizadas que deben pasar, revisión de código por IA que verifica problemas, y aprobación humana obligatoria antes de la fusión. La IA nunca hace push directamente a main.

¿Pueden tus usuarios hacer esto también?

Los mismos principios se aplican. Los usuarios de LikeClaw pueden configurar agentes en segundo plano que escriben código, analizan repositorios y generan informes. Las herramientas que usamos internamente son las mismas que ofrecemos a los usuarios.