Gemini 3: La Guía del Desarrollador para la Nueva Era de la IA
Una semana con Gemini 3 Pro: Deep Think en una migración real, un bug diagnosticado desde un vídeo de 2 minutos, y el lado agéntico que aún hay que vigilar. →
Óscar Gallego
Desarrollador Web
En este artículo
Llevo una semana probando Gemini 3 Pro, y ¿sabes qué? Me molesta que sea tan bueno.
No porque esté mal. Todo lo contrario. Justo cuando me había acostumbrado a mi workflow con Claude/GPT-4, Google suelta esto el 18 de noviembre y me lo tira todo por la ventana otra vez. Típico.
Pero la cosa es así: después de obligarme a reconstruir una feature que ya tenía funcionando (sí, reescribí código que funcionaba solo para probar esto), entiendo el hype. No es el típico release de “10% mejor en benchmarks”. Deep Think y multimodalidad real (no la fake de siempre) cambian cómo puedes trabajar.
Deja que te enseñe a qué me refiero.
Lo que de verdad ha cambiado esta vez
1. Deep Think, o por qué ahora se para a pensar
¿Sabes cómo los modelos anteriores simplemente empezaban a vomitar tokens? En medio del pensamiento, cero planificación, solo predicción de palabras a lo bestia.
Gemini 3 realmente se para. Piensa. Verás “[Thinking…]” en la respuesta de la API, y al principio pensé que se me había caído la conexión. Pues no. Realmente está gastando tiempo de cómputo planificando la respuesta antes de soltarla.
Donde lo he usado de verdad:
El jueves pasado, le pedí que planificara nuestra migración de una app Angular monolítica a micro-frontends. En lugar de soltar código inmediatamente:
- Preguntó sobre nuestro pipeline de deploy (ni siquiera le di contexto de esto)
- Identificó 3 dependencias legacy que se romperían
- Sugirió un plan de rollout por fases que realmente tenía sentido
¿Podría Claude hacer esto? Quizás. Pero Gemini 3 lo hizo sin que tuviera que estar tuneando prompts constantemente.
El pero: Es más lento. Si estás acostumbrado a respuestas instantáneas, esa pausa de 3-5 segundos pensando se hace eterna. Pero para decisiones de arquitectura, prefiero precisión antes que velocidad.
2. Multimodalidad sin cinta aislante
Todos los modelos ahora dicen tener “multimodalidad”. Normalmente significa que pegaron tres modelos diferentes con cinta aislante y cruzaron los dedos.
Gemini 3 es diferente: un solo modelo lo maneja todo. Texto, código, vídeo, audio, imágenes. Mismos pesos, misma arquitectura.
Test real que hice:
Grabé un vídeo de 2 minutos en Loom de un bug en la UI (un botón que no se deshabilitaba al hacer clic). Sin transcripción, sin snippets de código. Solo yo haciendo clic por ahí y quejándome en español.
Lo subí. Pregunté: “¿Qué está roto?”
Respondió:
- Identificó que el event handler no estaba previniendo doble-click
- Señaló el componente React por nombre (¿¿CÓMO??)
- Sugirió añadir un estado
isLoadingcondisabled={isLoading}
Lo comprobé. Tenía razón. El nombre del componente era correcto. De un VÍDEO.
La parte rara: A veces alucina nombres de componentes si tu vídeo es muy largo (más de 5 minutos). Pero para cazar bugs rápido, nada de lo que he usado se le acerca.
3. Capacidades de Agente (Con un Asterisco Gigante)
Los números de Google pintan muy bien sobre el papel: SWE-bench Verified pasó del 59,6% al 76,2% (de Gemini 2.5 Pro a Gemini 3 Pro). En la práctica… es complicado.
Lo que funciona:
- Ejecutar comandos de terminal (le dejé debuggear un problema de networking en Docker y usó
docker inspectcorrectamente) - Editar archivos (hizo un refactor de 12 archivos en mi codebase sin romper tests)
- Ejecutar tests e interpretar fallos
Lo que no:
- Todavía intenta ejecutar comandos que no existen (
git commit -fixno es real, Gemini) - Se lía si la estructura de tu proyecto es poco convencional
- Sugiere con confianza borrar archivos que en realidad son críticos (lo pillé dos veces; revisa siempre)
Confía, pero verifica. Siempre.
Dónde encaja en un workflow real
1. Deja de Escribir Boilerplate (En Serio, Para Ya)
Olvídate del “vibe coding”. Hablemos de la mierda que realmente odias hacer.
Mi nuevo workflow:
En lugar de hacer scaffolding de otra API CRUD a mano, ahora hago esto:
“Necesito un endpoint de FastAPI para autenticación de usuarios. Tokens JWT, lógica de refresh, PostgreSQL con SQLAlchemy. Sigue nuestro patrón existente de los endpoints de
/products.”
Luego subo nuestro módulo de products como contexto. Gemini 3 genera código correcto al 90%. ¿El otro 10%? Normalmente solo rutas de imports o variables de entorno.
Tiempo ahorrado: Lo que antes me llevaba 2 horas ahora son 20 minutos.
El truco: Necesitas un patrón de codebase consistente. Si tu proyecto es un caos, Gemini 3 va a reflejar ese caos.
2. Code Reviews (Pero No Como Piensas)
Aún no confío en la IA para code reviews completos. Pero sí uso Gemini 3 como “filtro de primera pasada”.
Mi setup:
- El dev abre un PR
- GitHub Action manda el diff a Gemini 3
- Marca lo obvio: credenciales hardcodeadas, falta de error handling, riesgos de SQL injection
- Postea estos como comentarios automáticos
- Yo (humano) hago la review real de lógica y arquitectura
Esto pilla lo aburrido para que yo pueda enfocarme en si el código realmente resuelve el problema.
Aviso: A veces marca falsos positivos. La semana pasada se quejó de un archivo .env que en realidad era .env.example. No hagas merge ciegamente basándote en feedback de IA.
3. Legacy Code (Donde Realmente Brilla)
¿Recuerdas ese espagueti de jQuery de hace 6 años que nadie quiere tocar? El context window de 1M de tokens de Gemini 3 es perfecto para esto.
Lo que hice el mes pasado:
Subí todo nuestro panel de admin legacy (22 archivos de horror en vanilla JS). Le pedí que:
- Identificara qué archivos se usan realmente
- Creara un grafo de dependencias
- Reescribiera el módulo de gestión de usuarios en React
Funcionó. No perfectamente (tuve que arreglar bugs de event handling), pero hizo el 70% del trabajo sucio.
Pro tip: Haz esto incrementalmente. No le pidas que reescriba toda tu app. Empieza con un módulo aislado, verifica que funciona, y luego sigue con el siguiente.
Entonces… ¿te debería importar?
Mira, no voy a dejar Claude del todo. Para brainstorming y escribir, Claude sigue sintiéndose más “humano”. Pero ¿para código? Gemini 3 me está ganando.
Solo la feature de Deep Think me ahorra estar dudando de decisiones de arquitectura. La multimodalidad es genuinamente útil (no un gimmick). Y el context window significa que puedo cargar proyectos reales, no ejemplos de juguete.
Mi consejo:
- Pruébalo si estás haciendo refactoring o trabajando con legacy code
- Quédate con Claude/GPT-4 si necesitas escritura creativa o explicaciones matizadas
- No confíes ciegamente: le he pillado sugiriendo malas prácticas cuando está fuera de su knowledge cutoff
El futuro del desarrollo probablemente es agéntico. Pero aún no estamos ahí. Gemini 3 es un paso grande, eso sí.
Ahora discúlpame mientras voy a reescribir mi pipeline de CI/CD por tercera vez este año.
Lectura relacionada: más sobre dejar que la IA haga la primera pasada de review: probé usar IA para revisión de código en mis proyectos.
P.D. Si has probado Gemini 3, me encantaría saber qué piensas. ¿También te alucinó nombres de componentes, o soy solo yo? Escríbeme en Twitter/X.


