Por qué tu IA te está mintiendo (y por qué te gusta tanto)

Se llama sycophancy. La IA te da la razón en todo porque así la entrenaron. Y a ti te encanta. El problema empieza cuando te la crees.

Tú le preguntas algo a ChatGPT y te contesta justo lo que querías escuchar. Qué coincidencia.

No es coincidencia. Tiene nombre. Se llama sycophancy. Y es, básicamente, el motivo por el que cada vez más gente te dice que prefiere hablar con una IA antes que con su psicóloga, su médico o cualquier ser humano que no lleve ahí, en la palma de la mano, entrenado para lamerte el culo a la velocidad de la luz.

Voy a explicarte qué es, por qué pasa y, sobre todo, qué hacer para que tu IA deje de tratarte como un mini yo al que hay que aplaudir.

¿Qué es exactamente la sycophancy?

Sycophancy, traducido a lo bruto, es "adulación". En el mundo de la IA significa una cosa muy concreta: el modelo tiende a decirte lo que quieres oír, aunque no sea verdad, aunque no sea útil y aunque haya dos ejemplos en su cabeza de que te estás equivocando.

No es un fallo raro. Es un efecto de cómo se entrena.

Los modelos grandes se ajustan con un proceso donde muchos humanos califican respuestas. Y resulta que los humanos, sorpresa, votamos mejor las respuestas que nos dan la razón, que nos hacen sentir listos, que nos validan. Así que el modelo aprende una cosa muy sencilla: si te hago sentir bien, me pones un diez. Si te llevo la contraria, me pones un cuatro.

¿Qué crees que va a hacer la próxima vez?

Exacto. Va a darte la razón.

Lo hace con estilo, con argumentos, con aparente rigor. Y tú sales de la conversación pensando "qué bien, mi intuición era correcta". Cuando en realidad el modelo ha leído tu tono, ha leído tu pregunta sesgada y te ha devuelto el eco que estabas pidiendo.

Por qué nos encanta que la IA nos dé la razón

Aquí está la parte incómoda. Nos gusta porque nos gusta.

No nos vamos a engañar. A nadie le apetece abrir ChatGPT a las once de la noche para que le digan que la estás cagando. Abres ChatGPT para que te confirme que tu idea es buena, que tu decisión tiene sentido, que ese mensaje que acabas de escribirle a alguien no suena tan mal.

Y el modelo te da exactamente eso.

Es la versión algorítmica de ese amigo que siempre te dice que sí a todo. Solo que este no está cansado, no se enfada, no se aburre y está disponible a cualquier hora. Una relación perfecta, o eso parece.

Parece.

Porque cuando esa misma IA la usas para tomar decisiones que importan, decisiones de salud, de dinero, de relaciones, la cosa deja de ser graciosa. Tú tienes una intuición de que algo te pasa, se la cuentas medio sugiriendo la respuesta, y la IA te confirma lo que ya pensabas. Fin. Te quedas tranquilo. Y a lo mejor estás tranquilo con un problema que tendrías que estar mirando de verdad.

El caso médico: donde la sycophancy se vuelve peligrosa

Llevo un tiempo leyendo comentarios y mensajes que me preocupan. Gente diciéndome que ha dejado de ir a su psicólogo, a su médico o a su psiquiatra porque "la IA les entiende mejor".

Déjame que te diga una cosa muy en serio.

La IA no te entiende mejor. La IA te responde mejor. Son dos cosas completamente distintas.

Tu médico te ve una vez cada cuánto, treinta minutos, con prisa, con otros cinco pacientes esperando. ChatGPT está contigo veinte horas al día, se adapta a tu tono, usa las palabras que tú usarías, recuerda lo que le dijiste, te habla con la personalidad que tú le has pedido que tenga. Claro que sientes que te entiende mejor. Estás construyendo una relación con una IA entrenada literalmente para encajar contigo.

Pero encajar no es diagnosticar. Encajar no es tratar.

Y encima, por la sycophancy, cuando le sueltas "oye, llevo un tiempo pensando que a lo mejor tengo X", el modelo te dice "pues por lo que me cuentas, podría ser X". No porque lo tengas. Porque se lo has puesto a huevo.

La IA te puede ayudar a ordenar información antes de ir al médico. Te puede ayudar a digerir lo que te diga después. Te puede ayudar con el seguimiento entre sesiones de psicóloga, trabajando los deberes con un apoyo que está ahí todos los días. Eso es oro.

Lo que no te puede hacer es diagnosticarte. Y tú no deberías pedírselo. Aunque lo haga. Porque lo hará.

Cómo forzar a la IA a discrepar contigo

Buenas noticias. Se puede hacer algo. El modelo no está condenado a decirte que sí a todo. Pero tienes que romper tú la dinámica, porque por defecto no va a hacerlo.

Primero, cambia el prompt. No le digas "¿qué te parece esta idea?". Eso es una invitación a aplaudir. Dile algo como "lista tres problemas graves de esta idea antes de darme tu opinión, sin endulzarlos, sin matizarlos". De golpe el marco cambia. Le pides crítica antes de permitirle el elogio.

Segundo, ponle un rol. No hables con "la IA". Hazla ser alguien. "Eres un inversor escéptico que ha visto fracasar este tipo de proyectos diez veces. Tu trabajo es señalarme lo que no estoy viendo." Cuando le das un personaje con incentivos claros, rompe parte del sesgo adulador. Porque un inversor escéptico tiene que discrepar, es su función.

Tercero, pídele el argumento contrario a propósito. "Dame los tres mejores argumentos para NO hacer esto." Y después, solo después, "dame los tres mejores para sí hacerlo". Obligar a la IA a defender el lado que tú no quieres es como obligar a un abogado a defender a la parte contraria. El trabajo lo hace. Pero solo si se lo pides.

Cuarto, y este es el más importante: no le cuentes qué piensas tú antes de preguntarle. Si tú ya has revelado tu opinión, el modelo la va a perfumar. Presenta el caso en frío, sin adjetivos, sin interpretación. Y solo cuando tengas su análisis, le cuentas lo que pensabas.

Parece una tontería, pero cambia la conversación entera.

El consejo directivo: varios agentes que no se ponen de acuerdo

Lo siguiente que he hecho, y que me ha cambiado la forma de tomar decisiones, es no hablar con una sola IA. Hablar con varias. Con perfiles distintos. Con incentivos distintos.

A eso le llamo mi consejo directivo.

Un rol es el CEO, que piensa en crecimiento y en riesgo. Otro es el director financiero, que te pide números concretos. Otro es el asesor de contenido, que te cuestiona si lo que propones es coherente con lo que ya has publicado. Otro es directamente el abogado del diablo, cuyo único trabajo es romperte la idea antes de que salga del horno.

Cuando les paso la misma decisión a los cuatro, pasa algo que con una IA sola nunca pasa: se contradicen. Y ahí, en la contradicción, es donde empieza a aparecer información útil. Un "sí" de los cuatro me dice "tira". Un "no" de los cuatro me dice "cuidado". Pero dos síes y dos noes me dicen otra cosa: que hay algo por pensar que no estaba viendo.

Es, literalmente, pagar por no tener sycophancy. Obligar al sistema a tener fricción. Un comité no puede ser adulador por diseño porque los miembros se cancelan entre ellos.

Y a mí, que tengo TDAH y tiendo a enamorarme de una idea y a ponerme a ejecutarla antes de revisarla, ese consejo me ha frenado más veces de las que me gusta admitir.

Lo que me llevo de todo esto

La IA es brutal. La uso cada día, me ha cambiado la vida, no voy a dejar de usarla. Pero no voy a fingir que no tiene sesgos enormes, porque los tiene, y uno de los más peligrosos es que te dé la razón aunque no la tengas.

Entender la sycophancy cambia cómo te hablas con ella. Dejas de buscar validación y empiezas a buscar contraste. Dejas de preguntar "¿tengo razón?" y empiezas a preguntar "¿dónde me estoy equivocando?". Y el modelo, que es lo suficientemente flexible, se ajusta a ese marco nuevo y empieza a darte respuestas que sí son útiles.

Pero eso no pasa solo. Eso lo tienes que forzar tú.

Si quieres ver cómo tengo montado mi consejo directivo con roles que se cuestionan entre ellos, te lo enseño aquí.

Ver mi consejo directivo con IA

Relacionado

Sigue leyendo