- El Test de Turing es un método propuesto por Alan Turing para comprobar si una máquina puede imitar la conversación humana lo suficientemente bien como para que una persona no sepa que está hablando con una computadora.
- En vez de demostrar que una máquina “piensa” como un humano, la prueba evalúa si puede imitar de manera convincente el comportamiento humano a través del diálogo, a veces usando trucos como errores de tipeo o lenguaje informal.
- Aprobar el Test de Turing no significa necesariamente que una máquina tenga conciencia; solo demuestra que puede imitar la conversación humana de forma convincente, lo que genera debates sobre la inteligencia y qué significa realmente “pensar”.
¿Qué es el Test de Turing y cómo funciona?
The Turing Test is an AI test to see whether, through a chat conversation, a computer can convince a human that it is human. A human is asked to judge whether the “person” they are speaking to is a human or a computer. If they judge that they are speaking to a human but they are actually speaking to a computer, the computer has passed the Turing Test.
En esencia, es una prueba para evaluar si una computadora puede imitar a un humano de manera tan convincente que logre engañar a una persona haciéndole creer que habla con otro humano. Por supuesto, hay muchos aspectos a considerar sobre esta prueba.
¿Cuál es el objetivo del Test de Turing?
Puede parecer una pregunta extraña, ya que el objetivo parece obvio: saber si una máquina puede imitar de manera convincente a un humano en una conversación por chat. Sin embargo, hay consideraciones más profundas.
¿Estamos evaluando si una máquina puede imitar realmente a un humano en cuanto a pensamiento o inteligencia, o solo si puede engañar a una persona para que crea que es humana? Hay una diferencia.
Imitar a los humanos en cuanto a pensamiento o inteligencia es lo que la mayoría suele pensar cuando se habla del Test de Turing: que las personas realmente no puedan distinguir entre conversar con un humano o una máquina. Sin embargo, esta no era la idea original de la prueba, ya que se permitía “engañar” a las personas. Por ejemplo, cometer errores de ortografía podría ser una forma en que una computadora engañe a una persona, ya que una máquina normalmente no cometería faltas.
El problema de fondo es que las pruebas tienen reglas y, por lo tanto, inevitablemente presentan fallos. Por ejemplo, el tiempo que se conversa con el sujeto de prueba importa. Es más fácil imitar a un humano durante 5 minutos que durante cien horas de conversación. Los trucos pueden funcionar en la versión de 5 minutos, pero no en la de cien horas.
¿Importa quién realiza el Test de Turing?
Un científico entrenado para distinguir entre máquinas y humanos será mucho más difícil de engañar que una persona común sin formación, no solo por su capacidad para evaluar respuestas, sino también por saber qué preguntas hacer.
Incluso si la computadora tiene un nivel de “pensamiento” e inteligencia similar al humano, eso puede no ser suficiente para engañar al evaluador. Esto se debe a que la computadora podría ser demasiado perfecta o poco emocional en sus respuestas.
Incluso existen consideraciones filosóficas en torno al Test de Turing, como si el hecho de que las computadoras alcancen una inteligencia generalizada a nivel humano significaría que las máquinas pueden “pensar” o son conscientes. Esta era, en parte, una cuestión que Alan Turing intentaba dejar de lado con esta prueba. Si una máquina puede imitar a un humano con precisión, entonces, a efectos prácticos, está “pensando”.
Por supuesto, eso no significa que tenga conciencia o que piense de la misma manera que un humano. De hecho, es seguro que no piensa igual que los humanos. El verdadero interés de esta cuestión aparece cuando se analiza desde un punto de vista práctico. Por ejemplo, los aviones vuelan. Eso es lo importante. Es mucho menos relevante que no imiten a los pájaros en su forma de volar.
El Test de Turing se interesa por los resultados, no por el modo en que se logran.
Un punto más importante es que el Test de Turing suele entenderse como una situación en la que la inteligencia artificial ha alcanzado al menos el nivel de inteligencia humana. Solo un grupo reducido se interesa por la cuestión de si una máquina ha pasado técnicamente un Test de Turing, considerando todos los defectos mencionados antes.
Aunque superar un Test de Turing podría ser un logro técnico impresionante, especialmente si la prueba es prolongada y realizada por expertos, es mucho menos impresionante que una máquina capaz de engañar a todas las personas, todo el tiempo. Por supuesto, cuanto más largo sea el periodo de la prueba y mayor el nivel de los evaluadores, más probable es que ambos escenarios se acerquen.
¿Estamos cerca de que una computadora pase el Test de Turing?
Ahora que entiendes en qué consiste la prueba, la siguiente pregunta es: "¿estamos cerca de que una computadora la supere?" (es decir, alcanzar una inteligencia humana generalizada). La respuesta corta es “No”.
Aunque ha habido grandes avances en Procesamiento de Lenguaje Natural, que es la capacidad de una computadora para identificar la intención detrás de una frase hablada (la tecnología detrás de los asistentes de voz), aún estamos muy lejos de una inteligencia generalizada a nivel humano.
Resulta que la tecnología actual no es muy buena con la ambigüedad (entender el significado detrás de frases ambiguas), la memoria (incorporar hechos mencionados previamente en la conversación actual) o el contexto (considerar hechos no mencionados pero relevantes para la situación actual). En resumen, la tecnología actual está muy lejos de lo que se necesita.
Parte del problema es que la IA actual necesita aprender usando enormes cantidades de datos. Cualquier área donde haya muchos datos repetitivos es ideal para introducir IA, como el reconocimiento de voz y el procesamiento de imágenes, incluyendo los autos autónomos.
Success in NLP is driven by the fact that there is almost unlimited data for one-off statements and questions with no context or no memory. If I say “I want to buy orange” it is in most cases a simple statement needing no additional information about context or memory to understand. The intention is: “Buy Orange Juice”.
Cuando hay contexto o memoria, esto añade dimensiones. Si digo que quiero “comprar jugo de naranja” pero antes te he dicho que soy un operador financiero que comercia con jugo de naranja, entonces necesitas entender que, en este contexto, quiero comprar un instrumento financiero que gane dinero si el precio del jugo de naranja sube.
¿Cómo se ve ahora nuestro dato? “Comprar jugo de naranja” significa: comprar una botella de jugo de naranja en la tienda O, si antes se ha dicho que es un operador financiero de jugo de naranja, significa que quiere comprar un instrumento financiero vinculado al precio del jugo de naranja.
¿Y si nuestro operador financiero acaba de decir que tiene sed? Entonces quiere decir que quiere comprar una botella de jugo de naranja en la tienda. Así que añadimos otro dato: O si antes ha dicho que es un operador financiero de jugo de naranja pero recientemente ha dicho que tiene sed, significa que quiere comprar una botella de jugo de naranja.
Una empresa financiera se encontraría rápidamente con problemas si lanzara un bot de trading que los usuarios creyeran que tiene "inteligencia" a nivel humano.
¿Es imposible pasar el Test de Turing?
Los datos de conversación tienen muchas dimensiones, lamentablemente. Dimensiones infinitas. Esto significa que los algoritmos de aprendizaje automático necesitarían acceder a un conjunto de datos con grandes cantidades de información para cada posible dimensión, lo cual es, por supuesto, imposible.
Esto no significa, por supuesto, que pasar el Test de Turing sea imposible. Sabemos que es posible porque ya tenemos la tecnología para hacerlo: nuestro cerebro. Así como hace cientos de años la gente sabía que volar era posible al observar a los pájaros.
El problema es que nuestro enfoque actual de IA no puede basarse en big data porque no existe big data con la dimensionalidad suficiente. Hay demasiadas variables, demasiadas dimensiones. Incluso hoy, Google recibe 800 millones de búsquedas diarias que nunca ha visto antes. Eso da una idea de lo difícil que sería el enfoque basado en datos.
Ray Kurzweil, en Google, sigue un enfoque que en cierta medida intenta replicar el cerebro humano. Ha estimado que alcanzaremos la inteligencia generalizada y podremos superar un Test de Turing realmente difícil para 2029.
Su pronóstico se basa en la suposición de que el progreso en este campo será exponencial y, por lo tanto, incluso los avances relativamente modestos de hoy son mucho más significativos de lo que parecen si asumimos que estamos en una trayectoria de progreso exponencial.
Si tiene razón o no, habrá que esperar para verlo, pero lo que sí indica es que es muy poco probable que el gran avance ocurra en los próximos 10 años.
¿Qué significaría que una máquina superara una prueba de Turing creíble?
El punto final es qué implicaría que una máquina pasara una prueba de Turing creíble. Si la máquina superara la prueba usando enfoques basados en big data, de manera similar a como las máquinas vencen a los humanos en juegos de mesa, incluso los más sofisticados, las implicaciones no serían tan grandes como si la máquina lo lograra mediante un enfoque de replicación cerebral.
El enfoque de replicación cerebral implicaría que la máquina probablemente estaría más cerca de "pensar" como definimos el pensamiento los humanos. Podría extraer significado a partir de ejemplos mínimos, como hacemos las personas, en lugar de necesitar cientos de ejemplos idénticos para comprender el significado.
Como se mencionó antes, es más probable que el avance provenga de un enfoque de "replicación cerebral", ya que el enfoque de big data no es viable. Esto probablemente significaría que las máquinas habrían alcanzado una inteligencia general, no solo en la conversación, sino en múltiples ámbitos.
La implicancia de esto no puede sobrestimarse, ya que probablemente llevaría a un reinicio completo de la sociedad. Esto es especialmente cierto si las máquinas tienen la capacidad de mejorarse a sí mismas de manera significativa, lo que podría llevar a un aumento exponencial de su inteligencia en un círculo virtuoso que transformaría la vida tal como la conocemos.
Interacción de los humanos con las máquinas
Volviendo a cuestiones más cotidianas, vale la pena recordar que incluso si una máquina fuera equivalente a un humano, eso no significa que interactuaríamos con ella igual que con una persona. Es exactamente lo mismo que ocurre entre humanos. Interactuar con personas no siempre es eficiente. Intentar explicar a un colega cómo hacer algo por teléfono puede ser tedioso e ineficiente en situaciones donde sería más fácil mostrarle cómo hacerlo. ¡Si tan solo los humanos tuviéramos una interfaz gráfica disponible en la web!
Las interfaces de voz (o basadas en chat) claramente tienen limitaciones en cuanto a la entrada y salida de información. Evidentemente, hay situaciones en las que es mucho más eficiente mostrar información de forma gráfica o hacer clic en una interfaz visual que usar una interfaz de voz. Por eso, las plataformas de bots están diseñadas para intentar siempre que el usuario vuelva al camino óptimo y evitar que la conversación se desvíe.
Mi punto es también que las computadoras no están limitadas como los humanos en cuanto a las interfaces que pueden usar para recibir o proporcionar información, por lo que las conversaciones con máquinas necesariamente implicarán usar la interfaz más adecuada para la tarea.
Si bien superar la prueba de Turing sería un gran hito en la interacción humano/computadora, las "conversaciones" reales entre humanos y computadoras no se limitarán solo a voz y texto.
Preguntas frecuentes
¿Cómo se compara la prueba de Turing con otros referentes para la IA, como el Winograd Schema Challenge o el ARC Challenge?
La prueba de Turing evalúa si la IA puede imitar la conversación humana, pero pruebas más recientes como el Winograd Schema Challenge y el ARC Challenge se centran más en el razonamiento, el sentido común y la resolución de problemas. Aspectos que revelan una inteligencia más profunda en lugar de solo imitación superficial.
¿Sigue siendo relevante la prueba de Turing en la investigación moderna de IA, o existen alternativas mejores hoy en día?
La prueba de Turing sigue siendo un experimento mental útil y un hito, pero muchos investigadores ahora la consideran desactualizada. Las pruebas modernas se enfocan más en medir la comprensión real, la lógica y la capacidad de generalización.
¿Cómo afectan los sesgos culturales o lingüísticos los resultados de una prueba de Turing?
Sí. La IA puede malinterpretar modismos, el humor o referencias propias de ciertas culturas o idiomas, lo que facilita identificarla como no humana en determinados contextos.
¿Cómo redefiniría superar la prueba de Turing lo que significa ser "humano"?
Si una máquina superara una prueba de Turing rigurosa, podría obligarnos a replantear si lo humano se define por la biología o por el comportamiento, y qué hace que nuestra forma de pensar sea realmente única.
¿Qué tipo de preguntas suelen ser más efectivas para exponer rasgos no humanos en la IA?
Las preguntas que dependen del contexto, los matices emocionales o el sentido común del mundo real, como interpretar el sarcasmo, referencias vagas o información contradictoria, suelen ser las más reveladoras.