Poder para las personas: cómo un grupo desconocido de investigadores tiene la clave para usar la inteligencia artificial para resolver problemas humanos reales

En los últimos años, una serie de espectaculares resultados de investigación ha llamado la atención del mundo al campo del aprendizaje automático. La emoción por la IA no ha sido tan intensa desde el inicio del último invierno de IA. Pero, a pesar de la explosión de interés, la mayoría de las personas están prestando atención a la investigación equivocada. Y, en el proceso, se están perdiendo el trabajo de un pequeño grupo de investigadores que están construyendo silenciosamente las bases, necesitaremos usar el aprendizaje automático para resolver problemas humanos reales.

La ola actual de emoción por la IA comenzó con el éxito revolucionario de Hinton et al con redes neuronales convolucionales profundas en la clasificación de imágenes. En un campo que progresa típicamente en puntos porcentuales únicos, sus resultados destruyeron el estado del arte anterior. Los compatriotas de Hinton como Yoshua Bengio, Yann LeCun, Andrew Ng y otros lo siguieron rápidamente, utilizando técnicas relacionadas para establecer nuevos puntos de referencia en reconocimiento de voz, reconocimiento de rostros y otros problemas de investigación. El mundo de los investigadores del aprendizaje automático se dio cuenta rápidamente (y luego se obsesionó profundamente) con este nuevo conjunto de enfoques, que se reunieron bajo el lema de Deep Learning.

Y luego, a medida que Deep Learning obtuvo más apoyo de grandes compañías como Google y Facebook, comenzó a producir logros que eran legibles, y extremadamente impresionantes, para el público en general. AlphaGo obtuvo victorias históricas contra los principales jugadores de Go del mundo. IBM Watson dominó a los jugadores humanos en Jeopardy en la televisión en red. Pequeños esfuerzos como Neural Style Transfer y Deep Dream produjeron impresionantes memes visuales que se extendieron por las redes sociales.

Todo este éxito encendió una llama constante de atención y especulación de la prensa que atrajo a sus ejecutivos, tecnólogos de primera línea y diseñadores en una amplia gama de negocios. Los capitalistas de riesgo están comenzando a hablar sobre invertir en un AI First World. La mitad de las nuevas empresas quieren usar estos avances de inteligencia artificial para crear interfaces de usuario de conversación para sus aplicaciones web y móviles y la otra mitad quiere usarlas para mejorar sus productos de Internet de las cosas. Recientemente hablé en una conferencia organizada por The Economist en Hong Kong y una de las principales preguntas fue sobre el impacto de AI en el marketing.

Pero ahora por un poco de agua fría: si bien los sistemas de inteligencia artificial han progresado rápidamente, no están cerca de poder resolver de forma autónoma cualquier problema humano sustantivo. En lo que se han convertido en herramientas poderosas que podrían conducir a una tecnología radicalmente mejor si, y solo si, las aprovechamos con éxito para uso humano.

Lo que impide que la IA se ponga en uso productivo en miles de empresas en todo el mundo no es un nuevo algoritmo de aprendizaje. No es necesario que haya más programadores que dominen las matemáticas del descenso de gradiente estocástico y la propagación hacia atrás. Ni siquiera es la necesidad de bibliotecas de software más accesibles. Lo que se necesita para la amplia adopción de AI es comprender cómo construir interfaces que pongan el poder de estos sistemas en manos de sus usuarios humanos. Lo que se necesita es una nueva disciplina de diseño híbrido, uno cuyos practicantes entiendan los sistemas de IA lo suficientemente bien como para saber qué posibilidades ofrecen para interactuar y entiendan a los humanos lo suficientemente bien como para saber cómo pueden usar, abusar y abusar de estas posibilidades.

Mira la historia No fue un avance en la matemática de vanguardia o la técnica de programación lo que produjo la "aplicación asesina" para la computadora personal. Fue la conexión de Dan Bricklin entre las posibilidades de programación y los métodos de trabajo de personas reales lo que produjo VisiCalc, la primera "hoja de cálculo electrónica".

Y oculto bajo el espectáculo del gran éxito de Deep Learning, todo un campo de investigación ha crecido silenciosamente y se dedica exactamente a este problema de diseñar interacciones humanas con sistemas de aprendizaje automático. El aprendizaje automático interactivo, como se conoce este pequeño pero emocionante campo, vive en la intersección de la investigación de la experiencia del usuario y el aprendizaje automático. Y casi todos los que lean esto, casi cualquiera que se pregunte cómo incorporar IA en su propio negocio o herramienta creativa o producto de software o práctica de diseño, sería mejor estudiar este campo que tal vez cualquier otra parte del panorama de IA.

A medida que las Redes Neuronales Recurrentes superan a las Redes Neuronales Convolucionales solo para ser superadas por el Aprendizaje de Refuerzo Profundo, que a su vez se ve superado por la inevitable Cosa siguiente en este campo increíblemente rápido, las especificaciones de cualquier algoritmo dado que temporalmente tenga el título de mejor rendimiento en algunos métrica o punto de referencia se desvanecen en importancia. Lo que seguirá siendo importante son los principios para diseñar sistemas que permitan a los humanos usar estos sistemas de aprendizaje para hacer las cosas que les interesan.

Esos principios son exactamente el tema del aprendizaje automático interactivo. Y si eres un diseñador, un gerente o un programador que trabaja para usar la IA para hacer algo para uso humano, son los principios que tendrás que dominar.

Para ayudarlo a comenzar, pensé en resumir algunos de los resultados del campo y proporcionar enlaces a algunas de sus investigaciones más interesantes. Hace un par de años, tuve la suerte de tomar un curso de MIT Media Lab sobre Interactive Machine Learning que fue impartido por Brad Knox, uno de los profesionales más interesantes en el campo. Casi todo lo que voy a describir aquí lo aprendí de Knox o estudiando la lectura que él asignó. (De hecho, lo que sigue es principalmente un resumen laico del artículo de Knox, Power to the People: The Role of Humans in Interactive Machine Learning, escrito con Saleema Amershi, Maya Cakmak y Todd Kulesza, todo entre las principales luces de IML).

Una nota adicional: a diferencia de las ecuaciones que componen la mayoría de los documentos de aprendizaje automático, la literatura de IML es profundamente atractiva y en gran medida amigable para los no expertos. Te animo a que te sumerjas en los documentos originales siempre que un tema en particular despierte tu interés. He reunido enlaces a todos los documentos en el programa de estudios de Knox aquí para hacerlo especialmente conveniente.

Utilice el aprendizaje activo para obtener la mayor ayuda de los humanos

El trabajo principal de la mayoría de los sistemas de aprendizaje automático es generalizar a partir de datos de muestra creados por humanos. El proceso de aprendizaje comienza con los humanos creando un montón de datos etiquetados: imágenes anotadas con los objetos que representan, imágenes de rostros con los nombres de las personas, grabaciones de voz con una transcripción precisa, etc. Luego viene el entrenamiento. Un algoritmo de aprendizaje automático procesa todos esos datos etiquetados por humanos. Al final del entrenamiento, el algoritmo de aprendizaje produce un clasificador, esencialmente un pequeño programa independiente que puede proporcionar la respuesta correcta para una nueva entrada que no era parte de los datos de entrenamiento etiquetados por humanos. Ese clasificador es lo que luego despliegas en el mundo para adivinar la edad de tus usuarios, o reconocer las caras de sus amigos, o transcribir su discurso cuando hablan por teléfono.

El escaso recurso en esta ecuación es el trabajo humano necesario para etiquetar los datos de capacitación en primer lugar.

Muchos resultados impresionantes de Deep Learning provienen de dominios donde están disponibles enormes cantidades de datos etiquetados porque fueron compartidos por los mil millones de usuarios de una red social o rastreados a través de la web. Sin embargo, a menos que sea Facebook o Google, es probable que los datos etiquetados relevantes para su problema sean algo más escasos, especialmente si está trabajando en una nueva vertical que tiene su propia jerga o comportamiento o fuentes de datos. Por lo tanto, deberá obtener sus etiquetas de sus usuarios. Esto implica construir algún tipo de interfaz que les muestre ejemplos de textos o imágenes u otras entradas que desee poder clasificar y haga que envíen las etiquetas correctas.

Pero, una vez más, el trabajo humano, especialmente cuando proviene de sus usuarios, es un recurso escaso. Por lo tanto, solo querrá pedir a sus usuarios que etiqueten los datos que mejorarán más los resultados de su sistema. Active Learning es el nombre del campo de aprendizaje automático que estudia exactamente este problema: cómo encontrar las muestras para las cuales una etiqueta humana ayudaría al sistema a mejorar más. Los investigadores han encontrado una serie de enfoques algorítmicos para este problema. Estas incluyen técnicas para encontrar la muestra sobre la cual el sistema tiene la mayor incertidumbre, detectar muestras para las cuales una etiqueta causaría el mayor cambio en los resultados del sistema, seleccionar muestras para las cuales el sistema espera que sus predicciones tengan el mayor error, y otras . La excelente encuesta de Burr Settles sobre Active Learning ofrece una excelente introducción al campo.

Como un ejemplo concreto de estas ideas, aquí hay un video que muestra un sistema de reconocimiento de gestos con las manos que construí que utiliza los principios de Active Learning para solicitar etiquetas al usuario cuando ve un gesto para el que no puede hacer una predicción clara (detalles sobre este trabajo aquí) :

No trate al usuario como un "Oracle"

Los investigadores de Active Learning han demostrado tener éxito en la producción de clasificadores de mayor precisión con menos muestras etiquetadas. El aprendizaje activo es una excelente manera de sacar el máximo provecho del trabajo de etiquetado que hace que sus usuarios hagan.

Sin embargo, desde una perspectiva de diseño de interacción, Active Learning tiene una desventaja importante: pone al sistema de aprendizaje a cargo de la interacción en lugar del usuario humano. Los investigadores de Active Learning se refieren al humano que etiqueta las muestras que seleccionan como un "oráculo". Bueno, los investigadores de Interactive Machine Learning han demostrado que a los humanos no les gusta ser tratados como un oráculo.

A los humanos no les gusta que un robot les diga qué hacer. Disfrutan mucho más de las interacciones y están dispuestos a pasar más tiempo entrenando al robot si están a cargo de la interacción.

En un artículo de 2010, Diseño de interacciones para estudiantes activos de robots, Cakmak et al estudiaron las percepciones de los usuarios sobre enfoques pasivos y activos para enseñar a un robot a reconocer formas. Una opción pone al robot a cargo. Usaría el aprendizaje activo para determinar la forma que quería etiquetar a continuación. Luego apuntaría a la forma y el usuario proporcionaría la respuesta. La otra opción pone a los usuarios a cargo, permitiéndoles seleccionar qué ejemplos mostrar al robot.

Cuando el robot estaba a cargo de la interacción, seleccionando qué muestra quería etiquetar en el estilo de Aprendizaje activo, los usuarios encontraron el flujo de preguntas del robot "desequilibrado y molesto". Los usuarios también informaron una peor comprensión del estado del aprendizaje del robot, lo que los convierte en peores maestros.

En un contexto de software, Guillory y Blimes encontraron sentimientos similares al intentar aplicar el aprendizaje activo a la interfaz de clasificación de películas de Netflix.

Elija algoritmos por su capacidad para explicar los resultados de clasificación

Imagine que tiene un problema de salud persistente que necesita ser diagnosticado. Tienes la opción de dos sistemas de IA que puedes usar. El sistema A tiene una tasa de precisión del 90%, la mejor disponible. Toma en su historial médico, todos sus escaneos y otros datos y le devuelve un diagnóstico. No puede hacerle ninguna pregunta ni saber cómo llegó a ese diagnóstico. Simplemente recupera el nombre latino de su condición y un enlace de wikipedia. El Sistema B tiene una tasa de precisión del 85%, sustancialmente menor que el Sistema A. El Sistema B toma todos sus datos médicos y también regresa con un diagnóstico. Pero a diferencia del Sistema A, también le dice cómo llegó a ese diagnóstico. Su presión arterial ha pasado un cierto umbral, está por encima de cierta edad, tiene tres de los cinco factores de su historial familiar, etc.

¿Cuál de estos dos sistemas elegirías?

Existe un cliché de marketing que dice que la mitad del presupuesto publicitario se desperdicia pero nadie sabe qué mitad. Los investigadores del aprendizaje automático tienen un cliché relacionado: es fácil crear un sistema que pueda ser correcto el 80% del tiempo, la parte difícil de descubrir cuál es el 80% correcto. Los usuarios confían más en los sistemas de aprendizaje cuando pueden entender cómo llegan a sus decisiones. Y están en mejores condiciones para corregir y mejorar estos sistemas cuando pueden ver lo interno de su operación.

Por lo tanto, si queremos crear sistemas en los que los usuarios confíen y que podamos mejorar rápidamente, debemos seleccionar algoritmos no solo por la frecuencia con la que producen la respuesta correcta, sino por los ganchos que proporcionan para explicar su funcionamiento interno.

Algunos algoritmos de aprendizaje automático proporcionan más de estos tipos de posibilidades que otros. Por ejemplo, las redes neuronales que actualmente impulsan la precisión del estado del arte en tantos problemas proporcionan particularmente pocos ganchos para tales explicaciones. Básicamente son grandes cajas negras que escupen una respuesta (aunque algunos investigadores están trabajando en este problema). Por otro lado, los bosques de decisión aleatoria brindan posibilidades increíblemente ricas para explicar las clasificaciones y construir controles interactivos de los sistemas de aprendizaje. Puede averiguar qué variables fueron más importantes, la confianza del sistema en cada predicción, la proximidad entre dos muestras, etc.

No seleccionaría una base de datos o un servidor web o un marco javascript simplemente por sus puntos de referencia de rendimiento. Observaría la API y vería cuánto admitía la interfaz que desea proporcionar a sus usuarios. Del mismo modo, como diseñadores de sistemas de aprendizaje automático, debemos esperar tener la capacidad de acceder al estado interno de nuestros clasificadores para construir interfaces más ricas e interactivas para nuestros usuarios.

Más allá de nuestro propio trabajo de diseño en estos sistemas, queremos capacitar a nuestros propios usuarios para mejorar y controlar los resultados que reciben. Todd Kulesza, de Microsoft Research, ha realizado un extenso trabajo sobre exactamente este problema, al que llama Depuración explicativa. El trabajo de Kulesza produce sistemas de aprendizaje automático que explican sus resultados de clasificación. Estas explicaciones mismas actúan como una interfaz a través de la cual los usuarios pueden proporcionar comentarios para mejorar y, lo que es más importante, personalizar los resultados. Su artículo sobre la depuración orientada al usuario final de la clasificación de texto Naive Bayes proporciona un ejemplo poderoso y concreto de la idea.

Empoderar a los usuarios para crear sus propios clasificadores

En la práctica convencional de aprendizaje automático, los ingenieros crean clasificadores, los diseñadores los integran en interfaces y luego los usuarios interactúan con sus resultados. El problema con este patrón es que separa la práctica del aprendizaje automático del conocimiento sobre el dominio del problema y la capacidad de evaluar los resultados del sistema. Los ingenieros de aprendizaje automático o los científicos de datos pueden comprender los algoritmos disponibles y las pruebas estadísticas utilizadas para evaluar sus resultados, pero realmente no entienden los datos de entrada y no pueden ver problemas en los resultados que serían obvios para sus usuarios.

En el mejor de los casos, este patrón da como resultado un ciclo de iteración extremadamente lento. Los ingenieros de aprendizaje automático vuelven a sus usuarios con cada iteración del sistema, poco a poco aprenden sobre el dominio y realizan mejoras incrementales. En la práctica, este ciclo engorroso significa que los sistemas de aprendizaje automático incluyen problemas que son obvios para los usuarios finales o que simplemente son demasiado caros de construir para muchos problemas reales.

Para escapar de este patrón, tenemos que poner el poder de crear clasificadores directamente en manos de los usuarios. Ahora, ningún usuario quiere "crear un clasificador". Entonces, para darles este poder, necesitamos diseñar interfaces que les permitan etiquetar muestras, seleccionar características y realizar todas las demás acciones involucradas de una manera que se ajuste a sus modelos mentales y flujos de trabajo existentes.

Cuando descubrimos cómo hacer esto, los resultados pueden ser extremadamente poderosos.

Uno de los experimentos más impresionantes que he visto en Interactive Machine Learning es el trabajo de Saleema Amershi en invitaciones grupales de Facebook, ReGroup: Interactive Machine Learning para la creación de grupos bajo demanda en las redes sociales.

La experiencia actual de invitaciones a eventos de Facebook es así: crea un nuevo evento e invita a amigos. Facebook te presenta una lista alfabética de todos tus cientos de amigos con una casilla de verificación para cada uno. Miras esta lista con desesperación y luego haces clic en el cuadro para "invitar a todos". Y cientos de tus amigos reciben invitaciones a eventos a los que nunca podrán asistir en una ciudad donde no viven.

El sistema ReGroup que Amershi y su equipo crearon mejora dramáticamente esto. Comienza con la misma lista de nombres con casillas de verificación. Pero luego, cuando verifica un nombre, trata ese cheque como una muestra etiquetada positivamente. Y trata los nombres que omitió como muestras etiquetadas negativamente. Utiliza estos datos para entrenar a un clasificador, tratando los datos de perfil y las conexiones sociales como las características. Calcula la probabilidad de que cada uno de tus amigos marque la casilla junto a ellos y clasifica los más probables en la parte superior. Las características que determinan la revelación de eventos son relativamente fuertes y simples: dónde viven las personas, qué conexiones sociales tienen en común, cuánto tiempo hace que se hicieron amigos, etc., los resultados del clasificador se vuelven rápidamente útiles.

Este trabajo es una combinación increíblemente elegante entre los patrones de interacción del usuario existentes y lo que se necesita para entrenar a un clasificador.

Otro gran ejemplo es CueFlik, ​​un proyecto de Fogarty et al que mejora la búsqueda de imágenes basada en la web al permitir a los usuarios crear reglas que agrupan automáticamente las fotos por sus cualidades visuales. Por ejemplo (como se muestra arriba), un usuario puede buscar “estéreo” y luego seleccionar solo las “fotos del producto” (aquellas en un fondo blanco limpio). CueFlick toma estos ejemplos y aprende un clasificador que puede distinguir las fotos del producto de las fotos naturales que los usuarios luego pueden elegir aplicar a otras búsquedas más allá de la búsqueda inicial de "estéreo", por ejemplo, "autos" o "teléfonos".

Conclusión

Al imaginar un futuro moldeado por la IA, es fácil recurrir a los tropos culturales de las películas y la literatura de ciencia ficción, pensar en The Terminator o 2001 o Her. Pero estas visiones reflejan nuestras ansiedades sobre la tecnología, el género o la naturaleza de la humanidad mucho más que las realidades concretas de los sistemas de aprendizaje automático, ya que en realidad los estamos construyendo.

En lugar de ver los resultados revolucionarios recientes de Deep Learning como pasos incrementales hacia estas fantasías de ciencia ficción siempre en retroceso, imagínelas como los nuevos y poderosos motores de miles de proyectos como ReGroup y CueFlik, ​​proyectos que nos brindan habilidades sin precedentes para comprender y controlar nuestro mundo. El aprendizaje automático tiene el potencial de ser una herramienta poderosa para el empoderamiento humano, tocando todo, desde cómo compramos hasta cómo diagnosticamos enfermedades y cómo nos comunicamos. Para construir estos próximos mil proyectos de una manera que capitalice este potencial, necesitamos aprender no solo cómo enseñar a las máquinas a aprender sino cómo poner los resultados de ese aprendizaje en manos de las personas.