Los efectos de productividad de la inteligencia artificial generativa

Las tecnologías de automatización (máquinas capaces de realizar tareas productivas en lugar de trabajadores humanos) han jugado un papel enorme en la historia económica de la humanidad desde la Revolución Industrial. Desde la automatización de la producción textil en el siglo XIX hasta la mecanización de la agricultura a principios del siglo XX, las oleadas históricas de automatización impulsaron enormes reasignaciones sectoriales de mano de obra y ayudaron a estimular la urbanización y un cambio social masivo. Estas olas de automatización estuvieron lejos de ser perfectamente benévolas a corto y mediano plazo (Acemoglu y Johnson 2023), pero finalmente contribuyeron a un inmenso crecimiento en la producción y el nivel de vida en los países industrializados.

Entre la década de 1970 y principios de la de 2020, la historia de la automatización en los países de altos ingresos se mantuvo bastante constante (Autor 2015). Los avances en maquinaria, el auge de las computadoras y la proliferación de tecnologías digitales condujeron a la automatización gradual de las tareas de 'calificación media' que van desde tareas de línea de ensamblaje en el piso de la fábrica hasta tareas administrativas de contabilidad y contabilidad (Autor et al. 2003). Estas tareas, que consisten en secuencias de pasos discretas y formalizables, podrían programarse cada vez más en computadoras y máquinas cada vez más baratas, desplazando a los humanos de muchas ocupaciones.

Estas oleadas incrementales de automatización 'sesgada por la rutina' contribuyeron a una 'polarización' ampliamente discutida del mercado laboral: los empleos de manufactura y de oficina con salarios medios desaparecieron lentamente, mientras que aparecían nuevos empleos en ocupaciones de limpieza, comercio minorista y cuidado personal con salarios bajos. así como ocupaciones gerenciales, técnicas y profesionales de altos salarios. Como consecuencia, la desigualdad de salarios e ingresos aumentó drásticamente durante este período, y los grupos demográficos que alguna vez se concentraron en ocupaciones afectadas por la automatización quedaron rezagados (Acemoglu y Restrepo 2022), mientras que los profesionales de mayores ingresos y los propietarios de capital avanzaron (Moll et al. 2022).

A partir de la década de 2010, los economistas observaron que el floreciente campo del aprendizaje automático podría impulsar la automatización en una nueva dirección. Anteriormente, las tareas solo podían automatizarse si podían dividirse en secuencias explícitas de pasos que pudieran explicarse formalmente a una computadora o máquina. Muchas tareas que requerían creatividad o conocimientos tácitos y difíciles de formalizar, desde la escritura hasta el diagnóstico médico y el diseño gráfico, evitaban así la automatización. Pero en la década de 2010, los economistas notaron que las técnicas emergentes de "aprendizaje profundo", que entrenaron a las computadoras de manera inductiva en grandes conjuntos de datos existentes en lugar de proporcionar instrucciones explícitas, podrían eventualmente permitir la automatización de tareas incluso creativas o basadas en el conocimiento tácito.

La primera ola de tecnologías de automatización basadas en el aprendizaje automático se enfocó en tareas 'predictivas' como decisiones de fianza, decisiones de contratación o diagnósticos médicos (Kleinberg et al. 2018, Chalfin et al. 2016, Mullainathan y Obermeyer 2022). Los algoritmos de aprendizaje automático se volvieron cada vez más buenos para hacer predicciones binarias a partir de datos de entrada de alta dimensión, lo que generó preocupaciones sobre el futuro de ocupaciones como la radiología. Pero las tareas creativas aún parecían estar protegidas de la amenaza de la automatización.

Esto cambió con el lanzamiento público de impresionantes sistemas de inteligencia artificial 'generativa' a mediados o finales de 2022. Estos sistemas, capacitados con técnicas de aprendizaje profundo para generar grandes cuerpos de texto coherentes o imágenes bien producidas en respuesta a indicaciones escritas, fueron sustancialmente más capaz que cualquier chatbot o herramienta de generación de imágenes preexistente. Por primera vez, parecía que la escritura creativa o las tareas de diseño podrían enfrentarse a una automatización generalizada inminente.

En un artículo reciente (Noy y Zhang 2023), informamos los resultados de un experimento en línea que realizamos que proporciona un primer vistazo a la productividad potencial y los impactos en el mercado laboral de los sistemas de IA generativos basados en texto, específicamente ChatGPT 3.5.

Realizamos el experimento en Prolific, una plataforma de encuestas que es un pilar de la investigación académica en ciencias sociales. Examinamos a decenas de miles de encuestados en la plataforma para identificar un subconjunto de encuestados con educación universitaria en nuestras ocupaciones de interés: gerentes, profesionales de recursos humanos, escritores de subvenciones, especialistas en marketing, consultores y analistas de datos, que fueron elegidos en función de nuestra capacidad para proponga tareas de escritura realistas, específicas de la ocupación, de 20 a 30 minutos que podamos administrar a través de una encuesta en línea. Se asignó a gerentes y profesionales de recursos humanos para escribir un correo electrónico confidencial, a los especialistas en marketing para escribir un comunicado de prensa para un producto hipotético, a los escritores de subvenciones para escribir una solicitud de subvención, a los consultores para escribir un informe breve y a los analistas de datos para escribir un plan de análisis. Alrededor del 85% de los participantes calificaron las tareas como imitaciones "realistas" o "muy realistas" de tareas reales realizadas en sus ocupaciones.

Se invitó a los encuestados prolíficos que pasaron nuestra etapa de selección a completar una encuesta de una hora que incluía dos tareas de escritura específicas de la ocupación. A los participantes se les pagó una tarifa base de $ 10 y se les incentivó fuertemente para desempeñarse bien en las tareas: sus envíos de tareas fueron calificados por otros encuestados prolíficos que trabajaban en las mismas ocupaciones, y recibieron hasta $ 14 en pagos de bonificación según sus calificaciones. El pago total promedio en nuestra muestra fue de $17/hora, superando significativamente los típicos $12/hora en Prolific. Nuestra combinación de pago por encima del mercado e incentivos de gran potencia obtuvo con éxito un esfuerzo sustancial de los participantes, que dedicaron un promedio de 27 minutos a la primera tarea.

Entre la primera y la segunda tarea, los participantes se asignaron al azar a un grupo de tratamiento o de control. A los participantes tratados se les dijo que se registraran en ChatGPT e ingresaran varios mensajes de muestra, mostrándoles cómo usar la tecnología. A los participantes de control se les dijo que se registraran en Overleaf (para mantener el tiempo de la encuesta lo más similar posible entre el tratamiento y el control y minimizar la deserción selectiva, casi ningún participante de control usó Overleaf en la segunda tarea). A los participantes tratados se les dijo que podían usar ChatGPT en la segunda tarea si lo encontraban útil.

El grupo de tratamiento eligió abrumadoramente usar ChatGPT en la segunda tarea: el 87 % de los que se registraron con éxito en una cuenta la usaron. Los participantes tratados quedaron muy impresionados con la tecnología, lo que le otorgó una puntuación de utilidad promedio de 4,4 sobre 5,0. Casi todos los usuarios simplemente pegaron el aviso de la tarea en ChatGPT y enviaron una versión sin editar o ligeramente editada de su salida. Contrariamente a las expectativas, pocos participantes eligieron usar ChatGPT de otras maneras, como usarlo para editar su propio borrador, intercambiar ideas o escribir un borrador antes de editarlo en profundidad.

En consecuencia, el tiempo dedicado a la segunda tarea se redujo drásticamente para el grupo de tratamiento en comparación con el grupo de control en la segunda tarea, disminuyendo en un 40 % (Figura 1 Panel A). Las calificaciones promedio aumentaron un 18% (Figura 1 Panel B). El aumento en las calificaciones reflejó en gran medida la alta opinión de los evaluadores sobre el resultado de ChatGPT puro en comparación con el resultado humano puro, y no parece haber reflejado ningún valor agregado de los propios participantes tratados.

Figura 1Efectos de la productividad

¿Por qué los participantes editaron tan poco el resultado de ChatGPT? Una posibilidad es que reconocieron deficiencias claras en el resultado o áreas de mejora potencial, pero querían acelerar la tarea lo más rápido posible. Según esta interpretación, los participantes simplemente usaban ChatGPT como un dispositivo para ahorrar tiempo e ignoraban la calidad de su salida, lo que reducía la validez externa de nuestro experimento al mundo real de mayor riesgo.

Tres elementos de prueba contradicen esta interpretación. Primero, el 40 % de nuestros participantes fueron aleatorizados en un esquema de incentivos 'convexo' que les prometía un pago de bonificación adicional sustancial por recibir una calificación alta de 6 o 7 de 7. Esto brindó un incentivo adicional para corregir o mejorar la sin procesar de ChatGPT. resultado, sin embargo, los encuestados en este grupo no dedicaron más tiempo a la edición en promedio que los encuestados en nuestro principal grupo de incentivos 'lineales', y no recibieron calificaciones más altas. En segundo lugar, los encuestados que eligieron editar (o pasaron más tiempo editando) no recibieron calificaciones más altas que aquellos que enviaron resultados sin editar. En tercer lugar, muchos de los encuestados juzgaron claramente que ChatGPT era un dispositivo de mejora de resultados además de un dispositivo de ahorro de tiempo. Al final de la encuesta, a algunos encuestados tratados se les dio la oportunidad de revisar o reemplazar su envío de tareas previas al tratamiento mediante ChatGPT; El 19 % reemplazó por completo su entrada con la salida de ChatGPT y otro 17 % usó ChatGPT como editor. Nuestra interpretación general es que los participantes vieron el resultado de ChatGPT como de alta calidad y carente de áreas obvias de mejora.

Como consecuencia del uso ampliamente uniforme de ChatGPT en el grupo de tratamiento, la desigualdad en la productividad entre los participantes se redujo drásticamente, como se muestra en la Figura 2. El acceso a ChatGPT permitió que casi todos en el grupo tratado se desempeñaran tan bien como los mejores humanos en el grupo de control.

Figura 2Disminuye la desigualdad de notas

¿Cómo reaccionaron los participantes al ser presentados a esta tecnología sorprendentemente productiva? Preguntamos a los participantes sobre su disfrute de cada tarea; como muestra el Panel A de la Figura 3, el disfrute aumentó en 0,5 desviaciones estándar en el grupo de tratamiento en comparación con el grupo de control. Las preocupaciones de los participantes acerca de que la IA desplazara a los trabajadores en su ocupación aumentaron en el grupo de tratamiento, al igual que el entusiasmo por el hecho de que la IA aumentara a los trabajadores en su ocupación, mientras que el optimismo general sobre la IA aumentó ligeramente. Por lo tanto, los encuestados recibieron la tecnología con entusiasmo en general, pero no sin temor. Estas brechas desaparecieron en el levantamiento posterior.

figura 3Satisfacción laboral, autoeficacia y creencias sobre la automatización

Volvimos a encuestar a los participantes dos semanas y luego dos meses después del experimento para rastrear la difusión de ChatGPT en sus trabajos reales. Dos semanas después, el 34 % de los encuestados tratados y el 18 % de los encuestados de control habían usado ChatGPT en su trabajo durante la última semana; dos meses después, estas cifras eran 42% y 27%. El lento aumento en el uso y la persistente brecha entre el tratamiento y el control sugieren que la difusión de ChatGPT en los trabajos del mundo real sigue siendo algo lenta y se ve obstaculizada por las fricciones de información. Los encuestados que no usaban ChatGPT en su trabajo principal informaron una combinación de razones: falta de familiaridad, falta de acceso en el trabajo o falta de utilidad de ChatGPT debido a la importancia para su trabajo del estilo y el conocimiento específico del contexto.

ChatGPT tiene un impacto sustancial en la productividad en las tareas de escritura profesional de nivel medio, aumentando la velocidad y la calidad y reduciendo la brecha entre los escritores de mayor y menor capacidad. Sin embargo, sus impactos agregados dependerán de complejas consideraciones de equilibrio general de las que nuestro experimento no puede hablar. Como discutimos en el documento, una serie de factores, que van desde la elasticidad de la demanda de servicios relevantes para ChatGPT, las habilidades particulares que mejor complementa ChatGPT y la naturaleza de las estructuras de producción óptimas con ChatGPT, determinarán los impactos de las tecnologías similares a ChatGPT. sobre el empleo, la ocupación y las estructuras salariales.

Acemoglu, D y P Restrepo (2022), "Tareas, automatización y el aumento de la desigualdad salarial en EE. UU.", Econometrica 90(5).

Acemoglu, D y S Johnson (2023), Poder y progreso: nuestra lucha de 1000 años por la tecnología y la prosperidad, Nueva York: Asuntos públicos.

Autor, D, F Levy y R Murnane (2003), "El contenido de habilidades del cambio tecnológico reciente: una exploración empírica", Quarterly Journal of Economics 118(4).

Autor, D (2015), "¿Por qué todavía hay tantos trabajos? La historia y el futuro de la automatización del lugar de trabajo", Journal of Economic Perspectives 29(3).

Chalfin, A, O Danieli, A Hillis, Z Jelveh, M Luca, J Ludwig y S Mullainathan (2016), "Productividad y selección de capital humano con aprendizaje automático", American Economic Review 106(5).

Kleinberg, J, H Lakkaraju, J Leskovec, J Ludwig y S Mullainathan (2018), "Decisiones humanas y predicciones de máquinas", Quarterly Journal of Economics 133(1).

Moll, B, L Rachel y P Restrepo (2022), "Crecimiento desigual: el impacto de la automatización en la desigualdad de ingresos y riqueza", Econometrica 90(6).

Mullainathan, S y Z Obermeyer (2022), "Diagnosting Physician Error: A Machine Learning Approach to Low-Value Healthcare", Quarterly Journal of Economics 137(2).

Noy, S y W Zhang (2023), "Evidencia experimental sobre los efectos en la productividad de la inteligencia artificial generativa", documento de trabajo.

Figura 1 Figura 2 Figura 3