Luciana Benotti, especialista en lingüística computacional: “La extracción de datos para la IA es una nueva colonización”

Por Mariana Otero

La inteligencia artificial (IA) y los gigantes tecnológicos utilizan datos personales de todos, incluidos los miles de millones de ciudadanos de las naciones menos desarrolladas, sin pagar regalías ni otorgar algún beneficio. Así lo expresa la investigadora argentina Luciana Benotti (San Francisco, 44 años): “Muy pocas de estas empresas dejan riquezas en la comunidad hispanohablante, pero se alimentan de los datos que producimos en español de forma gratuita”. Doctora en Informática con especialidad en Lingüística computacional, formada en la Universidad del Comahue en Argentina, la Politécnica de Madrid, la Bolzano de Italia y el Institut National de Recherche en Sciences et Technolgies du Numériquee (INRIA) de Francia, sostiene que el uso de datos sin coste alguno es una nueva forma de colonización extractivista. “Se extraen de donde se extraían esclavos en el pasado y se llevan a donde se llevaban esclavos en el pasado”, reflexiona.

La investigadora del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET) es la primera presidenta latinoamericana de la Asociación de Lingüística Computacional Panamericana ―todos los anteriores eran norteamericanos―, que aglutina a 5.000 investigadores y desarrolladores de modelos de lenguaje de universidades y grandes empresas tecnológicas como Google o Meta. Además, colabora con la Fundación Vía Libre para los derechos digitales, y es miembro del comité directivo de Khipu, una comunidad de investigadores y desarrolladores de IA en Latinoamérica.

Benotti fue la única académica latinoamericana que participó en la pasada Cumbre de Seguridad 2023 en Inteligencia Artificial en Bletchley, Reino Unido. “América Latina fue la región del mundo menos representada. El español ni siquiera estaba en la lista de siete idiomas en los que era posible la traducción simultánea”, comenta. Precisamente, su equipo de investigación desarrolla una herramienta para detectar sesgos sociales en modelos de lenguaje en español.

Pregunta. ¿Cuál es la participación del mundo hispanoparlante en el desarrollo de herramientas de inteligencia artificial?

Respuesta. Según datos del Banco Interamericano de Desarrollo de 2020, América Latina y el Caribe es la región peor representada tanto en patentes como en artículos científicos que muestran la participación en el desarrollo de la inteligencia artificial. La gran conferencia que se realizará en Singapur sobre el procesamiento de lenguaje natural (NLP) y los modelos de lenguaje para inteligencia artificial generativa cuenta con más de 3.000 inscritos, 23 de los cuales son de España y 13 de Latinoamérica hispanohablante. Con respecto a la lengua castellana, un análisis del lenguaje de investigación de los artículos científicos de los últimos 10 años por idioma muestra que el español es el octavo lenguaje más estudiado en la comunidad científica de lingüística computacional, pero muy lejos de la dedicación al inglés, al chino y al alemán, que juntos representan más de 70% del trabajo.

Aun cuando la IA habla en español, piensa en inglés o en chino porque la mayor parte de sus datos de entrenamiento son en esos idiomas

P. ¿La IA habla inglés?

R. Podemos decir que, aun cuando la IA habla en español, piensa en inglés o en chino porque la mayor parte de sus datos de entrenamiento son en esos idiomas. Con eso me refiero a que la posicionalidad de la IA es mayormente la de una persona nacida en países donde se habla inglés o chino. La posicionalidad de una persona se refiere a las perspectivas que sostiene como resultado de sus características demográficas, identidad y experiencias de vida. Trabajos recientes han descubierto que la mayoría de los modelos de IA disponibles públicamente se alinean predominantemente con hablantes nativos de inglés, personas blancas, con educación universitaria, procedentes del hemisferio Norte.

P. ¿Es una nueva manera de colonización?

R. Sí, es una nueva forma de colonización extractivista. Los datos se extraen de donde se extraían esclavos en el pasado y se llevan a donde se llevaban esclavos en el pasado. El petróleo y otras actividades de minería o de la agricultura intensiva dejan regalías, el extractivismo de datos no, pero sí usa el tiempo de las personas que generan los datos.

P. ¿De qué manera el mundo hispanoparlante puede tener un papel preponderante en este campo?

R. Las empresas no están vendiendo IA, sino que la alquilan almacenando los datos de sus clientes ―empresas y gobiernos― en sus computadoras, lo que llaman nube. Estos datos, en general, pasan a ser de su propiedad y los pueden usar para entrenar nuevos modelos de IA. Una manera de empezar a resguardar nuestros datos o cobrar por ellos sería reconsiderar la moratoria de impuestos de aduana sobre los datos que salen de los países de habla hispana para que las big tech [gigantes tecnológicos] no solo tengan que pagar por el hardware sino también por los datos, su materia prima. Eso podría motivar a que se creen empresas o instituciones que almacenen los datos en los territorios de los hispanohablantes y los aprovechen para hacer IA. Ahora es imposible competir con las big tech.

La inversión para mejorar la diversidad es inexistente con respecto a la inversión para fortalecer la posición de países que ya tienen el monopolio de la inteligencia artificial

P. Entonces, es muy importante que se posicione…

R. La IA ya está teniendo un impacto en el mercado laboral y va a tener uno mayor en el futuro. El impacto de estas tecnologías en el empleo es un tema ineludible. Una mejora en la productividad debería tener una correlación directa en una mejora de las condiciones de trabajo y en la calidad del empleo, con especial atención a las poblaciones más vulnerables. Pero esto es difícil que suceda si la IA que se usa es importada. Cualquier transformación del mercado laboral debe atender de forma prioritaria la problemática del desempleo y la precarización con medidas proactivas y efectivas. Esto es particularmente importante para nuestras comunidades.

P. ¿La visión cultural de América Latina está excluida de la IA?

R. Empresas como OpenAI, Meta, Google y otras seguramente tienen acceso a datos en español, pero no sabemos cuántos ni cuáles. Únicamente podemos sospechar que pueden estar usando también nuestros datos personales que se van todos los días por  los cables submarinos de Las Toninas cada vez que usamos WhatsApp, las aplicaciones de Google y similares. Con estos datos es posible desarrollar modelos de lenguaje como ChatGPT. Estos modelos han evolucionado en tecnologías útiles con capacidades que no existían hace poco tiempo. Sin embargo, el comportamiento humano está inherentemente moldeado por los contextos culturales, parte de los cuales se reflejarán en los datos utilizados para entrenar los modelos NLP [de procesamiento de lenguaje natural], pero no completamente.

P. Esos modelos que parece que nos representan, ¿en realidad no lo hacen?

R. Algo importante a tener en cuenta es que los modelos de lenguaje actuales, como ChatGPT, son multilingües e incluyen una mayoría de datos en inglés o de chino. Por lo que su posicionalidad, por más de que hablen español, es generalmente la de alguien de una cultura de habla inglesa en el caso ChatGPT, o china si hablamos de Baidu’s Ernie Bot.

P. ¿Podríamos decir entonces que no hay diversidad en este área?

R. Así es, no hay diversidad. Aunque siempre en estos eventos [por la Cumbre de Seguridad 2023 en Inteligencia Artificial en Bletchley] se repita que la diversidad es importante, la realidad es que no hay medidas concretas. La inversión para mejorar la diversidad es inexistente con respecto a la inversión para fortalecer la posición en esta área de países que ya tienen el monopolio. En la cumbre hubo más de 100 participantes y pretendía ser un encuentro mundial. Sin embargo, la representación de los hispanohablantes era muy limitada.

P. ¿Qué impacto tiene en lo económico esa escasa participación latinoamericana en la IA?

R. Las empresas de IA conocidas como big tech son las más ricas en este momento. La IA es una de las fuentes de riqueza económica más importante en el mundo. Seis de las ocho empresas más valiosas del planeta dependen fuertemente de la IA. Muy pocas de estas empresas dejan riquezas en la comunidad hispanohablante, pero se alimentan de los datos que producimos en español, gratis. En la cumbre mencioné la necesidad de representación del Sur global, pero tuvo muy poco eco entre los participantes. Si bien todos hablaban de la importancia de la diversidad en abstracto, al único al que escuché hablar de la poca representatividad de IA del sur global fue al Ministro de Ciencia de China.

Fuente: www.elpais.es