“La Ciudad ya detecta posibilidad de contagio de coronavirus por audios de WhatsApp. Enviando audios de tu tos al WhatsApp de la Ciudad podemos identificar si tenés que testearte o no”. Con este mensaje en Twitter, el jefe de gabinete del gobierno porteño saludó el lanzamiento de la nueva función del chat de atención ciudadana que promete mejorar el triage virtual de los pacientes sospechosos de Covid. Es por medio de una aplicación de inteligencia artificial que podría distinguir (a partir de la tos y con un 86% de precisión) si la persona debe o no someterse a un test.
Según se informó, luego de entrenarlo durante un año con unos 140.000 audios de personas que tosían después de recibir por whatsapp el resultado de su hisopado (positivo o negativo), el “bot” sería capaz de reconocer los patrones sonoros de la tos correspondiente a Covid distinguiéndola de la de otras dolencias, incluso en personas asintomáticas. La idea es que ayudaría a reducir el número de positivos que pasan por debajo del radar del sistema sanitario. En palabras de los funcionarios, “ofrece una herramienta para mejorar la indicación de testeo de manera no invasiva, accesible y gratuita”.
Sin embargo, el anuncio no fue recibido con el mismo entusiasmo por investigadores de la comunidad local de inteligencia artificial. Entre otras cosas, objetan falencias metodológicas, información incompleta, inconsistencias y, sobre todo, que no cumple con reglas básicas de la ciencia: que los trabajos experimentales deben poder ser evaluados por pares y reproducidos por equipos independientes.
Falta de auditoría
“Hacer una crítica detallada requiere un tiempo, pero hubo investigadores que bajaron los datos públicos e intentaron replicar lo que decía la descripción del informe técnico y no obtuvieron los mismos resultados –cuenta Diego Fernández Slezak, multipremiado investigador del Conicet en el Laboratorio de Inteligencia Artificial Aplicada de la Facultad de Ciencias Exactas de la UBA, especializado en procesamiento del lenguaje natural–. El reporte es vago y hay varios puntos que alimentan sospechas fundadas de error metodológico. Así como está, no sirve, porque no sabemos bien qué hace ni qué está midiendo, cuánto mejoran sus resultados los obtenidos por azar. Falta información como para decir ‘esto es útil’”.
Una primera observación se centra en la falta de contexto. Gran parte de las personas que tienen Covid son asintomáticas, y de las que sí tienen síntomas, menos de la mitad tiene tos. ¿Cuál es la prevalencia de Covid entre estas últimas? Si es más del 90%, el sistema no aporta mucho: si se elige al azar, también se acertará en 9 de cada 10 casos.
De acuerdo con lo que se difundió, en una prueba piloto con 2687 audios de tos, se recomendó a 554 personas acercarse a un punto de testeo. De ellos, 436 recibieron un resultado positivo y 118, uno negativo. ¿Cuál es el número de personas que no enviaron a testear y que sí tenía Covid? Es imposible saberlo, aunque es importante para evaluar si hubiera sido mejor indicarles el test a todos.
Si los datos que se usaron son los que dieron a conocer en el repositorio (https://arxiv.org/abs/2104.13247) los científicos encuentran correlaciones espurias de género, de síntomas. En un análisis, concluyeron que gran parte del buen rendimiento reportado se debe a importantes sesgos (por ejemplo, hay muchos más hombres que mujeres).
Por otro lado, la base de datos de entrenamiento consiste en personas que ya se hicieron el PCR. Pero con el bot, uno quiere ver si mandarlos o no a hacer el PCR, por lo que en principio las poblaciones son distintas. Hay por lo menos tres días de diferencia (el tiempo aproximado en el que la persona empieza a manifestar señales de la enfermedad y que se hace la prueba) en que los síntomas cambian.
“La toma de datos es distinta al uso –subraya Fernández Slezak–. Este es un claro sesgo. Cuando uno entrena el sistema y lo valida, lo que hace es entrenar con casi todo, dejar una partecita afuera y fijarse cómo anduvo en esta última. Es para no entrenar con lo mismo que se va a usar para evaluar el sistema. Por ejemplo: cuando uno tiene dos audios de la misma persona, no puede usar uno para entrenamiento y el otro, para validación, porque está haciendo trampa. Es clave tener bien ‘anotado’ el corpus, lo que implica médicos diciendo ‘esto es actuado, esto no’. En el ‘curado’ de datos radica el 80 % del éxito de los proyectos de data science. No sabemos si eso se cumplió, porque no está explicitado”.
Preguntas sin respuesta
Otras preguntas sin respuesta: los datos se recolectaron entre el 11 de agosto y el 2 de diciembre de 2020. Si efectivamente hay patrones específicos de tos para el Covid, los de las nuevas variantes pueden ser diferentes. ¿Cómo se adapta el sistema? ¿Cuánta gente tenía tos y cuánta gente la actuó?
Todas las enfermedades de trabajos previos que se mencionan en la bibliografía (Enfermedad de Parkinson, asma, estrés postraumático, daño cerebral, etc) se fundamentan en que los médicos reconocen que hay un sonido anómalo. Pero según la información que se hizo pública, en esta aplicación no participó ningún médico. Aunque hay casos de algoritmos que funcionan mejor que los seres humanos, en general llegar a esa precisión lleva muchos años y una comunidad muy grande de desarrolladores, explican los científicos.
“No podemos hacer una crítica puntual con la información disponible, pero en principio lo que parece estar detectando el sistema es si la persona tiene tos, porque claramente uno tose distinto si tiene tos que si la simula, pero eso sería una trivialidad”, observa Luciana Ferrer, también del Laboratorio de Inteligencia Artificial Aplicada de la UBA y una de las máximas especialistas locales en procesamiento del habla. Las citas incluidas son pruebas de concepto o sistemas de reconocimiento de tos/no tos.
“Esta tarea (registrar una tos y que un sistema automático te diga si sos sospechoso de Covid o no) es posible hacerla y bien –explica Agustin Gravano, investigador del Laboratorio de Inteligencia Artificial de la Universidad Di Tella–. El planteo es factible, se hace en otros dominios. Incluso hay intentos de saber si la persona está mintiendo o no (que funcionan bastante mal…). Con buena metodología debería ser posible realizarlo. Pero no parecen haber tenido cuidado con la selección de datos. Deberían tener pacientes de todas las edades, de distintos géneros, sanos y enfermos, sanos que creen que están enfermos, y enfermos que creen que están sanos, con Covid y con otra dolencia…. Necesitás todas las combinaciones posibles, porque si solamente tenés una parte, ¿para qué te sirve el sistema? Solamente para ese conjunto de personas, no para la población general. Eso es una cantidad de datos enorme y deben estar muy bien balanceada”.
Revisión por pares
Para Gravano, esta premisa no se estaría cumpliendo. Pero aún si la metodología hubiese sido la correcta, “la forma de sacarse la duda –subraya– es que publiquen un paper. Que sometan su trabajo a una revisión por pares, anónima, en un journal internacional. Dejar disponible el trabajo en un repositorio no es publicar. Esto es un Estado diciendo ‘Nuestros desarrolladores la tienen clarísima y no hace falta que otros expertos los validen’. Y eso no está bien. Si lo hacen Google, Amazon o Apple, también los criticamos. Ese es el punto en el que falla todo esto. Si quieren hacer ciencia, tienen que someterse a los sistemas que funcionan. Y no lo hicieron. Tienen que publicar la metodología y someterla a un referato internacional anónimo donde, si la evalúa un profesor de Wisconsin o de Moscú, no puede haber sospecha de intenciones políticas”.
Por su parte, el gobierno de la ciudad puntualizó que el desarrollo se realizó con la aprobación del protocolo por el comité de ética del Hospital Elizalde y que depositaron el informe técnico en el sitio de preprints mencionado más arriba. En la página web de la Ciudad de Buenos Aires, hay un explicativo en español (https://www.buenosaires.gob.ar/sites/gcaba/files/casoiatos_completo-2021_1.pdf) y también se publicaron los datos de 5000 audios. En breve, se anticipó, se publicará el dataset final con los 140.000 audios, para que sea accesible a toda la comunidad de investigadores (https://www.buenosaires.gob.ar/jefaturadegabinete/innovacion/plan-de-inteligencia-artificial/iatos y https://data.buenosaires.gob.ar/dataset/tos-covid-19).
Para los expertos, en el GitHub de la Ciudad de Buenos Aires, está publicado el backend de IATos: la red neuronal, el código que funciona detrás de Boti, etcétera. (https://github.com/gcba/IATos)
Como el resultado del software es “orientativo” y no “diagnóstico”, la tecnología tampoco se sometió a la auditoría de la Anmat.
“No basta con que el programa sea correcto y los resultados, más o menos razonables –concluye Fernández Slezak–. Eso no lo habilita para aplicarlo a nivel poblacional si no se cumple con las regulaciones y la validación. Como proyecto de investigación, es un buen comienzo. Recolectaron 140.000 mil datos, pero no pueden indicar testeo o no al público general cuando el desarrollo ni siquiera está publicado”.