Dataton es organizada por la USM y busca motivar a estudiantes de pregrado y postgrado de todo el país para identificar este grave problema. La inscripción finaliza el 11 de septiembre y hay premios en efectivo.
Hate Speech (Detección de Lenguaje de Odio) en redes sociales es el tema del primer desafío virtual de ciencia de datos organizado por el Departamento de Informática de la Universidad Técnica Federico Santa María. El concurso considera a equipos de hasta 3 personas, estudiantes de pregrado y postgrado de todo Chile, y tendrán el desafío de desarrollar un modelo/algoritmo que permita determinar automáticamente la probabilidad de que un tweet haya sido marcado como caso de Hate Speech por anotadores humanos.
Los equipos interesados se podrán inscribir hasta las 23:59 horas del 11 de septiembre, teniendo acceso inmediato a los datos para comenzar a subir los resultados de sus modelos hasta el las 23:59 horas del 02 de octubre. Accede a más información y al link de inscripción aquí.
El desafío se refiere o no a una de cuatro comunidades que suelen ser objetivo de ataques en redes sociales: mujeres, comunidad LGBTQ+, comunidades migrantes y pueblos originarios.
“Nuestra preocupación por el aumento de expresiones que incitan a la violencia y la discriminación. Organizaciones como la ONU y la Unión Europea tienen campañas activas para monitorear, mitigar y prevenir este fenómeno. Muchos científicos alrededor del mundo están también uniendo esfuerzos para identificar focos de Hate Speech en redes sociales. Pensamos que con este desafío ayudamos a despertar el interés por la ciencia de datos en general, pero también a tomar conciencia sobre este problema”, comenta Ricardo Ñanculef, profesor del Departamento de Informática USM y líder del equipo que organiza esta Dataton.
Competencia
El análisis de los datos de este desafío se dispondrá de un conjunto de ejemplos (tweets) etiquetados por humanos (3 anotaciones por tweet) además del “contexto” del mensaje original, es decir, un conjunto de tweets que forman parte de la conversación en que el tweet etiquetado se encontraba. En total, se debe predecir la presencia de 5 etiquetas que pueden co-existir, siendo un problema de clasificación multi-label.
Para determinar a los ganadores existirá un tablero preliminar de resultados visible durante toda la duración de la competencia, que será revisado por un jurado de expertos de la academia y la industria para dirimir en base a criterios cualitativos y cuantitativos. Los premios son en dinero, de $1.000.000 para el primer lugar, $700.000 para el segundo lugar y $300.000 para el tercer lugar.
La iniciativa surge de un grupo de estudiantes y profesores de Ingeniería Civil Informática de la USM en el marco de una alianza para la Transformación Digital con Scotibank.