Una herramienta deduce el sexo y rango de edad de los comentaristas de las redes sociales

Análisis computacional de textos
Paolo Rosso (izquierda) y Francisco Rangel. Fuente: UPV.

Un equipo de investigadores del Centro de Investigación Pattern Recognition and Human Language Technology de la Universitat Politècnica de València (PRHLT-UPV), ha desarrollado, junto a la empresa Autoritas Consulting, una nueva herramienta que permite deducir el sexo y rango de edad de los autores de comentarios en las redes sociales. El objetivo principal es combatir la pederastia.

El trabajo es de gran utilidad en operaciones de seguridad o detección de posibles casos de pederastia y, a su vez, constituye una herramienta muy valiosa para las empresas de cara al enfoque de sus acciones de marketing a partir del conocimiento de la segmentación del mercado, explica la UPV en un comunicado.

Paolo Rosso, investigador del PRHLT-UPV, explica que “la información sobre el sexo y la edad de los usuarios de las redes sociales no siempre es accesible ni está explícita, y cuando lo está, puede ser falsa. La herramienta que hemos desarrollado permite descifrar esta información, aplicando para ello técnicas de análisis lingüístico computacional”.

Así, para inferir la información deseada, la herramienta estudia el lenguaje utilizado por los usuarios de las redes, aplicando para ello la teoría de grafos. Ésta analiza los tiempos verbales empleados, las categorías gramaticales más repetidas, la estructura del discurso, la tipología de expresiones utilizadas y el peso de las emociones. A partir de estos datos, es posible saber si detrás de un texto anónimo se encuentra un hombre o una mujer, y su rango de edad.

Francisco Rangel, director tecnológico de Autoritas Consulting, detalla el proceso: “Partimos de un texto, del que extraemos las categorías gramaticales para construir un grafo. Éste se enriquece con las emociones expresadas, la polaridad de las palabras, los tipos de verbo y de sustantivo, etc. Después, se aplica la teoría de grafos para calcular la importancia de cada elemento en la estructura del discurso. Ante cada caso nuevo, utilizando un algoritmo de aprendizaje, se extrae el grafo y se obtiene una predicción”.

La herramienta ya ha sido utilizada en casos de investigación policial de amenazas de bomba. “En estos casos, interesa hacer un seguimiento de esas cuentas. No sólo para ver de qué hablan, sino también ver qué perfil tienen sus autores. El sistema, además, ayuda también a captar perfiles falsos”, concluyen los autores del trabajo.