R2-D2 es indonesio, C3-PO catalán y Han Solo noruego, según un análisis informático

Mañana se estrena en España Star Wars: El despertar de la fuerza, episodio VII de la famosa saga concebida por George Lucas. Gracias a un estudio informático, realizado mediante procesamiento del lenguaje natural, se han identificado los lenguajes de los que proceden los nombres de sus personajes. Por ejemplo, el nombre del androide C3-PO es catalán, el de su compañero R2-D2 indonesio, y el de Han Solo noruego. El nombre de Jabba el Hutt y el de Chewbacca son escoceses, y Darth Vader es alemán.

Científicos de The Data Lab (Reino Unido) han analizado los nombres de más de 500 personajes de Star Wars y han determinado a qué lenguaje (de este planeta, la Tierra) es más probable que pertenezcan.

Para alcanzar esta conclusión, los investigadores tomaron cada uno de los nombres de una lista de la Wikipedia; y les aplicaron un modelo de n-gramas de inteligencia artificial.

El modelo de n-gramas, en el campo del procesamiento del lenguaje natural, primero divide el nombre en una secuencia de cadenas de caracteres individuales, dobles, y triples. Por ejemplo, el nombre de “Luke” se descompone en las cadenas “l”, “u”, “k”, “e”, “lu”, “uk”, “ke”, “luk”, y “uke”.

A continuación, usando un software llamado textcat -abreviatura de “categorización de texto”- la frecuencia de las cadenas resultantes fue comparada con las de decenas de corpus lingüísticos. A partir de ello, el software dedujo a qué lenguaje era más probable que pertenecieran los nombres.

En realidad, reconocen los autores, el ejercicio es un juego, porque esta técnica sólo es realmente aplicable a textos más grandes y se suele utilizar para categorizar obras escritas por, por ejemplo, similitud, autor o tema. Pero como informa Dail Software, y se hace eco Tendencias 21, la investigación produjo algunas conclusiones interesantes.

Los nombres abarcan un gran número de idiomas diferentes, de los más familiares a los más extraños. El frisio medio (Luke Skywalker y Jar Jar Binks), por ejemplo, se hablaba en los Países Bajos, Alemania y el sur de Dinamarca en los siglos XVII y XVIII, mientras que el tagalo (Anakin Skywalker y su mujer, Padmé Amidala) es un lenguaje actual de las Filipinas.