Un sustantivo: dos personas
El proyecto de XML-TEI Bible sigue adelante. Hace poco, codificando algunos capítulos de Lucas, me encontré este versículo (2:41):
Como se observa, el evangelista referencia en un único sustantivo (padres) tanto a María (#per11) como José (#per12). Aunque ya había encontrado referencias similares, este caso me hizo recapacitar que estas dos personas con una relación tan clara y estrecha coaparecen referenciadas en un mismo sustantivo. Las Humanidades Digitales suelen crear grafos de personajes literarios utilizando la coaparición en algún tipo de unidad textual: escena, capítulo, párrafo… De hecho XML-TEI Bible ha estado investigando la coaparición de personas en el mismo versículo. Pero aquí nos vamos a una unidad mucho menor: las dos personas coaparecen en una única palabra: un sustantivo.
Esta idea me llevó a crear varias hipótesis sobre cómo explotar esta codificación e intentar extraer relaciones claras entre entidades bíblicas. Así que estas Navidades me he puesto con la programación para extraer y visualizar la información como grafos. He de decir que por ahora solo dispongo de la mitad de la Biblia codificada. Para más información sobre los detalles de qué libros y cómo se ha codificado, se puede acceder a la documentación del proyecto, en GitHub.
Resultados generales
Por ahora he encontrado un total de 520 relaciones de este tipo entre 340 nodos, lo que representa solo el 15% del total de entidades hasta ahora identificadas. El resultado en general es que, efectivamente, entidades con una estrechísima relación aparecen relacionadas entre sí. Por ejemplo, aparecen efectivamente José y María relacionados:
De hecho aparecen muchos componentes pequeños (de 2 a 4 entidades) e inconexos entre ellos. Aparecen estas parejas que si fuesen personas y vieses a uno de ellos solo, lo primero que le preguntarías es: «¿dónde te has dejado a tu colega?» José y María, Marta y María (no la misma María, claro), Sodoma y Gomorra, Saúl y Jonatán, Copero y panadero del faraón, los dos ladrones crucificados con Jesús, las siete iglesias del apocalipsis, las tribus de Israel… Echemos un ojo más general al grafo:
El color de los nodos representa el tipo de entidad que es: persona, grupo, lugar o momento en el tiempo. Se observa que en general los nodos tienden a estar conectados con nodos del mismo tipo. Cuando no ocurre así es una relación entre persona y grupo al que pertenece (Pablo >apóstoles; Andrés > discípulos; Goliat > gigantes; Mefi-boset > familia de Saúl) y en un par de casos grupo y lugar donde vive (hebreos > Jerusalén). Aunque no siempre es así: por ejemplo los profetas y Herodes aparecen relacionados entre sí (?).
En comparación con los grafos tradicionales basados en la coaparición de entidades en el mismo versículo (grafos que han sido comentados aquí), este contiene muchísimos menos nodos y aristas, está repartido entre muchos pequeños componentes de pocos nodos y las aristas están o pueden estar muy claras. En caso de duda, uno siempre puede buscar los dos identificadores de las entidades juntos en un mismo atributo en el código XML-TEI y comprobar quién y cómo ha relacionado ambas entidades.
Componentes del Antiguo y Nuevo Testamento
Hay algunos componentes interesantes y muy claros. Por ejemplo, en la siguiente imagen aparecen dos componentes con entidades del Antiguo Testamento:
En la anterior imagen vemos un componente arriba a la izquierda con Jacob en el centro, sus ancestros hacia arriba, sus mujeres hacia un lado y su hermano al otro lado. ¿Qué más pedir de un grafo? En esa misma imagen aparece a la derecha un componente con Daniel, Noé y Job unidos entre ellos. Estas personas aparecen por su cuenta relacionadas con personas que no nos sorprenden: responsables políticos (Daniel era uno), la familia de Noé y los colegas de Job. Pero ¿por qué aparecen estos tres personajes unidos entre sí? Si no vivieron épocas similares, ni protagonizan ningún libro, ni siquiera participan de un mismo género textual (profético, histórico y filosófico). ¿Qué les une? Buscamos sus identificadores y encontramos:
He ahí la razón: en el libro de Ezequiel, Dios referencia a los tres hombres de manera conjunta (tres hombres) señalando además la característica que los une: «solo ellos, por su justicia, librarían sus propias vidas». En general los libros proféticos consiguen agrupar de maneras muy interesantes entidades que en principio nada tienen que ver. Veremos otros ejemplos.
En cuanto al Nuevo Testamento, también aparecen varios componentes interesantes:
Como se observa, Pedro es el centro de un grupo de discípulos que convivieron con Jesús, mientras que Pablo es el centro de los apóstoles del libro de Hechos. Todo bastante natural de aceptar. Llama la atención el hecho de que Pedro esté directamente relacionado con el diablo. Venga, va, esta no es tan difícil: ¿qué versículo explica esta relación?:
En Mateo 16:23 Jesús habla a Pedro pero referencia a Satanás. En la codificación se ha mantenido esta ambigüedad (o llámalo x) utilizando los dos identificadores tanto como receptores de la comunicación (/q/@corresp) como referentes del sustantivo Satanás.
Componente más grande
Pero hasta ahora no hemos visto el componente más grande o gigante (giant component). Vamos a ello:
Este componente tiene dos claras partes:
- la inferior derecha, con todas las tribus y sus patriarcas;
- la superior izquierda, con diferentes lugares, grupos y personas
En primer lugar es útil aclarar que el nodo de hebreos se ha utilizado para referenciar al conjunto de personas designadas como hebreos (por ejemplo antes de que se dividan en tribus) o al conjunto del pueblo de Israel y de Judá. El conjunto de diferentes tribus (por ejemplo en el Apocalipsis) tiene su propio nodo y cada una de las tribus también tiene su propio nodo. Es discutible que se haya decidido hacer esto, pero creo que cualquier solución sería discutible. Es curioso ver por un lado que no todos los patriarcas están unidos a su tribu; por otro lado, el hecho de que algunas tribus (Gad-Aser, Dan-Neftalí, Jośe-Benjamín y el resto) estén unidas más estrechamente entre sí. Pero la verdadera pregunta es: ¿qué hace Adán entre las tribus de Manasés, Efraín y Judá? Aquí la respuesta la vuelve a tener un profeta:
En este caso es en libro de Oseas en el que Dios compara varias tribus con Adán.
Este componente tiene una parte aún más interesante que la de las tribus. Israel-hebreos aparece conectados con varios nodos de otros grupos diferentes, todas relaciones bastante lógicas: samaritanos; tribu de Israel; no creyentes; creyentes; familia de los reyes de Israel; hombres de David (muy referenciados en el libro de Samuel) y Jerusalén.
La rama de Jerusalén continúa con una relación menos lógica: Samaria. Además de que son lugares, ¿qué tienen que ver Samaria y Jerusalén? Cuando además la gradación continua hacia peor: Sodoma y Gomorra. ¿Qué pasa con Samaria que es el puente entre la ciudad santa de Jerusalén a las ciudades condenadas? Ya adivinamos que son los profetas quienes tienen la respuesta de esta relación:
Otra de las ramas resulta más que interesante: la que sigue con los creyentes. Este grupo aparece conectado con Jesús, persona que aparece en el centro de un lazo: por un lado conectado con Dios y el Espíritu Santo; por otro lado con Elías y Juan el bautista:
Honestamente, me ha sorprendido encontrar la Trinidad reflejada en el grafo. ¿Qué versículo explica esto?
El otro lado del lazo, la relación con Elías y Juan el bautista se explica mediante varios versículos en los que se expresa que algunos identificaban a Jesús con esas otras dos personas:
Honestamente, parece que hayamos hecho aposta que Jesús esté en el centro de un lazo que contiene a Elías, Juan el bautista, Dios y el Espíritu Santo.
Conclusiones y pasos futuros
He estado probando diferentes redes sociales basadas en diferentes definiciones de aristas y creo que esta es una de las más interesantes que hasta ahora he visto con textos bíblicos. Al contrario de las redes sociales basadas en coaparición en versículos, todas las relaciones de este grafo tienen una buena razón. A veces esa razón no parece obvia, pero mirando el texto se descubre una buena razón para ello.
¿Cuál es la diferencia de esta arista con otras posibles definiciones? Por un lado es una unidad mucho menor que cualquier otra que haya probado hasta ahora. De hecho creo que es la menor posible. Pero, al contrario, que otras posibles soluciones pequeñas como bigramas o coaparición coplana, la unidad elegida (sustantivo) tiene un significado semántico y una motivación sintáctica. Hay que tener en cuenta que la codificación es manual y cuidada: cada capítulo ha sido leído dos veces y validado mediante diferentes estrategias al finalizar cada libro.
Todas las que están son, pero no todas las que son están. En otras palabras: diría que la precisión es altísima, pero el recall es relativamente bajo. El filtrado de información es tan fuerte que también han desaparecido algunas relaciones obvias. Por ejemplo, el país de Israel (lugar) y el pueblo de Israel (grupo) no están unidos entre sí. José y María están unidos, pero están desligados de la razón que los une: su hijo Jesús. Algunos discípulos aparecen conectados entre sí, pero otros no… Por un lado según vaya codificando más libros de la Biblia, más relaciones se irán creando. Aún así, creo que la unidad elegida es demasiado pequeña. Lo ideal sería poder expandirla manteniendo la característica de que la unidad mantenga características sintácticas y semánticas. Alguna idea tengo.
Aún así, este tipo de aristas podrían ser utilizadas para evaluar otros métodos cuyo resultado sea más difícil predecir. El objetivo en ese caso sería observar si otros tipos de aristas identifican también las relaciones obtenidas mediante la coaparición en sustantivos. Otras relaciones identificadas podrían ser también correctas, aunque eso fuese un salto de confianza.
Por último, las palabras pueden unificar entidades de otra manera. El hecho de que dos personas aparezcan referenciadas mediante, por ejemplo, la palabra rey de manera independiente quiere decir que ambas personas tienen en común algo: fueron reyes. De esta manera podríamos utilizar el texto referenciador para extraer características de cada entidad y posteriormente utilizarlas para agruparlos. ¿Cuál sería el resultado? ¿Y cuál sería el resultado de comparar estos tipos de grafos de manera sistemática?
Hola, escribo muy animado al ver este proyecto, hoy estuve viendo sobre teoría de grafos de manera muy general y Dios puso un impulso en mi corazón, así que busque si ya existía algo de grafos con referencia a la Biblia, para mi gran sorpresa me he topado con este proyecto que lo encuentro fascinante , no conozco sobre la programación ni como funciona pero estoy muy abierto a aprender, me gustaría saber en qué estado se encuentra el proyecto.
Hola Luis:
me alegra que me escribas. El proyecto está terminado en su primera fase. Es decir, he completado la anotación de la Biblia en cuanto a referencias a personas, grupos y lugares, y comunicación (quién se comunica con quién cómo). Tienes los archivos aquí:
https://github.com/morethanbooks/XML-TEI-Bible
El principal archivo lo tienes aquí:
https://github.com/morethanbooks/XML-TEI-Bible/blob/master/TEIBible.xml
Y la tabla de entidades las tienes aquí:
https://github.com/morethanbooks/XML-TEI-Bible/blob/master/entities.xls
En cuanto a los grafos, tienes archivos para cada uno de los libros y para la Biblia entera aquí:
https://github.com/morethanbooks/XML-TEI-Bible/tree/master/visualizations/networks
Por cada libro tienes diferentes grafos en diferentes formatos (para trabajar con ellos, para visualizarlos…). Algo importante es la diferencia cuando un archivo tiene «_rs» en su nombre o no. Si tiene _rs, el grafo se ha creado con la coaparición de entidades por versículo. Si NO tiene «_rs», se ha creado con la información de comunicación, y por lo tanto las aristas tienen dirección. Ejemplo, este es el png de 1 de corintios con SOLO la información de comunicación:
https://github.com/morethanbooks/XML-TEI-Bible/blob/master/visualizations/networks/1CO_q%40toWhom-%40type-%40who_.png
Mientras que aquí tienes la información de coaparición:
https://github.com/morethanbooks/XML-TEI-Bible/blob/master/visualizations/networks/1CO_q-rs%40key-%40toWhom-%40who_.png
Siento si no lo puedo explicar mejor ahora mismo. Espero poder documentarlo mejor en el futuro. Pero vamos, aquí tienes material para ir tirando.
Ánimo y un saludo
José
no entendí carajo de lo que dice