Bon "destinataire"
Voici un jeu Ummoristique: vous souhaiteriez être "contacté", comment vous y prendriez-vous ? Dans le cadre de l'affaire Ummo, peut-on profiler ce qui fait un bon "destinataire" de lettres ? Et quelles sont les motivations sur les échanges revendiquées par leurs auteurs ?
Plus largement, quel serait le profil d'une personne choisie pour être mise en contact avec une réalité "exotique" ?
Sommaire
Objectifs recherchés
Collecter de l’information sur les caractéristiques des destinataires des lettres (position/croyances, ancrage dans le réseau social, localisation géographique, dates de réception, éléments de décridibilisation possibles, nature de l’échange en fonction de leurs centres d’intérêts, etc). Mettre en ligne une page pour les destinataires principaux reprenant ces données, mais aussi les relations entre les destinataires eux (groupes) ou entre les destinataires et la "source".
Dans le détail:
- Informations sur les destinataires (collecte "terrain")
- Classement des destinataires par ordre d'importance (qui a reçu le plus d'informations ?). Puis, par ordre:
- Profession/Activité & centres d'intérêts personnels,
- emplacement géographique au moment de la réception de ses lettres,
- croyance vis-à-vis de l'affaire,
- position vis-à-vis du secret en général,
- état des relations avec d'autres "contactés",
- moralité ? (subjectif: voire... selon le nombre d'éléments communiqués avérés faux)
- Type d'information reçu.
- calculer la distance vis à vis des centres d'intérêts du destinataire.
- De quelles lettres ce destinataire pourrait-il être l'auteur ? (compte tenu du style ou du sujet abordé).
- Classement des destinataires par ordre d'importance (qui a reçu le plus d'informations ?). Puis, par ordre:
- Informations sur la source (via opération de datamining sur le corpus)
- Motivations de la "source" justifiant l'amorce d'envois (motivations données pour le contact et choix des contacts)
- Motivatilns de la "source" justifiant la fin d'envois (intéressant dans le cas où c'est lié au destinataire)
- Analyse par la "source" des perturbations infligées aux contacts.
- Nature du sujet en fonction de la sensibilité de l'échange (de très ouvert à confidentiel/destinataire unique).
- Le réseau de relations:
- La croissance et la formation du réseau de relations
- Extraction de la base par la recherche de co-occurences (émergence des relations par la recherche des mots deux à deux associés),
- Enrichissement par des données grises / exogènes aux lettres: quels sont les liens entre les acteurs, à quelle date, où et comment se sont-ils formés ?
- Graphe relationnel enrichi
- Enrichissement par des données grises / exogènes aux lettres: quels sont les liens entre les acteurs, à quelle date, où et comment se sont-ils formés ?
- Quels sont les relations les plus fortes, les noeuds les plus centraux?
- Positionnement géographique des lieux d'envoi et de réception.
- Détermination des groupes (clusters) de contactés et des époques
- Extraction de la base par la recherche de co-occurences (émergence des relations par la recherche des mots deux à deux associés),
- La croissance et la formation du réseau de relations
- Chronologie des envois d'information:
- Tableau croisé des pages reçues, (équivalentes à 2250 caractères traduits), par destinataire et par année
- Tableau croisé par année des signatures utilisées,
- Croiser les signatures avec les destinataires,
- Tableau croisé des signatures et des zones d'envois,
- Corrélation entre des débuts/fin d'envois et l'apparition/disparition de nouveaux acteurs.
En conclusion, il s'agira d'établir un tableau reprenant les "critères clés" du bon contact (destinataires "profilés" comme tel).
Collecte de données préliminaire
Afin de caractériser et analyser le corpus, la constitution d'une base de données des lettres est quasi-indispensable.
Nous pensons à Ummo-sciences bien sûr! Le catalogue de Darnaude est une base de départ intéressante modulo quelques corrections à apporter: certaines références sont constituées d'agrégats de lettres, ce sont des "références-conteneurs" (ou dossiers), qui n'ont pas à être placées au même niveau que les lettres elles-mêmes.
Il fallait qu'à chaque entrée de la table [Lettres] de la base de données corresponde une référence unique et de même type. Il est évident que nous ne pouvons pas affecter une date de réception unique à un agréagat/dossier constitué de plusieurs envois (ou d'autres critères comme le destinataire, le lieu de réception, le nombre de copies, etc). Il fallait donc préciser la typologie pour évacuer ces références "abstraites" et créer des entrées pour certaines lettres qui ne disposaient pas d'entête descriptif (meta-données).
Données consolidées
Les données ci-après sont mises à disposition dans un fichier excel.
(En base de données, la table des lettres n'est pas formatée tel que présenté ci-après).
Fichier excel contenant la table des lettres non normalisée, (destinataires et dates de réception associées)
=> La table principale des lettres est une synthèse des meta-données des lettres d'ummo-sciences et d'autres colonnes ajoutées qui permettent de consolider des données non alors formatées (entete, signature, nb de caractères, lieu de destination, lieu d'envoi, Destinataires et niveau associé, les références web, etc.).
=> Une autre table croise les noms de destinataires et les lettres auxquelles ils sont associés. Les noms des destinataires ont été "redressés".
Statistiques préliminaires
Sur ce corpus de données, les lettres uniques "acceptées" comme source "ummite" (cad hors H, E, NR invalidées et Darnaude non retenues) est de : 204.
Su l'ensemble des lettres pour lesquelles le nombre de pages est connu il a été possible de calculer le nombre moyen de caractères par page, soit:
- Ratio moy car / page : 2215,166084
Puis, à l'aide de ce chiffre, de calculer sur l'ensemble des lettres, (connaissant le nombre de caractères moyen), le nombre moyen de pages par lettre:
- Pages moy par lettre: 6,536945813
Ce qui permet de calculer un nombre moyen de pages originales reçues qui serait d'environ 1334. (C'est une donnée approximative bien évidemment, qui n'a de valeur que pour son aspect dimensionnant).
Le rapport entre le nombre de lettres originales et celui des copies (CC) envoyées est de : 13,55%. Ce ratio est loin du un quarantième indiqué le 12 mars 1987 dans la D2655. Et pour mémo, sur un total (prétendu) à l'époque de 4260 lettres originales, cela représente (aujourd'hui) 31,31% de ce volume.
Caractérisation du niveau de relation avec la "source"
Une étape préliminaire consiste en l'évaluation des relations en fonction des modalités de remise d'une information par les "ummites". Ainsi, entre une personne qui assiste à une présentation orale et celle qui reçoit directement des lettres, le degré de relation est différent.
Des niveaux de relation envisagés avec un destinataire, (et dans ce qui suit, par "destinataire direct", il est entendu une information qui est *spécifiquement* adressée/dédiée au destinataire), nous avons par exemple celui qui:
- reçoit directement une lettre, (destinataire désigné, adressé en direct / de niveau 1),
- reçoit une lettre via un autre personne, (destinataire designé, adressé via un intermédiaire / de niveau 2),
- reçoit une copie d'un document, (destinataire designé, de niveau 2 - "remettre une copie à"),
- reçoit un extrait de document qui le concerne expressément (destinataire designé, de niveau 2, information partielle),
- assiste à une lecture d'une lettre à laquelle il est convié, (destinataire non désigné, de niveau 2, information orale),
- etc.
Cette liste n'est pas exhausive. Les critères sont repris dans le tableau ci-après par ordre d'importance.
Notons immédiatement que d'autres critères pourraient être ajoutés (ex: contact physique, information donnée à caractère confidentiel, personne non contactée mentionnée, etc.)
Les critères retenus permettent d'exprimer un nombre binaire qui est converti en décimal. Le degré ici le plus important est 31, le plus faible 0.
Destinataires : données générales
Destinataires les plus sollicités
De façon globale, voici les 20 destinataires qui ont été les plus sollicités (selon le nombre de pages reçues - équivalentes à 2250 caractères traduits) et par ordre décroissant:
- 279p Fernando Sesma Manzano
- 213p Jorge Barrenechea Aberasturi
- 202p Enrique Villagrasa y Novoa
- 178p Dionisio Garrido Buendia
- 166p Rafael Farriols Calvo
- 108p Antonio Ribera Jordá
- 100p Juan Miguel Aguirre Ceberio
- 72p Manuel Campo
- 69p Luis Jimenez Marhuenda
- 67p ERIDANI
- 56p Joaquín Martínez Andres
- 51p Hiltrud Nordlin Franz
- 51p Alberto Borras Gabarro
- 47p Enrique Lopez Guerrero
- 45p José Luis Jordán Peña
- 44p Javier Muela Quesada
- 43p Barrenechea Aberasturi
- 40p Javier Sierra
- 40p Juan Domínguez Montes
- 34p Alicia Araujo
Pages reçues, (équivalentes à 2250 caractères traduits), par destinataire et par année
Les relations retenus dans la table ci-après ne retiennent que les relations de degré supérieur ou égal à 15. C'est à dire toutes les situations dans lesquelles le destinataire reçoit une information qui lui est spécifiquement adressée (il est nommé).
ToDo: remplacer le tableau-image par un tableau cliquable/développable
Premiers commentaires
Ce qui ressort très clairement c'est que l'affaire est quasiment au point mort depuis 1988.
Une information qui n'apparait pas sur ce graphe (et devrait dans les prochains, si j'ai le temps): les lettres récentes n'ont pas la mémoire du "réseau". Elles sont individualisées à l'inverse des lettres anciennes plus souvent conçues pour être copiées ou lues en assemblée, (ce qui créait de facto des réseaux).