Incertitude
Projet en cours! Cette section sera complétée au fur et à mesure de l’avancement du projet.
PORTIC repose sur des données historiques sur la navigation et le commerce qui ont alimenté deux bases de données. Le passage des sources manuscrites à de bases de données formalisées a impliqué une série d’opérations et l’ajout d’un nombre certain de champs.
Ces données et métadonnées présentent des caractéristiques qui les rendent « imparfaites » aux yeux des informaticiens. Cette « imperfection » vient de leur caractère d’incertitude, de leurs lacunes, de leur imprécision. Il convient de souligner que les historiens ont l’habitude de travailler avec cette incertitude, inhérente aux traces du passé. Elle peut par ailleurs être signifiante, et inviter l’historien à chercher d’autres traces témoignant des pratiques de l’époque. Ainsi, on pourra s’interroger sur les tonnages changeants de ceux qui sont de toute évidence les mêmes navires : les tonnages semblent systématiquement surestimés dans certains ports et sous-estimés dans d’autres.
Reste que le traitement informatique des données impose la nécessité de formaliser ces incertitudes, lacunes et imprécisions d’une manière cohérente et explicite, afin que les bases informatiques d’abord, les visualisations ensuite, puissent les prendre en compte. Dans certains cas, l’incertitude a été tranchée par l’équipe, mais une sémiologie spécifique permet alors de déceler nos interventions sur les données et, le cas échéant, de corriger les erreurs de compréhension ou d’interprétation.
Une partie considérable du programme PORTIC est consacrée à la visualisation de l’incertitude des données, qui a souvent tendance à « disparaître » lors des visualisations. PORTIC ambitionne rendre compte visuellement des lacunes et des incertitudes qui entourent les données collectées, et de ne pas « gommer » leur caractère imprécis.
Cette section détaille les divers types d’incertitudes que nous avons identifiés et la manière de procéder qui a été la nôtre.
L’incertitude propre aux sources
Les sources mobilisées pour Navigocorpus sont incomplètes, dans la mesure où un certain nombre de registres des congés ne sont plus conservés. La complétude elle-même est par ailleurs incertaine, dans la mesure où pour un certain nombre de lieux nous ne savons pas si les registres ont existé.
Des questions de complétude et d’incertitude se posent également à l’intérieur de chaque registre. Les greffiers ne notaient pas toujours les mêmes informations, en oubliaient certaines parfois, ou se trompaient parfois.
Aussi, ils sont détenteurs de pratiques administratives qu’ils n’ont pas nécessairement pris le temps de consigner à l’écrit, et qu’il faut donc interpréter pour bien pouvoir mobiliser la source, avec le risque de se tromper à notre tour.
A ce stade, nous avons encore bien de questions ouvertes. Ce document permet de prendre la mesure des défis qui nous attendent….
Sources incomplètes ou redondantes
- Nous connaissons un certain nombre de registres de congés manquants: les comptes-rendus nous permettent de chiffrer le nombre de congés délivrés, à défaut d’en connaître les détails. Nous nous efforceront d’intégrer la présence de ces ports dans les visualisations pour montrer les lacunes du corpus.
- Nous savons que certains ports existaient mais nous n’avons ni les registres, ni les comptes-rendus. C’est le cas, entre autres, pour la plupart des colonies, mais aussi pour Libourne et d’autres ports d’une certaine envergure, à recenser dans la mesure du possible à partir de l’enquête de Chardon dans les années 1780. Mais pour de ports mineurs, nous ne savons pas si les congés étaient pris dans le port à côté.
- Dans le cas de Marseille, alors que l’historiographie considère que les doublons entre les registres de petit cabotage et les déclarations à l’arrivée sont minimes, il reste à ce jour à préciser l’ampleur du phénomène, à le comprendre, et à voir comment traiter l’information lors de l’interrogation de la base.
Incomplétude et imprécisions dans les entrées du registre
Certaines informations sont systématiquement présentes dans certains ports (ex.: le port d’attache) et systématiquement absentes d’autres. Le greffier peut occasionnellement oublié le nom du navire, du capitaine, ou le tonnage, voire la destination. Dans une des visualisations que nous proposons, il sera possible de voir la part des informations connues sur le total.
Aussi, nous avons constaté un certain nombre d’imprécisions dans les sources. Certaines sont dues au fait que les greffiers notent de toute évidence ce qu’ils entendent oralement, sans avoir toujours un document écrit sous les yeux. Leurs transcriptions des noms de lieux et des noms de personnes sont d’autant plus aléatoires que le terme sonne étrange à leurs oreilles (noms bretons ou étrangers ; localités étrangères peu fréquentées). Aux Sables-d’Olonne, Aber-Ildut s’appelle « La Berlduque ». Dans certains ports le nom du navire étranger est systématiquement traduit en français, avec des possibles erreurs. Mais c’est surtout la variation des tonnages qui nous intrigue, et qui mérite des fouilles de données spécifiques.
L’incertitude ontologique : le futur du passé
Par définition, le futur est incertain. Ainsi toute déclaration de destination future renvoie au statut incertain de l’information. Le navire peut avoir fait naufrage, avoir été capturé, avoir essuyé du mauvais temps qui l’oblige à changer de plan.
Nous avons donc indiqué dans un champ dédié (Pointcall_statuts) de Navigocorpus, le statut de l’information relatif à chaque localité fréquentée par le navire par un marqueur (« P » pour le passé, « F » pour le futur ; sur la capture d’écran qui suit, le statut se trouve dans la dernière case à droite du nom du port). Ce statut est relatif au point où le voyage a été observé.
La « certitude » indiquée par la deuxième lettre « C » est donc relative à l’entrée documentaire (l’indication fournie par une sourcé donnée pour un navire donné à une date donnée), et ne doit pas être entendue en sens absolu. Ainsi, si le capitaine déclare aller à Nantes en sortant de Bordeaux, Nantes sera associé à un statut « FC » (« futur certain » : certain donc pour le capitaine à la date de la déclaration). La question de savoir si d’autres sources confirment ou infirment cette déclaration est différente, et elle a été donc traitée séparément dans un autre champ de la base (voir infra, section : incertitude des trajets). « Certain » dans ce contexte n’est donc pas synonyme d’ « avéré », et il faudra que cela soit clair lors de l’interrogation dans les visualisations en ligne. Nous sommes toutefois aussi en mesure de confirmer ou pas que ce navire est effectivement arrivé à Nantes, car nous avons les congés de Nantes. Il y a donc aussi la possibilité de mesurer le degré de réalisation des intentions futures, du moins pour les destinations françaises des ports dont les registres sont conservés.
Quand l’information de la destination intentionnelle se trouve contredite par la même source qui la déclare (dans le cas, par ex., d’une prise en mer), la deuxième lettre « U » indique l’intention non remplie. Ainsi, le vaisseau La Ville d’Yverdun parti de Marseille le 28 décembre 1787 pour se rendre à Smyrne, rentre à Marseille quatre jours plus tard, après avoir essuyé des dommages aux îles du Frioul. La destination Smyrne est donc associée au statut qui indique une intention passée non avérée, « PU »:
La certitude du voyage avéré se répercute sur l’ensemble des données associées. Ainsi, dans le cas précédent, si la sortie d’un tonnage depuis Bordeaux est certaine car attestée par la source, l’arrivée de ce tonnage (ou de ce capitaine, ou de tel produit chargé à Bordeaux, etc…) est incertaine. Une valeur d’incertitude est donc attribuée à chaque variable pour leur visualisation, pour permettre à l’utilisateur de prendre la mesure de la qualité certaine ou pas de l’information.
Les limites inhérentes à la nature des sources
Les sources a législation en vigueur obligeait les capitaines et patrons de barque à prendre un congé. Il y avait, toutefois, des exceptions et des typologies de congés qui compliquent notre travail de reconstitution de la navigation:
- pour un aller-retour au sein de la même amirauté, un seul congé à l’aller suffit. C’est donc l’existence d’un congé suivant pour le même navire et capitaine qui atteste d’un voyage de retour, inexistant dans la base de données Navigocorpus en tant que tel. Si l’existence du voyage peut être ainsi indirectement attestée, ni sa date, ni la cargaison ne sont connues. Il y a donc une sous-estimation systématique des flux de marchandises et de navires, qui peut en partie être signalée.
- dans certaines amirautés, il existe de congés d’une durée déterminée. C’est le cas, entre autres, en Bretagne et Normandie, pour des navigations au sein de la province. Les congés de pêche au poisson frais sont en général d’une durée annuelle. Comme les sources ne le précisent pas toujours, nous nous efforcerons de signaler ce type de congés à chaque fois que cela est possible, et de prendre en compte la sous-évaluation qu’ils entrainent dans les mouvements du port.
L'incertitude liée aux identifiants
Comme dans toute base de données, nous avons distingué le niveau de la saisie des données, qui respecte au maximum la source et sa graphie, et celui de l’attribution d’identifiants dans des champs dédiés, qui vise à normaliser les informations. Cette section explique les choix qui ont été faits, le degré d’incertitude qui en découle, et la manière que nous avons choisie pour la traiter ou la représenter.
L’identification des navires
La densité de l’information présente dans la base permet d’envisager de retracer l’itinéraire d’un navire dans le temps, à travers plusieurs sources. Rien, toutefois, dans la source, permet d’attester qu’il s’agit d’un seul et même navire. L’attribution d’un identifinat (ship_id) a été faite manuellement, en prenant en compte la proximité du nom, la similarité du tonnage, la similarité du nom du capitaine, la proximité du port d’attache et toute autre information contextuelle.
Cette identification est, stricto sensu, systématiquement incertaine, et des erreurs d’identification existent, surtout pour les noms très fréquents. Nous allons continuer à les corriger tout au long du programme et un algorithme a été par ailleurs développé par l’équipe (2021) pour permettre de « prédire » la possible que deux ou plusieurs entrées documentaires se réfèrent à un seul et même navire.
L’attribution du pavillon [ship_flag]
Le pavillon est rarement indiqué par les sources utilisées.
La plupart des fois, nous avons attribué un pavillon possible (indiqué dans la base entre crochets) à partir d’autres variables renseignés, comme le port d’attache du navire ou, à défaut, les indications d’appartenance du capitaine (les navires d’un capitaine de Saint-Tropez ou d’un capitaine ‘catalan’ se voient ainsi attribuer respectivement le pavillon [French] et [Spanish].
Pour les navires qui ont reçu un congé (série G5), une information supplémentaire vient de la nature de celui-ci (congé français, congé étranger), en sachant toutefois que dans certains ports français, les navires espagnols bénéficient d’un traitement de faveur et prennent donc des congés français. L’indication d’un congé français a donné lieu à l’indication de pavillon [French] même en l’absence de tout autre champ pouvant donner des indices quant au pavillon du navire.
L’attribution d’un pavillon indéterminé mais pas français [NonFrench] caractérise tous les navires qui ont reçu en France un congé étrangers et pour lesquels aucun autre élément dans l’unité documentaire ou dans les unités documentaires du même navire (=même ship_id) ne permet de supposer la nationalité.
L’information entre crochets est qualifiée d’incertaine dans les visualisations [niveau -2].
L’identification des capitaines
Navigocorpus attribue un identifiant de capitaine (captain_id) pour permettre d’en retracer sa navigation dans le temps. L’identification est, stricto sensu, systématiquement incertaine, et des erreurs d’identification existent, surtout pour les noms très fréquents. Nous allons continuer à les corriger tout au long du programme.
Pour l’attribution du captain_id, qui a été faite manuellement, nous avons pris en compte la proximité du nom, la fidélité au même navire, la similarité du tonnage de navires et des aires de navigation lorsqu’une même personne semble changer de navire, la proximité du port d’attache et toute autre information contextuelle.
Les cas les plus épineux sont ceux où le capitaine a plusieurs prénoms. Jean Dupont et Pierre Dupont ont deux identifiants différents, même s’ils servent sur le même navire, mais lorsque nous trouvons également un Jean Pierre Dupont sur le même navire, on a penché plutôt pour l’attribution d’un seul et même identifiant aux trois toponymes. Reste que l’utilisateur doit être averti que la transcription des noms propres et l’identification des capitaines est en soit sujette à caution.
L’identification des produits
texte en cours de rédaction.
L'identification des lieux
texte en cours de rédaction.
La qualification de l'incertitude
Nous avons attribué à toute information contenue dans les sources et aux identifiants que nous avons ajoutés une valeur qui qualifie le degré d’incertitude de l’information en question. Ces valeurs sont:
– -4 : information manquante
– -3 : faux, car démenti par autre document ou par une analyse historique
– -2 : le contenu du champ est incertain car dérivé/déduit d’une autre source ou d’une information contextuelle
– -1 : non confirmé (statut de l’information relative à un événement futur non confirmé – pointcall_status = FC)
– 0 : Observé comme du présent ou du passé par la source (pointcall_status = PC)
Un exemple de niveau -3: Un congé est délivré le 1er janvier 1787 dans le port de Bordeaux à un navire appelé la Belle Poule capitaine Jean Durand pour aller à Saint-Domingue. Un autre congé est délivré dans le port de La Rochelle le 21 janvier 1787 à un navire appelé la Belle Poule capitaine Jean Durand pour aller au Cap-Français. Les deux navires ont le même port d’attache et un tonnage très proche. Nous pensons qu’il s’agit du même navire et nous lui attribuons donc le même identifiant de navire (ship_id). En reconstruisant les itinéraires, nous « éliminons » le trajet Bordeaux-> Saint-Domingue pour reconstruire ce que nous pensons être le « vrai » trajet: Bordeaux -> La Rochelle -> Cap-Français. Nous avons une certitude (valeur incertitude = 0) pour la sortie de Bordeaux et la sortie de LaRochelle. Nous qualifions la destination Saint-Domingue depuis Bordeaux de -3 (faux, car démenti par autre document ou par une analyse historique); et nous qualifions de -1 l’arrivée à Cap-Français.
Un exemple de niveau -2: nous attribuons à un navire ayant Le Havre comme port d’attache et prenant un congé français, le pavillon = French. Cette information ne se trouve pas dans la source. Elle est donc -2 car incertain/déduit d’une information contextuelle. Autre exemple: une entrée documentaire indique que La Belle Poule a comme port d’attache Le Havre. Nous attribuons Le Havre comme port d’attache à tous les navires auxquels nous avons attribué le même identifiant de navire (ship_id). Le port d’attache de ces entrées documentaires est qualifié -2: incertain car dérivé d’une autre source.