La généalogie vit une révolution silencieuse. Jamais les archives n’ont été aussi accessibles, mais jamais elles n’ont semblé aussi fragiles. Entre liens brisés, sites refondus et bases éclatées, comment garantir que les documents retrouvés aujourd’hui
C’est ici qu’interviennent deux piliers essentiels : l’ARK (Archival Resource Key) et l’indexation.
Ensemble, ils conjuguent technique, pédagogie et souveraineté numérique pour assurer la transmission durable de notre mémoire commune.
1. L’ARK : un identifiant pérenne pour chaque document
Pour aller droit au but
Le système ARK est défini et maintenu à l’international par ARK Alliance.
Un passeport numérique fiable
Un ARK (Archival Resource Key) est un identifiant unique et permanent attribué à une ressource numérique : registre paroissial, fiche matricule, photographie ou acte d’état civil. Il garantit qu’un document restera accessible via un lien stable, même si le site qui l’héberge évolue.
Exemple pédagogique :
Un acte consulté sur une plateforme d’archives publiques pourra avoir un lien du type :
https://archives33.fr/ark:/12345/bt5g7hjx4
Décryptage :
- ark: → le système d’identification pérenne ;
- 12345 → le NAAN (Name Assigning Authority Number), identifiant de l’institution ;
- bt5g7hjx4 → l’identifiant interne de la ressource (le document précis).
Même si l’adresse ou l’architecture du site change, la redirection pérenne maintient le pont entre ce code ARK et la ressource réelle. Concrètement, cela permet d’éviter les fameuses erreurs “404 – page introuvable”, qui coupent l’accès à des documents pourtant toujours conservés.
Autrement dit, l’ARK agit comme un repère stable et vivant dans un web en perpétuelle évolution.
📌 Référence française utile :
Pourquoi c’est décisif pour les généalogistes ?
Citer avec l’ARK, c’est donner à sa source une adresse immuable :
- partage sans risque de liens morts ;
- traçabilité des sources dans le temps ;
- pratiques de citation normalisées.
Modèle de citation :
Archives départementales de la Gironde, 3E123/4 – Acte de baptême de Pierre Durand, 1734.
ARK : ark:/12345/bt5g7hjx4
2. L’indexation : donner du sens aux données
Indexer, c’est décrire et relier chaque document à des données structurées (noms, lieux, dates, professions, types d’actes) pour le rendre retrouvable et interopérable.
OCR et HTR : les moteurs techniques
- OCR (Optical Character Recognition) : extrait le texte des documents imprimés (journaux, livres, registres dactylographiés).
- HTR (Handwritten Text Recognition) : transcrit les manuscrits (registres paroissiaux, recensements, etc.). Projets phares : Transkribus AI et eScriptorium (École des Chartes / PSL).
Ces outils accélèrent la pré-indexation, que les archivistes et bénévoles vérifient et corrigent ensuite.

BNF DataLab
Projets de recherche
L’âme humaine de la donnée
Lecture, vérification, interprétation : la qualité provient de la relecture humaine, qui complète l’automatisation.
ARK + indexation : le duo gagnant
L’ARK identifie la ressource ; l’indexation en révèle le contenu. Des portails comme FranceArchives et Europeana s’appuient sur cette architecture pour relier des millions de notices.
📎 Ressource complémentaire : le projet collaboratif HTR-United soutenu par plusieurs institutions européennes, recense et documente les modèles HTR partagés dans le domaine du patrimoine écrit.
3. Souveraineté numérique : garder la maîtrise de la mémoire
Le sens de l’effort européen
En France et en Europe, on privilégie des standards ouverts (dont ARK) pour éviter la dépendance aux plateformes privées et garantir la durabilité des liens.
« La souveraineté numérique des archives, c’est la liberté de transmettre sans intermédiaire. »
Cas d’usage : la BnF et FranceArchives publient des identifiants pérennes assurant l’interopérabilité et la continuité d’accès, même en cas de refonte technique.
Pourquoi c’est stratégique ?
Si une base privée ferme ou modifie ses accès, les liens ordinaires deviennent caducs. Un ARK, lui, reste résolu vers la ressource authentique gérée par l’institution publique.
4. Comparatif international (repères utiles)
| Zone | Standard / PID courant | Exemples d’usage | Pérennité / Accès |
| France | ARK | BnF, FranceArchives | Lien pérenne ; accès public |
| Europe | ARK / URI | Europeana, Archives Portal Europe | Interopérabilité entre pays |
| États Unis | ARK / Handle / DOI | California Digital Library, bibliothèques universitaires | PIDs massivement utilisés |
| Royaume Uni | PIDs (ARK/DOI/URI) | The National Archives, universités | Pérennité via régies PID |
4 bis. ARK et DOI : deux identifiants, deux univers
Le DOI (Digital Object Identifier)
L’ARK (Archival Resource Key)
Pensé pour le patrimoine culturel (archives, bibliothèques, musées). Gestion ouverte et publique par les institutions. Outil de souveraineté et de traçabilité.
En un coup d’œil
| Caractéristique | ARK | DOI |
| Domaine | Archives / patrimoine | Recherche / édition |
| Gestion | Décentralisée, publique | Centralisée, registres (payant) |
| Finalité | Accès pérenne aux ressources patrimoniales | Accès pérenne aux publications scientifiques |
5. Vers une indexation augmentée (IA)
L’IA ne remplace pas les généalogistes : elle les assiste pour traiter des volumes massifs et détecter des motifs (variantes orthographiques, lieux, métiers, réseaux familiaux).
Exemples de gains concrets :
- repérage de patronymes avec variantes ;
- reconnaissance d’entités (lieux, paroisses) et appariement cartographique ;
- détection de métiers / fonctions récurrents ;
- rapprochement d’individus entre actes (naissance ↔ mariage ↔ décès).
6. Fiche pratique – Citer un document avec ARK
Éléments indispensables : Institution ; Cote ; Titre/Nature de l’acte ; Date ; Identifiant ARK ; Date de consultation.
Modèles prêts à l’emploi :
- Texte : « Archives départementales de la Gironde, cote 3E456/12, acte de mariage Dupont / Martin (12/07/1824) — ARK : ark:/12345/bt5g7hjx4 (consulté le 05/10/2025) ».
- Note : « Archives départementales de la Gironde — 3E456/12 — Acte de mariage Dupont / Martin (12 juillet 1824) — ARK : ark:/12345/bt5g7hjx4 — consulté le 5 octobre 2025 ».
Conclusion : un futur ancré dans la mémoire
L’ARK et l’indexation constituent le socle d’une mémoire numérique pérenne. En donnant à chaque document une identité stable et à chaque donnée un sens, ils assurent la transmission des savoirs à long terme.
L’avenir de la généalogie repose sur l’alliance entre précision archivistique, innovation technologique et engagement humain.
La mémoire du futur s’écrit aujourd’hui, lien après lien, acte après acte.
FAQ (Foire Aux Questions)
ARK (Archival Resource Key)
Identifiant pérenne permettant de garantir l’accès à long terme à une ressource numérique, même si son adresse change.
NAAN (Name Assigning Authority Number)
Numéro attribué à chaque institution utilisant le système ARK, garantissant l’unicité des identifiants.
Redirection pérenne
Système qui assure que l’ARK mène toujours vers la bonne ressource, évitant les erreurs « 404 – page introuvable ».
OCR (Optical Character Recognition)
Technique de reconnaissance optique convertissant des textes imprimés en texte exploitable numériquement.
HTR (Handwritten Text Recognition)
Reconnaissance automatique de l’écriture manuscrite, utilisée pour lire les registres anciens.
Indexation
Processus visant à décrire, structurer et relier les données d’un document (noms, lieux, dates, professions) pour le rendre trouvable.
Souveraineté numérique
Capacité des institutions publiques à maîtriser leurs données, leurs accès et leurs standards, sans dépendance à des acteurs privés.
DOI (Digital Object Identifier)
Identifiant pérenne utilisé pour les publications scientifiques, géré par des registres centralisés.
PID (Persistent Identifier)
Catégorie d’identifiants durables, dont font partie ARK, DOI, Handle, URI.
HTR-United
Projet européen collaboratif documentant et partageant des modèles HTR pour le patrimoine écrit.
Écosystème HTR (Transkribus / eScriptorium)
Ensemble des outils, plateformes et modèles permettant de créer, entraîner et utiliser la reconnaissance automatique des écritures manuscrites.
Europeana
Plateforme culturelle européenne fédérant des millions de documents patrimoniaux provenant de milliers d’institutions. Utilise des identifiants pérennes et des métadonnées normalisées pour l’interopérabilité.
Archives Portal Europe
Portail d’accès aux archives européennes, regroupant notices et fonds provenant de centaines d’institutions nationales et locales.
Identifiant pérenne (Persistent Identifier)
Code stable permettant de référencer durablement une ressource numérique, même si son emplacement change.
Handle System
Système d’identifiants pérennes utilisé dans plusieurs institutions de recherche et bibliothèques, notamment aux États-Unis.
URI (Uniform Resource Identifier)
Identifiant normalisé décrivant une ressource numérique, utilisé notamment dans les systèmes d’information européens.
Modèle HTR
Modèle d’apprentissage automatique entraîné pour reconnaître une écriture manuscrite donnée, basé sur des corpus d’entraînement annotés.
Entraînement HTR
Processus consistant à fournir à un algorithme un grand nombre d’images manuscrites annotées pour améliorer la précision de reconnaissance.
Jeu de données (Dataset)
Ensemble structuré de documents ou pages annotés servant à l’apprentissage ou à la validation des outils HTR.
Interopérabilité
Capacité pour plusieurs systèmes (archives, bibliothèques, plateformes culturelles) de communiquer et d’échanger des données grâce à des standards communs.
Métadonnées
Ensemble des informations descriptives associées à un document (titre, date, lieu, personnes, identifiant). Elles rendent la ressource trouvable et exploitable.
Normalisation
Utilisation de standards communs (formats, vocabulaires, identifiants) pour harmoniser les données entre institutions.
Notice descriptive
Fiche descriptive d’un document d’archive comprenant les métadonnées essentielles (cote, date, type d’acte, description).
Cote d’archive
Code de classement attribué à un document dans un service d’archives, permettant de retrouver l’original physique.
Page 404
Message d’erreur affiché lorsqu’une page ou ressource numérique n’existe plus à l’adresse indiquée. Les systèmes ARK permettent d’éviter ce problème.
Redirection
Mécanisme informatique renvoyant automatiquement l’utilisateur vers la nouvelle adresse d’une ressource, même si son URL a changé.
Indexation collaborative
Méthode d’indexation réalisée par des volontaires, associations ou institutions afin d’enrichir les données des documents numérisés.
Données structurées
Informations organisées selon des champs et règles précises (nom, lieu, date), facilitant les recherches et croisements.









