Ostatnia aktualizacja: 07 lutego 2025

Tytuł - Format plików GEDCOM i FamilySearch

Czym jest GEDCOM?

GEDCOM (Genealogical Data Communication) to otwarty format plików zaprojektowany do przechowywania, wymiany i udostępniania danych genealogicznych (informacji o drzewie genealogicznym). Jest szeroko używany w oprogramowaniu i witrynach genealogicznych, ułatwiając przenoszenie danych o drzewach genealogicznych między różnymi platformami.

Ilustracja - Format plików GEDCOM i FamilySearch

Kto opracował GEDCOM?

GEDCOM został stworzony przez Kościół Jezusa Chrystusa Świętych w Dniach Ostatnich (LDS Church), który prowadzi FamilySearch—ważną organizację badawczą genealogii. Ich celem było uproszczenie zarządzania danymi genealogicznymi i umożliwienie lepszej współpracy badawczej.

Jak działa GEDCOM?

  • Pliki GEDCOM to pliki tekstowe (obecnie używające kodowania UTF-8 od wersji 7.0).
  • Zawierają informacje o osobach, takie jak:
    • Nazwy
    • Daty urodzin i śmierci
    • Związki rodzinne (rodzice, dzieci, małżonkowie)
    • Wydarzenia (małżeństwo, imigracja itp.)
  • Te rekordy są łączone za pomocą metadanych, zapewniając właściwe połączenia między członkami rodziny.

Wersje GEDCOM i standardy branżowe

  • Najnowsza oficjalna wersja to GEDCOM 7.0, wydana w 2021 roku.
  • Jednak GEDCOM 5.5.1 (z 1999 roku, ostatecznie zatwierdzony w 2019) pozostaje najczęściej używanym standardem.
  • Ponieważ GEDCOM 5.5.1 miał ograniczenia, niektórzy deweloperzy oprogramowania genealogicznego stworzyli niestandardowe rozszerzenia, takie jak GEDCOM 5.5 EL (Extended Locations), aby go ulepszyć.

Wdrożenie GEDCOM 7.0

  • FamilySearch planował wsparcie dla GEDCOM 7.0 do Q3 2022.
  • Ancestry.com także wykazał zainteresowanie wdrożeniem, ale nie podano konkretnej daty implementacji.

Dlaczego GEDCOM jest ważny?

  1. Zgodność między platformami – Umożliwia użytkownikom przenoszenie danych o drzewach genealogicznych między różnymi witrynami genealogicznymi i oprogramowaniem.
  2. Długoterminowe przechowywanie danych – Zapewnia, że dane genealogiczne pozostają dostępne w znormalizowanym formacie.
  3. Współpraca genealogiczna – Umożliwia badaczom i historykom rodzinnym efektywne dzielenie się i scalanie danych.

Wyjaśnienie modelu danych GEDCOM

GEDCOM używa modelu danych opartego na pokrewieństwie liniowym, aby zorganizować związki rodzinne w uporządkowany sposób. Opiera się na koncepcji rodziny nuklearnej, co oznacza, że ​​zapisuje związki w kategoriach rodziców i dzieci, a nie tylko jednostek.

Kluczowe elementy modelu danych GEDCOM

  1. Rekordy INDI (Indywidualne)

    • Każda osoba w pliku genealogicznym jest przechowywana jako rekord INDI (indywidualny).
    • Każdemu indywidualnemu przydzielony zostaje unikalny numer ID, aby zapewnić właściwe powiązania w pliku.
  2. Rekordy FAM (Rodzina)

    • Rekordy rodzinne (FAM) pełnią rolę struktury łączącej między jednostkami.
    • Rekord FAM przypisuje:
      • HUSB (mąż) – Ojciec w rodzinie.
      • WIFE (żona) – Matka w rodzinie.
      • CHIL (dziecko) – Dzieci pary.
    • Te etykiety są historyczne i oparte na oryginalnym modelu GEDCOM, ale nadal są używane dziś.
Ilustracja - Wyjaśnienie modelu danych GEDCOM

Ewolucja reprezentacji płci w GEDCOM

  • Początkowo model GEDCOM był zaprojektowany z założeniem heteronormatywnej struktury rodzinnej, w której mężczyzna (HUSB) i kobieta (WIFE) mają dzieci (CHIL).
  • Specyfikacja GEDCOM 7.0 wyjaśnia, że te terminy nie implikują ról płciowych ani biologicznego rodzicielstwa.
  • Zaktualizowana specyfikacja pozwala na:
    • Pary tej samej płci
    • Adopcję, opiekę zastępczą i konkubinat
    • Bardziej elastyczne struktury rodzinne
  • Terminy „partnerzy”, „rodzice” lub „małżonkowie” są teraz preferowane przy odniesieniach do jednostek w rekordzie FAM.
Ilustracja - Wyjaśnienie modelu danych GEDCOM

Dlaczego to jest ważne?

  1. Utrzymuje uporządkowane związki – Zapewnia, że każda osoba jest poprawnie połączona z rodzicami, małżonkami i dziećmi.
  2. Poprawia zgodność – Pozwala oprogramowaniu genealogicznemu poprawnie rozpoznawać i organizować dane rodzinne.
  3. Zwiększa integracyjność – Wspiera różnorodne struktury rodzinne, nie zakładając tradycyjnych ról płciowych.

Wyjaśnienie struktury pliku GEDCOM

Plik GEDCOM składa się z trzech głównych sekcji: nagłówka, rekordów i sekcji końcowej. Każda sekcja pełni określoną rolę w organizacji danych genealogicznych, a struktura pliku jest wysoce zorganizowana, aby zapewnić, że relacje między osobami i rodzinami są jasne i znormalizowane.

1. Sekcja nagłówkowa

  • Sekcja nagłówkowa oznacza początek pliku GEDCOM i zawiera ważne metadane o samym pliku, takie jak jego wersja (np. GEDCOM 7.0) oraz wszelkie specjalne ustawienia lub konfiguracje dla pliku.
  • Ta sekcja jest reprezentowana przez rekord HEAD.

2. Sekcja rekordów

Jest to główna część pliku GEDCOM i składa się z kilku różnych typów rekordów, z których każdy pełni określoną funkcję:

  • INDI (Rekord indywidualny): Przedstawia osobę w drzewie genealogicznym.
  • FAM (Rekord rodzinny): Przedstawia rodzinę, łącząc męża, żonę i dzieci.
  • SOUR (Rekord źródłowy): Zawiera informacje o źródłach używanych do wspierania danych, takich jak dokumenty historyczne.
  • OBJE (Rekord obiektu): Reprezentuje obiekty multimedialne, takie jak zdjęcia lub dokumenty, powiązane z osobami lub rodzinami.
  • NOTE (Rekord notatki): Zawiera dodatkowe notatki lub komentarze, które mogą dostarczyć dodatkowego kontekstu lub wyjaśnień dla rekordu.
  • REPO (Rekord repozytorium): Opisuje miejsce, w którym przechowywane są informacje genealogiczne, takie jak biblioteka lub archiwum.
  • SUBM (Rekord nadawcy): Przedstawia osobę lub podmiot zgłaszający plik GEDCOM.

Każdy z tych rekordów strukturyzowany jest hierarchicznie, z różnymi numerami poziomów, co wskazuje na to, jak dane są powiązane. Na przykład:

  • Poziom 0 to najwyższy poziom dla najważniejszych rekordów, jak HEAD, TRLR, INDI, FAM, SOUR itp.
  • Poziom 1 lub wyższy przedstawia pod-poziomy rekordów, takie jak wydarzenia lub związki związane z konkretną osobą lub rodziną.

3. Sekcja końcowa

  • Sekcja końcowa oznacza koniec pliku GEDCOM i zawiera rekord TRLR. Oznacza, że plik został zakończony.
Ilustracja - Wyjaśnienie struktury pliku GEDCOM

Jak to działa w praktyce

  • Numery poziomów: Każda linia w pliku GEDCOM zaczyna się od numeru poziomu (np. 0, 1, 2), gdzie 0 oznacza rekordy najwyższego poziomu, a liczby całkowite dodatnie (1, 2 itd.) oznaczają zagnieżdżone lub podrzędne rekordy. Ten system zapewnia, że związki i hierarchie w drzewie genealogicznym są właściwie zorganizowane.

    Na przykład:

    • Poziom 0: HEAD (Rekord nagłówkowy), TRLR (Rekord końcowy), INDI (Rekord indywidualny)
    • Poziom 1: MARR (Wydarzenie małżeństwa), BIRT (Wydarzenie urodzin)
    • Poziom 2: DATE (Data wydarzenia), PLAC (Miejsce wydarzenia)
  • Samodzielne pisanie pliku GEDCOM jest teoretycznie możliwe, ale jest nieprzyjazne dla człowieka z powodu jego uporządkowanego charakteru. O wiele łatwiej jest używać oprogramowania zaprojektowanego do pracy z plikami GEDCOM, które pomaga właściwie organizować i formatować dane.

Walidacja i kontrola jakości

  • Ponieważ pliki GEDCOM muszą być dobrze strukturą, aby można je było prawidłowo używać i przenosić, istnieją narzędzia do ich walidacji pod kątem błędów.

Wyzwania związane z kompatybilnością GEDCOM

  • Na początku lat 2000, Projekt Księgi Testowej GEDCOM oceniał, jak dobrze różne oprogramowania genealogiczne są zgodne ze standardem GEDCOM 5.5. Wyniki ujawniły kilka problemów, takich jak utrata danych lub niewłaściwe odczytywanie tagu NOTATKI, który może pojawić się na różnych poziomach.

  • GEDCOM 7.0 ma na celu rozwiązanie niektórych z tych problemów, a narzędzia walidacyjne dla tego nowszego standardu istnieją, aby pomóc zapewnić kompatybilność na różnych platformach.

Dlaczego walidacja GEDCOM jest ważna?

  • Zapewnia, że dane są poprawnie strukturyzowane i że związki między osobami, rodzinami, wydarzeniami i źródłami są prawidłowo utrzymane.
  • Pomaga uniknąć utraty danych podczas przenoszenia plików między programami genealogicznymi.
  • Ułatwia genealogom dzielenie się informacjami na różnych platformach.

Przykładowy plik GEDCOM

Oto prosty przykład pliku GEDCOM oraz wyjaśnienie jego struktury:

0 HEAD
1 SOUR FamilySearch GEDCOM
2 VERS 7.0
2 NAME FamilySearch
1 DEST Ancestry
1 DATE 5 FEB 2025
1 SUBM @SUBM1@
0 INDI @I1@
1 NAME John /Doe/
1 SEX M
1 BIRT
2 DATE 1 JAN 1800
2 PLAC New York, USA
0 FAM @F1@
1 HUSB @I1@
1 WIFE @I2@
1 CHIL @I3@
0 INDI @I2@
1 NAME Jane /Smith/
1 SEX F
1 BIRT
2 DATE 15 FEB 1805
2 PLAC Boston, USA
0 INDI @I3@
1 NAME Mary /Doe/
1 SEX F
1 BIRT
2 DATE 10 OCT 1825
2 PLAC New York, USA
0 TRLR

Rozbicie i wyjaśnienie:

1. Sekcja nagłówkowa (HEAD)

0 HEAD
1 SOUR FamilySearch GEDCOM
2 VERS 7.0
2 NAME FamilySearch
1 DEST Ancestry
1 DATE 5 FEB 2025
1 SUBM @SUBM1@
  • 0 HEAD: Oznacza początek pliku.
  • 1 SOUR: Wskazuje źródło pliku (np. FamilySearch GEDCOM).
  • 2 VERS 7.0: Określa wersję używanego formatu GEDCOM (tutaj 7.0).
  • 1 DEST: Wskazuje zamierzone przeznaczenie lub system dla danych (np. Ancestry).
  • 1 DATE: Data utworzenia pliku GEDCOM (np. 5 lutego 2025).
  • 1 SUBM: Wskazuje na rekord zgłaszającego (@SUBM1@), który zawiera więcej informacji o osobie zgłaszającej plik.

2. Rekordy indywidualne (INDI)

0 INDI @I1@
1 NAME John /Doe/
1 SEX M
1 BIRT
2 DATE 1 JAN 1800
2 PLAC New York, USA
  • 0 INDI @I1@: Oznacza początek rekordu indywidualnego z unikalnym ID (@I1@) dla Johna Doe.
  • 1 NAME John /Doe/: Imię i nazwisko osoby (John Doe).
  • 1 SEX M: Płeć osoby (M dla mężczyzny).
  • 1 BIRT: Wskazuje na wydarzenie narodzenia osoby.
    • 2 DATE 1 JAN 1800: Data urodzenia (1 stycznia 1800).
    • 2 PLAC New York, USA: Miejsce narodzin (Nowy Jork, USA).

3. Rekordy rodzinne (FAM)

0 FAM @F1@
1 HUSB @I1@
1 WIFE @I2@
1 CHIL @I3@
  • 0 FAM @F1@: Oznacza początek rekordu rodzinnego z unikalnym ID (@F1@).
  • 1 HUSB @I1@: Łączy męża (John Doe, ID @I1@).
  • 1 WIFE @I2@: Łączy żonę (Jane Smith, ID @I2@).
  • 1 CHIL @I3@: Łączy dziecko (Mary Doe, ID @I3@).

4. Drugi rekord indywidualny (INDI)

0 INDI @I2@
1 NAME Jane /Smith/
1 SEX F
1 BIRT
2 DATE 15 FEB 1805
2 PLAC Boston, USA
  • 0 INDI @I2@: Oznacza początek rekordu indywidualnego dla Jane Smith z unikalnym ID (@I2@).
  • 1 NAME Jane /Smith/: Imię i nazwisko osoby (Jane Smith).
  • 1 SEX F: Płeć osoby (F dla kobiety).
  • 1 BIRT: Wskazuje na wydarzenie narodzenia osoby.
    • 2 DATE 15 FEB 1805: Data urodzenia (15 lutego 1805).
    • 2 PLAC Boston, USA: Miejsce narodzin (Boston, USA).

5. Trzeci rekord indywidualny (INDI)

0 INDI @I3@
1 NAME Mary /Doe/
1 SEX F
1 BIRT
2 DATE 10 OCT 1825
2 PLAC New York, USA
  • 0 INDI @I3@: Oznacza początek rekordu indywidualnego dla Mary Doe z unikalnym ID (@I3@).
  • 1 NAME Mary /Doe/: Imię i nazwisko osoby (Mary Doe).
  • 1 SEX F: Płeć osoby (F dla kobiety).
  • 1 BIRT: Wskazuje na wydarzenie narodzenia osoby.
    • 2 DATE 10 OCT 1825: Data urodzenia (10 października 1825).
    • 2 PLAC New York, USA: Miejsce narodzin (Nowy Jork, USA).

6. Sekcja końcowa (TRLR)

0 TRLR
  • 0 TRLR: Oznacza koniec pliku GEDCOM.

Wyjaśnienie kluczowych rekordów

  • Rekordy INDI (Indywidualne): Zawierają dane osobiste dotyczące konkretnej osoby, takie jak imię, płeć i data narodzin.
  • Rekord FAM (Rodzinny): Łączy jednostki w zespoły rodzinne. Łączy rodziców (HUSB i WIFE) i dzieci (CHIL) za pomocą ich unikalnych ID.
  • Uwagi dotyczące ID: Każdy rekord (indywidualny lub rodzinny) ma przypisane unikalne ID (np. @I1@ dla Johna Doe). Te ID są używane do łączenia powiązanych rekordów, takich jak łączenie dziecka z rodzicami.

Kluczowe pojęcia

  • Numery poziomów: Pliki GEDCOM używają numerów poziomów do organizacji danych w strukturze hierarchicznej. Poziom 0 jest dla rekordów najwyższego poziomu (takich jak INDI, FAM), a Poziom 1 i 2 są używane dla szczegółowych danych podrzędnych (takich jak wydarzenia i miejsca).
  • Nazwy w ukośnikach: Nazwy w GEDCOM są często zamknięte w ukośnikach, takie jak John /Doe/, co odróżnia nazwisko od imienia.
Ilustracja - GEDCOM - Wyjaśnienie kluczowych rekordów

To podstawowy plik GEDCOM, ale bardziej złożone pliki mogą zawierać szczegółowe wydarzenia (takie jak małżeństwa, zgony), źródła (np. dokumenty spisowe) i odniesienia multimedialne.

Wnioski

GEDCOM był kamieniem węgielnym w dziedzinie genealogii, umożliwiając wymianę danych genealogicznych między różnymi platformami oprogramowania. Jego standardowy format pozwolił badaczom, historykom i hobbystom efektywnie dzielić się i zachowywać dane o historii rodzinnej. Jednak mimo szerokiej adopcji, GEDCOM nie jest pozbawiony ograniczeń. Problemy takie jak kompatybilność między oprogramowaniem, niemożność reprezentowania złożonych związków oraz brak wsparcia dla nowoczesnych typów danych podkreślają potrzebę ciągłych udoskonaleń lub alternatywnych rozwiązań.

W miarę jak genealogia nadal się rozwija wraz z postępem technologicznym, przyszłość GEDCOM może obejmować aktualizacje standardu lub rozwój nowych formatów, które lepiej spełniają złożoności nowoczesnych badań genealogicznych. Na razie GEDCOM pozostaje niezbędnym narzędziem dla każdego, kto trabajuje z drzewami genealogicznymi, a zrozumienie jego struktury i funkcjonalności jest kluczowe dla efektywnego zarządzania danymi i udostępniania ich w społeczności genealogicznej.