마지막 업데이트: 2025년 2월 7일

제목 - GEDCOM 파일 형식과 FamilySearch

GEDCOM이란?

GEDCOM (Genealogical Data Communication)은 계보 데이터 (가족 나무 정보)를 저장, 교환 및 공유하기 위해 설계된 오픈 파일 형식입니다. 이는 계보 소프트웨어 및 웹사이트에서 널리 사용되어 서로 다른 플랫폼 간에 가족 나무 데이터를 전송하기 쉽게 합니다.

일러스트 - GEDCOM 파일 형식과 FamilySearch

GEDCOM은 누가 개발했나요?

GEDCOM은 **예수 그리스도 후기 성도 교회 (LDS 교회)**에 의해 개발되었으며, 이 교회는 주요 계보 연구 기관인 FamilySearch를 운영합니다. 그들의 목표는 계보 데이터 관리를 간소화하고 더 나은 연구 협업을 허용하는 것이었습니다.

GEDCOM은 어떻게 작동하나요?

  • GEDCOM 파일은 평문 텍스트 파일입니다 (버전 7.0부터는 UTF-8 인코딩을 사용).
  • 파일에는 개인에 관한 정보가 들어있습니다. 예를 들면:
    • 이름
    • 출생 및 사망 날짜
    • 가족 관계 (부모, 자녀, 배우자)
    • 이벤트 (결혼, 이민 등)
  • 이러한 기록은 메타데이터를 사용하여 연결되며, 가족 구성원 사이의 올바른 연계를 보장합니다.

GEDCOM 버전 및 산업 표준

  • 최신 공식 버전은 2021년에 발표된 GEDCOM 7.0입니다.
  • 하지만, GEDCOM 5.5.1 (1999년 발표, 2019년 최종)**이 여전히 가장 널리 사용되는 표준입니다.
  • GEDCOM 5.5.1이 한계를 가지고 있었기 때문에 일부 계보 소프트웨어 개발자들은 이를 개선하기 위해 GEDCOM 5.5 EL (Extended Locations) 같은 맞춤 확장을 만들었습니다.

GEDCOM 7.0의 채택

  • FamilySearch는 2022년 3분기까지 GEDCOM 7.0을 지원할 계획이었습니다.
  • Ancestry.com 역시 이를 채택하는 데 관심을 보였으나 확정된 구현 날짜는 제공하지 않았습니다.

GEDCOM의 중요성

  1. 플랫폼 간 호환성 – 사용자가 다른 계보 웹사이트와 소프트웨어 간에 가족 나무 데이터를 이동할 수 있게 해줍니다.
  2. 장기 데이터 저장 – 표준화된 형식으로 계보 데이터를 계속 접근 가능하게 보장합니다.
  3. 계보 협업 – 연구자와 가족 역사학자들이 데이터를 효율적으로 공유하고 병합할 수 있게 합니다.

GEDCOM 데이터 모델 설명

GEDCOM은 선계 연결 데이터 모델을 사용하여 가족 관계를 구조화된 방식으로 조직합니다. 이는 핵가족 개념을 기반으로 하며, 개별 사람들보다 부모와 자식 용어로 관계를 기록합니다.

GEDCOM 데이터 모델의 주요 구성 요소

  1. INDI (개인) 기록

    • 계보 파일에 있는 각 개인은 INDI (개인) 기록으로 저장됩니다.
    • 각 개인은 파일 내에서 올바른 연결을 보장하기 위해 고유 ID 번호가 할당됩니다.
  2. FAM (가족) 기록

    • 가족 기록 (FAM)은 개인들 간의 연결 구조로 작용합니다.
    • FAM 기록은 다음과 같이 할당됩니다:
      • HUSB (남편) – 가족의 아버지.
      • WIFE (아내) – 가족의 어머니.
      • CHIL (자녀) – 부부의 자녀들.
    • 이러한 레이블은 역사적이며 원래 GEDCOM 모델을 기반으로 하지만 여전히 사용되고 있습니다.
일러스트 - GEDCOM 데이터 모델 설명

GEDCOM에서의 성별 표현 진화

  • 초기 GEDCOM 모델은 이성애 가정 구조를 가정하여 **남성 (HUSB)과 여성 (WIFE)이 자녀 (CHIL)**를 둔 형태로 설계되었습니다.
  • GEDCOM 7.0 명세서는 이런 용어들이 성 역할이나 생물학적 부모 역할을 암시하지 않음을 명확히 하고 있습니다.
  • 업데이트된 명세서는 다음을 허용합니다:
    • 동성 커플
    • 입양, 위탁 및 동거
    • 보다 유연한 가족 구조
  • 이제 FAM 기록에서 개인을 지칭할 때 **‘파트너’, ‘부모’, 또는 ‘배우자’**라는 용어가 선호됩니다.
일러스트 - GEDCOM 데이터 모델 설명

이것이 중요한 이유는?

  1. 구조화된 관계 유지 – 각 사람이 부모, 배우자 및 자녀와 올바르게 연결되도록 보장합니다.
  2. 호환성 개선 – 계보 소프트웨어 가 가족 데이터를 인식하고 효율적으로 조직할 수 있게 합니다.
  3. 포용성 증가 – 전통적인 성 역할을 가정하지 않고 다양한 가족 구조를 지원합니다.

GEDCOM 파일 구조 설명

GEDCOM 파일헤더, 기록, 종결부라는 세 가지 주요 섹션으로 구성됩니다. 각 섹션은 개인 및 가족 간의 관계를 명확하고 표준화된 방식으로 조직하기 위한 특정 역할을 담당합니다.

1. 헤더 섹션

  • 헤더 섹션은 GEDCOM 파일의 시작을 알리며 파일 자체에 대한 중요 메타데이터, 예를 들어 버전 (예: GEDCOM 7.0) 및 파일의 특별한 설정이나 구성을 포함합니다.
  • 이 섹션은 HEAD 기록으로 표현됩니다.

2. 기록 섹션

이것은 GEDCOM 파일의 주요 부분이며, 각각 특정한 목적을 수행하는 여러 다른 기록 유형으로 구성됩니다:

  • INDI (개인 기록): 가족 나무 내 개별 인물을 나타냅니다.
  • FAM (가족 기록): 남편, 아내, 자녀를 연결하여 가족을 나타냅니다.
  • SOUR (출처 기록): 역사 기록 등 데이터를 지원하기 위해 사용된 출처 정보를 포함합니다.
  • OBJE (객체 기록): 개인이나 가족과 연관된 사진이나 문서 같은 멀티미디어 객체를 나타냅니다.
  • NOTE (노트 기록): 추가 맥락이나 설명을 제공할 수 있는 추가 노트나 댓글을 포함합니다.
  • REPO (저장소 기록): 도서관이나 아카이브같이 계보 정보가 저장된 장소를 설명합니다.
  • SUBM (제출자 기록): GEDCOM 파일을 제출하는 사람이나 단체를 나타냅니다.

각각의 이 기록들은 서로의 관계를 나타내는 레벨 번호로 계층적으로 구조화되어 있습니다. 예를 들어:

  • 레벨 0가장 중요한 기록들을 위한 최상위 레벨, 예: HEAD, TRLR, INDI, FAM, SOUR 등입니다.
  • 레벨 1 이상은 특정 개인이나 가족에 대해 연결된 사건이나 관계들을 나타내는 하위 레벨 기록입니다.

3. 트레일러 섹션

  • 트레일러 섹션은 GEDCOM 파일의 끝을 알리며, TRLR 기록을 포함합니다. 이는 파일이 종료되었음을 나타냅니다.
일러스트 - GEDCOM 파일 구조 설명

실제 작동 방식

  • 레벨 번호: GEDCOM 파일의 모든 줄은 레벨 번호 (예: 0, 1, 2)로 시작하며, 0은 최상위 기록을, 양의 정수 (1, 2 등)는 중첩되거나 하위 기록을 나타냅니다. 이 시스템은 가족 나무 내의 관계와 계층 구조가 올바르게 조직되도록 보장합니다.

    예를 들면:

    • 레벨 0: HEAD (헤더 기록), TRLR (트레일러 기록), INDI (개인 기록)
    • 레벨 1: MARR (결혼 이벤트), BIRT (출생 이벤트)
    • 레벨 2: DATE (이벤트 날짜), PLAC (이벤트 장소)
  • GEDCOM 파일을 손으로 작성하는 것은 기술적으로 가능하지만, 그 구조적 특성 때문에 인간 친화적이지 않습니다. GEDCOM 파일을 다루기 위해 설계된 소프트웨어를 사용하는 것이 데이터를 올바르게 조직하고 형식화하는 데 훨씬 쉽습니다.

검증 및 품질 관리

  • GEDCOM 파일은 적절한 사용 및 전송을 위해 잘 구조화되어야 하므로 오류를 검증하기 위한 도구가 존재합니다.

GEDCOM 호환성 문제

  • 2000년대 초, GEDCOM TestBook Project는 다양한 계보 소프트웨어가 GEDCOM 5.5 표준을 얼마나 잘 준수하는지를 평가했습니다. 그 결과 데이터 손실이나 여러 레벨에 나타날 수 있는 NOTE 태그의 잘못된 읽기와 같은 여러 문제가 발견되었습니다.

  • GEDCOM 7.0은 이러한 문제 중 일부를 해결하려 하며, 다양한 플랫폼 간의 호환성을 보장하기 위해 이 새로운 표준에 대한 검증 도구가 존재합니다.

GEDCOM 검증이 중요한 이유

  • 데이터가 올바르게 구조화되고 개인, 가족, 이벤트, 출처 간의 관계가 제대로 유지되는지 보장합니다.
  • 계보 프로그램 간 파일 전송 시 데이터 손실을 방지합니다.
  • 계보학자들이 다양한 플랫폼에서 정보를 공유하기 쉽게 만듭니다.

예시 GEDCOM 파일

다음은 GEDCOM 파일의 간단한 예제와 그 구조에 대한 설명입니다:

0 HEAD
1 SOUR FamilySearch GEDCOM
2 VERS 7.0
2 NAME FamilySearch
1 DEST Ancestry
1 DATE 5 FEB 2025
1 SUBM @SUBM1@
0 INDI @I1@
1 NAME John /Doe/
1 SEX M
1 BIRT
2 DATE 1 JAN 1800
2 PLAC New York, USA
0 FAM @F1@
1 HUSB @I1@
1 WIFE @I2@
1 CHIL @I3@
0 INDI @I2@
1 NAME Jane /Smith/
1 SEX F
1 BIRT
2 DATE 15 FEB 1805
2 PLAC Boston, USA
0 INDI @I3@
1 NAME Mary /Doe/
1 SEX F
1 BIRT
2 DATE 10 OCT 1825
2 PLAC New York, USA
0 TRLR

구조 분석 및 설명:

1. 헤더 섹션 (HEAD)

0 HEAD
1 SOUR FamilySearch GEDCOM
2 VERS 7.0
2 NAME FamilySearch
1 DEST Ancestry
1 DATE 5 FEB 2025
1 SUBM @SUBM1@
  • 0 HEAD: 파일 시작을 표시합니다.
  • 1 SOUR: 파일의 출처를 나타냅니다 (예: FamilySearch GEDCOM).
  • 2 VERS 7.0: 사용된 GEDCOM 형식의 버전을 명시합니다 (여기서는 7.0).
  • 1 DEST: 데이터의 예상 목적지 또는 시스템을 나타냅니다 (예: Ancestry).
  • 1 DATE: GEDCOM 파일이 생성된 날짜입니다 (예: 2025년 2월 5일).
  • 1 SUBM: 제출자 기록 (@SUBM1@)으로, 파일을 제출하는 사람에 대한 추가 정보를 가질 수 있습니다.

2. 개인 기록 (INDI)

0 INDI @I1@
1 NAME John /Doe/
1 SEX M
1 BIRT
2 DATE 1 JAN 1800
2 PLAC New York, USA
  • 0 INDI @I1@: John Doe의 개인 기록을 고유 ID (@I1@)와 함께 시작합니다.
  • 1 NAME John /Doe/: 개인의 이름 (John Doe).
  • 1 SEX M: 개인의 성별 (M은 남성을 의미).
  • 1 BIRT: 개인의 출생 이벤트를 나타냅니다.
    • 2 DATE 1 JAN 1800: 출생 날짜 (1800년 1월 1일).
    • 2 PLAC New York, USA: 출생 장소 (뉴욕, 미국).

3. 가족 기록 (FAM)

0 FAM @F1@
1 HUSB @I1@
1 WIFE @I2@
1 CHIL @I3@
  • 0 FAM @F1@: 가족 기록의 시작을 고유 ID (@F1@)와 함께 표시합니다.
  • 1 HUSB @I1@: 남편 (John Doe, ID @I1@)을 링크합니다.
  • 1 WIFE @I2@: 아내 (Jane Smith, ID @I2@)를 링크합니다.
  • 1 CHIL @I3@: 자녀 (Mary Doe, ID @I3@)를 링크합니다.

4. 두 번째 개인 기록 (INDI)

0 INDI @I2@
1 NAME Jane /Smith/
1 SEX F
1 BIRT
2 DATE 15 FEB 1805
2 PLAC Boston, USA
  • 0 INDI @I2@: Jane Smith의 개인 기록을 고유 ID (@I2@)와 함께 시작합니다.
  • 1 NAME Jane /Smith/: 개인의 이름 (Jane Smith).
  • 1 SEX F: 개인의 성별 (F은 여성을 의미).
  • 1 BIRT: 개인의 출생 이벤트를 나타냅니다.
    • 2 DATE 15 FEB 1805: 출생 날짜 (1805년 2월 15일).
    • 2 PLAC Boston, USA: 출생 장소 (보스턴, 미국).

5. 세 번째 개인 기록 (INDI)

0 INDI @I3@
1 NAME Mary /Doe/
1 SEX F
1 BIRT
2 DATE 10 OCT 1825
2 PLAC New York, USA
  • 0 INDI @I3@: Mary Doe의 개인 기록을 고유 ID (@I3@)와 함께 시작합니다.
  • 1 NAME Mary /Doe/: 개인의 이름 (Mary Doe).
  • 1 SEX F: 개인의 성별 (F은 여성을 의미).
  • 1 BIRT: 개인의 출생 이벤트를 나타냅니다.
    • 2 DATE 10 OCT 1825: 출생 날짜 (1825년 10월 10일).
    • 2 PLAC New York, USA: 출생 장소 (뉴욕, 미국).

6. 트레일러 섹션 (TRLR)

0 TRLR
  • 0 TRLR: GEDCOM 파일의 종료를 표시합니다.

주요 기록 설명

  • INDI (개인) 기록: 특정 개인에 대한 개인 정보를 포함하며, 이름, 성별, 출생 날짜 등을 제공합니다.
  • FAM (가족) 기록: 개인을 연결하여 가족 단위로 구성합니다. 고유 ID를 사용하여 부모 (HUSB와 WIFE) 및 **자식 (CHIL)**을 연결합니다.
  • ID에 대한 주의 사항: 각 기록 (개인 또는 가족)은 고유 ID (예: John Doe의 경우 @I1@)가 할당되어 있습니다. 이러한 ID는 관련 기록을 연결하는 데 사용됩니다.

핵심 개념

  • 레벨 번호: GEDCOM 파일은 데이터를 계층적 구조로 조직하기 위해 레벨 번호를 사용합니다. 레벨 0은 최상위 기록 (예: INDI, FAM)을 위한 것이며, 레벨 1과 2는 사건 및 장소 같은 하위 세부 사항에 사용됩니다.
  • 슬래시로 둘러싸인 이름: GEDCOM에서 이름은 종종 슬래시로 둘러싸여 있으며, 예를 들면 John /Doe/, 이는 성을 이름과 구분합니다.
일러스트 - GEDCOM - 주요 기록 설명

이 예는 기본적인 GEDCOM 파일입니다. 하지만, 더 복잡한 파일은 결혼, 사망 같은 세부적인 이벤트, 출처 (예: 인구 조사 기록), 멀티미디어 참조 등을 포함할 수 있습니다.

결론

GEDCOM은 계보 분야에서 중요한 역할을 하며, 다양한 소프트웨어 플랫폼 간의 계보 데이터 교환을 가능하게 합니다. 그 표준화된 형식은 연구자, 역사학자, 그리고 취미로 가족사를 탐구하는 사람들에게 데이터를 효율적으로 공유하고 보존할 수 있게 해줍니다. 그러나, 그 광범위한 채택에도 불구하고, GEDCOM은 한계가 없는 것은 아닙니다. 소프트웨어 간의 호환성 문제, 복잡한 관계를 나타내는 능력의 한계, 현대 데이터 유형에 대한 지원의 부족 등은 지속적인 개선 또는 대체 솔루션의 필요성을 강조합니다.

계보학이 기술의 발전과 함께 계속 진화함에 따라, GEDCOM의 미래는 표준의 업데이트나 현대 계보 연구의 복잡성을 더 잘 수용하는 새로운 형식의 개발을 포함할 수 있습니다. 현재로서는, GEDCOM은 가족 기록 작업을 하는 모든 이에게 필수적인 도구로 남아 있으며, 그 구조와 기능을 이해하는 것은 계보 커뮤니티에서 효과적인 데이터 관리 및 공유에 중요합니다.