TL;DR

З 2010 року формати файлів перейшли від десктоп‑центричних, пропрієтарних блобів до відкритих, хмарних та готових до ШІ контейнерів. Найбільші зміни:

  • Хмарне‑перше сховище – формати тепер підтримують потокове передавання, часткове читання та співпрацю в реальному часі (Google Docs, Office 365).
  • Рух відкритих стандартів – безроялті кодеки (AV1, AVIF, WebP) та формати даних (Parquet, Arrow) домінують, уникаючи прив’язки до постачальника.
  • Компресія та ефективність пропускної здатності – HEVC, AV1, JPEG‑XL, Zstandard та Brotli зменшують розмір файлів на 30‑60 %, зберігаючи якість.
  • Метадані, безпека та походження – розширені XMP/EXIF, цифрові підписи та зашифровані контейнери захищають цілісність і відповідають вимогам регуляторів.
  • Готові до ШІ, самодокументуючі структури – TFRecord, Parquet та Arrow дозволяють машинам читати дані без спеціальних парсерів, живлячи великі дані та навантаження машинного навчання.

Чому минуле десятиліття має значення

Коли ви відкривали файл у 2010 році, це зазвичай був статичний, локальний артефакт: PDF, який ви друкували, JPEG, який ви надсилали електронною поштою, або ZIP, який ви зберігали на жорсткому диску. Перемотавши час до 2024 року, той самий файл може знаходитися в хмарному сховищі, редагуватись одночасно десятками користувачів і мати криптографічний підпис, що доводить, хто його створив. Ця трансформація зумовлена трьома макротрендами:

ТрендВплив на форматиПриклад у реальному світі
Desktop → Cloud‑NativeПотреба у потоковому читанні, часткових оновленнях та спільних метаданих.Google Docs зберігає кожен документ у вигляді JSON‑контейнера, який можна редагувати кількома користувачами в реальному часі.
Open‑Source & Open‑StandardФормати стають безроялті, сумісними та майбутньо‑захищеними.AV1‑відеокодек (безроялті) зараз живить 4K‑стріми YouTube, замінюючи дорогі ліцензії H.264/HEVC.
Compression & BandwidthВища ефективність для 4K/8K‑відео, HDR‑зображень і масивних наборів даних.Фото у форматі HEIC від Apple приблизно вдвічі менші за JPEG, продовжуючи термін служби пам’яті iPhone.

Ці сили впливають на всі домени — документи, зображення, аудіо, відео, архіви та контейнери великих даних — змушуючи стандартизовані організації (ISO, W3C, IETF, AOM) працювати швидше, ніж будь‑коли.


Формати документів та даних: від PDF до Parquet

Документи стають безпечними, придатними до пошуку та мультимедійно‑насиченими

  • PDF 2.0 (ISO 32000‑2, 2021) додав більш сильну криптографію, розширені XMP‑метадані та кращу доступність. Також був представлений PDF/A‑4 для довготривалого архівування з вбудованим походженням.
  • Office Open XML (OOXML) встиг за реальним співавторством у Office 365, вбудовуючи хмарно‑пов’язані ресурси безпосередньо у пакет файлу.
  • OpenDocument Format (ODF) набув популярності в європейських державних адміністраціях завдяки вимогам ЄС щодо відкритих, безроялті стандартів.
  • ePub 3.x перетворив електронні книги на повноцінні веб‑сторінки (HTML5, MathML, аудіо/відео), дозволяючи інтерактивні підручники та аудіокниги.

Конвеєри великих даних перейшли до самодокументуючих, колонкових контейнерів

  • Parquet став де‑факто форматом зберігання для Spark, Hive та Presto, пропонуючи predicate push‑down та ефективну компресію.
  • Apache Arrow представив мово‑незалежну, в‑пам’яті колонкову структуру, що дозволяє обмін даними без копіювання між Python, Java та Rust.
  • Avro та ORC залишаються популярними для потокової обробки (Kafka) та навантажень Hive відповідно, оскільки вони зберігають схему разом з даними, спрощуючи їх еволюцію.

Результат? Документ або набір даних може переміщатися між хмарами, бути індексованим ШІ і зберігати повний аудит без пропрієтарних обмежень.


Зображення, аудіо та відео: гонка за компресією

Зображення – HDR, анімація та прогресивна декодування

  • HEIF/HEIC (2015) використав компресію HEVC, щоб зменшити розмір JPEG удвічі, підтримуючи 16‑бітну глибину та HDR. Apple зробив його стандартним у iOS 11, просуваючи екосистему до широкого колірного діапазону.
  • AVIF (2020‑2024), побудований на кодеку AV1, зараз забезпечує зменшення розміру на 50 % порівняно з JPEG з підтримкою без втрат та HDR. Chrome, Firefox та Android постачають власні декодери.
  • JPEG‑XL (2022) обіцяє режими без втрат та зі втратами, прогресивне рендеринг та кращу компресію порівняно з WebP та AVIF, і вже використовується Cloudflare для доставки зображень.
  • WebP додав анімацію, покращення без втрат та підтримку ICC‑профілів у версії 1.2, роблячи його основним форматом веб‑графіки у Chrome та Android.

Аудіо – Низька затримка та безвтратна трансляція

  • Opus (RFC 6716, 2012) став стандартним кодеком для WebRTC, Discord та Zoom, забезпечуючи високоякісний голос при швидкості нижче 64 kbps та затримці менше 10 мс.
  • FLAC пережив відродження, коли преміум‑сервіси (Tidal, Qobuz) додали безвтратні рівні, тоді як ALAC став безроялті після того, як Apple відкрив його код у 2011 році.
  • Нові MPEG‑H 3D Audio та Dolby Atmos ADM закладають основу для просторових аудіофайлів, які можна транслювати разом з відео.

Відео – Від домінування H.264 до безроялті AV1

  • HEVC/H.265 (2013) зменшує бітрейт приблизно на 50 % порівняно з H.264, дозволяючи трансляцію 4K та 8K при обмеженій пропускній здатності.
  • VP9 (2013) та AV1 (специфікація випущена 2018, виробниче використання 2020+) запропонували безроялті альтернативи; AV1 тепер має апаратне прискорення на Intel Xe, Nvidia RTX 40 та Apple Silicon.
  • HEVC‑SCC (2023) оптимізував кодування екранного контенту для віддалених робочих столів та хмарних ігор, зменшуючи артефакти в тексті та елементах інтерфейсу.
  • Конвергенція контейнерів: ISO‑BMFF (MP4) та WebM тепер підтримують кілька кодеків, субтитри та HDR‑метадані, спрощуючи адаптивне потокове передавання (MPEG‑DASH, HLS).

Що далі? Формати з вбудованим ШІ, першорядне походження та уніфіковані контейнери

  • Формати, готові до ШІ – чернетка PDF 3.0 (2024) пропонує вбудовані графи інференції, дозволяючи пошук сканованого тексту без окремих OCR‑конвеєрів.
  • Блокчейн‑підтримуване походження – проєкти типу IPFS CAR вбудовують хеші Merkle‑дерев, забезпечуючи захист від підробки при розповсюдженні наукових даних та цифрового мистецтва.
  • Контейнери просторового аудіоMPEG‑H 3D Audio та Dolby Atmos ADM переходять від трансляції до споживчого стрімінгу, вимагаючи нових обгорток файлів, що несуть метадані об’єктного аудіо.
  • Концепції уніфікованого медіа‑контейнера (UMC) – обговорення в робочій групі ISO‑BMFF мають на меті створити один контейнер, який може містити відео, аудіо, субтитри, 3D‑геометрію (glTF) та AR‑метадані, зменшуючи «жонглювання форматами» у занурювальних досвідах.
  • Постквантові підписи – ранні експерименти вбудовують підписи Dilithium або Falcon у PDF/A‑4 та ODF, готуючись до майбутнього, коли класичні RSA/ECDSA можуть бути вразливими.

Для розробників і творців контенту висновок очевидний: вибирайте відкриті, самодокументуючі формати вже зараз. Вони будуть легшими у захисті, дешевшими у ліцензуванні та готовими до ШІ‑орієнтованих конвеєрів, які домінуватимуть у наступному десятилітті.


Швидка довідка (на око)

Домен2010‑20152016‑20202021‑2024
ЗображенняJPEG, PNG, ранній WebPHEIF/HEIC, AVIF (бета)AVIF 1.1, JPEG‑XL, WebP 1.2
ВідеоH.264, VP8, ранній HEVCVP9, AV1 (специфікація), HEVC масовийAV1 широкомасштабний, VVC ранній, HEVC‑SCC
АудіоAAC, MP3, FLACOpus, ALAC відкритий, зростання FLACOpus 1.3, MPEG‑H 3D Audio
ДокументиPDF 1.7, ODF 1.2PDF 2.0, OOXML 2016, EPUB 3PDF 3.0 чернетка, ODF 1.4, EPUB 4 (чернетка)
АрхівиZIP, RAR, 7zZstandard, Brotli, LZ4Zstd 1.5+, Brotli 1.1
Великі даніCSV, JSON, XMLParquet, Arrow, AvroDelta Lake, Iceberg, Feather v2
3D/AROBJ, FBXglTF 2.0, USDZUSD v23, glTF‑KTX2 (стиснені текстури)

Якщо ви досі зберігаєте все у простому ZIP, настав час оновитися. Оберіть формат, який відповідає середовищу (хмара, мобільність, ШІ), і майбутнє вам подякує.


Tags: #file-formats #tech-history #cloud-native
Slug: file-formats-history-2010-2024