TL;DR
З 2010 року формати файлів перейшли від десктоп‑центричних, пропрієтарних блобів до відкритих, хмарних та готових до ШІ контейнерів. Найбільші зміни:
- Хмарне‑перше сховище – формати тепер підтримують потокове передавання, часткове читання та співпрацю в реальному часі (Google Docs, Office 365).
- Рух відкритих стандартів – безроялті кодеки (AV1, AVIF, WebP) та формати даних (Parquet, Arrow) домінують, уникаючи прив’язки до постачальника.
- Компресія та ефективність пропускної здатності – HEVC, AV1, JPEG‑XL, Zstandard та Brotli зменшують розмір файлів на 30‑60 %, зберігаючи якість.
- Метадані, безпека та походження – розширені XMP/EXIF, цифрові підписи та зашифровані контейнери захищають цілісність і відповідають вимогам регуляторів.
- Готові до ШІ, самодокументуючі структури – TFRecord, Parquet та Arrow дозволяють машинам читати дані без спеціальних парсерів, живлячи великі дані та навантаження машинного навчання.
Чому минуле десятиліття має значення
Коли ви відкривали файл у 2010 році, це зазвичай був статичний, локальний артефакт: PDF, який ви друкували, JPEG, який ви надсилали електронною поштою, або ZIP, який ви зберігали на жорсткому диску. Перемотавши час до 2024 року, той самий файл може знаходитися в хмарному сховищі, редагуватись одночасно десятками користувачів і мати криптографічний підпис, що доводить, хто його створив. Ця трансформація зумовлена трьома макротрендами:
| Тренд | Вплив на формати | Приклад у реальному світі |
|---|---|---|
| Desktop → Cloud‑Native | Потреба у потоковому читанні, часткових оновленнях та спільних метаданих. | Google Docs зберігає кожен документ у вигляді JSON‑контейнера, який можна редагувати кількома користувачами в реальному часі. |
| Open‑Source & Open‑Standard | Формати стають безроялті, сумісними та майбутньо‑захищеними. | AV1‑відеокодек (безроялті) зараз живить 4K‑стріми YouTube, замінюючи дорогі ліцензії H.264/HEVC. |
| Compression & Bandwidth | Вища ефективність для 4K/8K‑відео, HDR‑зображень і масивних наборів даних. | Фото у форматі HEIC від Apple приблизно вдвічі менші за JPEG, продовжуючи термін служби пам’яті iPhone. |
Ці сили впливають на всі домени — документи, зображення, аудіо, відео, архіви та контейнери великих даних — змушуючи стандартизовані організації (ISO, W3C, IETF, AOM) працювати швидше, ніж будь‑коли.
Формати документів та даних: від PDF до Parquet
Документи стають безпечними, придатними до пошуку та мультимедійно‑насиченими
- PDF 2.0 (ISO 32000‑2, 2021) додав більш сильну криптографію, розширені XMP‑метадані та кращу доступність. Також був представлений PDF/A‑4 для довготривалого архівування з вбудованим походженням.
- Office Open XML (OOXML) встиг за реальним співавторством у Office 365, вбудовуючи хмарно‑пов’язані ресурси безпосередньо у пакет файлу.
- OpenDocument Format (ODF) набув популярності в європейських державних адміністраціях завдяки вимогам ЄС щодо відкритих, безроялті стандартів.
- ePub 3.x перетворив електронні книги на повноцінні веб‑сторінки (HTML5, MathML, аудіо/відео), дозволяючи інтерактивні підручники та аудіокниги.
Конвеєри великих даних перейшли до самодокументуючих, колонкових контейнерів
- Parquet став де‑факто форматом зберігання для Spark, Hive та Presto, пропонуючи predicate push‑down та ефективну компресію.
- Apache Arrow представив мово‑незалежну, в‑пам’яті колонкову структуру, що дозволяє обмін даними без копіювання між Python, Java та Rust.
- Avro та ORC залишаються популярними для потокової обробки (Kafka) та навантажень Hive відповідно, оскільки вони зберігають схему разом з даними, спрощуючи їх еволюцію.
Результат? Документ або набір даних може переміщатися між хмарами, бути індексованим ШІ і зберігати повний аудит без пропрієтарних обмежень.
Зображення, аудіо та відео: гонка за компресією
Зображення – HDR, анімація та прогресивна декодування
- HEIF/HEIC (2015) використав компресію HEVC, щоб зменшити розмір JPEG удвічі, підтримуючи 16‑бітну глибину та HDR. Apple зробив його стандартним у iOS 11, просуваючи екосистему до широкого колірного діапазону.
- AVIF (2020‑2024), побудований на кодеку AV1, зараз забезпечує зменшення розміру на 50 % порівняно з JPEG з підтримкою без втрат та HDR. Chrome, Firefox та Android постачають власні декодери.
- JPEG‑XL (2022) обіцяє режими без втрат та зі втратами, прогресивне рендеринг та кращу компресію порівняно з WebP та AVIF, і вже використовується Cloudflare для доставки зображень.
- WebP додав анімацію, покращення без втрат та підтримку ICC‑профілів у версії 1.2, роблячи його основним форматом веб‑графіки у Chrome та Android.
Аудіо – Низька затримка та безвтратна трансляція
- Opus (RFC 6716, 2012) став стандартним кодеком для WebRTC, Discord та Zoom, забезпечуючи високоякісний голос при швидкості нижче 64 kbps та затримці менше 10 мс.
- FLAC пережив відродження, коли преміум‑сервіси (Tidal, Qobuz) додали безвтратні рівні, тоді як ALAC став безроялті після того, як Apple відкрив його код у 2011 році.
- Нові MPEG‑H 3D Audio та Dolby Atmos ADM закладають основу для просторових аудіофайлів, які можна транслювати разом з відео.
Відео – Від домінування H.264 до безроялті AV1
- HEVC/H.265 (2013) зменшує бітрейт приблизно на 50 % порівняно з H.264, дозволяючи трансляцію 4K та 8K при обмеженій пропускній здатності.
- VP9 (2013) та AV1 (специфікація випущена 2018, виробниче використання 2020+) запропонували безроялті альтернативи; AV1 тепер має апаратне прискорення на Intel Xe, Nvidia RTX 40 та Apple Silicon.
- HEVC‑SCC (2023) оптимізував кодування екранного контенту для віддалених робочих столів та хмарних ігор, зменшуючи артефакти в тексті та елементах інтерфейсу.
- Конвергенція контейнерів: ISO‑BMFF (MP4) та WebM тепер підтримують кілька кодеків, субтитри та HDR‑метадані, спрощуючи адаптивне потокове передавання (MPEG‑DASH, HLS).
Що далі? Формати з вбудованим ШІ, першорядне походження та уніфіковані контейнери
- Формати, готові до ШІ – чернетка PDF 3.0 (2024) пропонує вбудовані графи інференції, дозволяючи пошук сканованого тексту без окремих OCR‑конвеєрів.
- Блокчейн‑підтримуване походження – проєкти типу IPFS CAR вбудовують хеші Merkle‑дерев, забезпечуючи захист від підробки при розповсюдженні наукових даних та цифрового мистецтва.
- Контейнери просторового аудіо – MPEG‑H 3D Audio та Dolby Atmos ADM переходять від трансляції до споживчого стрімінгу, вимагаючи нових обгорток файлів, що несуть метадані об’єктного аудіо.
- Концепції уніфікованого медіа‑контейнера (UMC) – обговорення в робочій групі ISO‑BMFF мають на меті створити один контейнер, який може містити відео, аудіо, субтитри, 3D‑геометрію (glTF) та AR‑метадані, зменшуючи «жонглювання форматами» у занурювальних досвідах.
- Постквантові підписи – ранні експерименти вбудовують підписи Dilithium або Falcon у PDF/A‑4 та ODF, готуючись до майбутнього, коли класичні RSA/ECDSA можуть бути вразливими.
Для розробників і творців контенту висновок очевидний: вибирайте відкриті, самодокументуючі формати вже зараз. Вони будуть легшими у захисті, дешевшими у ліцензуванні та готовими до ШІ‑орієнтованих конвеєрів, які домінуватимуть у наступному десятилітті.
Швидка довідка (на око)
| Домен | 2010‑2015 | 2016‑2020 | 2021‑2024 |
|---|---|---|---|
| Зображення | JPEG, PNG, ранній WebP | HEIF/HEIC, AVIF (бета) | AVIF 1.1, JPEG‑XL, WebP 1.2 |
| Відео | H.264, VP8, ранній HEVC | VP9, AV1 (специфікація), HEVC масовий | AV1 широкомасштабний, VVC ранній, HEVC‑SCC |
| Аудіо | AAC, MP3, FLAC | Opus, ALAC відкритий, зростання FLAC | Opus 1.3, MPEG‑H 3D Audio |
| Документи | PDF 1.7, ODF 1.2 | PDF 2.0, OOXML 2016, EPUB 3 | PDF 3.0 чернетка, ODF 1.4, EPUB 4 (чернетка) |
| Архіви | ZIP, RAR, 7z | Zstandard, Brotli, LZ4 | Zstd 1.5+, Brotli 1.1 |
| Великі дані | CSV, JSON, XML | Parquet, Arrow, Avro | Delta Lake, Iceberg, Feather v2 |
| 3D/AR | OBJ, FBX | glTF 2.0, USDZ | USD v23, glTF‑KTX2 (стиснені текстури) |
Якщо ви досі зберігаєте все у простому ZIP, настав час оновитися. Оберіть формат, який відповідає середовищу (хмара, мобільність, ШІ), і майбутнє вам подякує.
Tags: #file-formats #tech-history #cloud-native
Slug: file-formats-history-2010-2024