TL;DR
С 2010 года форматы файлов перешли от ориентированных на настольные компьютеры, проприетарных блобов к открытым, облачно‑нативным и готовым к ИИ контейнерам. Крупнейшие изменения:
- Хранилище с приоритетом облака — форматы теперь поддерживают потоковую передачу, частичное чтение и совместную работу в реальном времени (Google Docs, Office 365).
- Импульс открытых стандартов — бесплатные по роялти кодеки (AV1, AVIF, WebP) и форматы данных (Parquet, Arrow) доминируют, чтобы избежать привязки к поставщикам.
- Эффективность сжатия и пропускной способности — HEVC, AV1, JPEG‑XL, Zstandard и Brotli уменьшают размер файлов на 30‑60 %, сохраняя качество.
- Метаданные, безопасность и происхождение — более богатый XMP/EXIF, цифровые подписи и зашифрованные контейнеры защищают целостность и соответствуют нормативным требованиям.
- Готовые к ИИ, самодокументирующиеся структуры — TFRecord, Parquet и Arrow позволяют машинам читать данные без пользовательских парсеров, подпитывая конвейеры больших данных и задачи машинного обучения.
Почему последнее десятилетие имеет значение
Когда вы открывали файл в 2010 году, это обычно был статический, локальный артефакт: PDF, который вы печатали, JPEG, который отправляли по электронной почте, или ZIP, который хранили на жёстком диске. Перенесёмся в 2024 год, и тот же файл может находиться в облачном бакете, редактироваться одновременно десятками пользователей и содержать криптографическую подпись, подтверждающую его создателя. Эта трансформация обусловлена тремя макротрендами:
| Тренд | Влияние на форматы | Пример из реального мира |
|---|---|---|
| Настольный → Облачный‑нативный | Необходимость потокового чтения, частичных обновлений и совместных метаданных. | Google Docs хранит каждый документ в виде контейнера на основе JSON, который может редактироваться несколькими пользователями в реальном времени. |
| Открытый исходный код и открытый стандарт | Форматы становятся бесплатными по роялти, совместимыми и защищёнными от устаревания. | Видеокодек AV1 (бесплатный по роялти) теперь обеспечивает 4K‑стримы YouTube, заменяя дорогие лицензии H.264/HEVC. |
| Сжатие и пропускная способность | Более высокая эффективность для 4K/8K видео, HDR‑изображений и массивных наборов данных. | Фотографии в формате HEIC от Apple примерно вдвое меньше JPEG, увеличивая срок службы хранилища iPhone. |
Эти силы влияют на все области — документы, изображения, аудио, видео, архивы и контейнеры больших данных — заставляя стандартизационные организации (ISO, W3C, IETF, AOM) работать быстрее, чем когда‑либо.
Форматы документов и данных: от PDF к Parquet
Документы становятся защищёнными, поисковыми и мультимедийными
- PDF 2.0 (ISO 32000‑2, 2021) добавил более сильное шифрование, более богатый XMP‑метаданные и лучшую доступность. Он также представил PDF/A‑4 для долгосрочного архивирования с встроенным происхождением.
- Office Open XML (OOXML) успел за совместным редактированием в реальном времени в Office 365, внедряя облачно‑связанные ресурсы непосредственно в пакет файлов.
- OpenDocument Format (ODF) получил популярность в государственных учреждениях Европы благодаря требованиям ЕС к открытым, бесплатным по роялти стандартам.
- ePub 3.x превратил электронные книги в полноценные веб‑страницы (HTML5, MathML, аудио/видео), позволяя создавать интерактивные учебники и аудиокниги.
Конвейеры больших данных перешли к самодокументирующимся, колонковым контейнерам
- Parquet стал де‑факто форматом хранения для Spark, Hive и Presto, предоставляя предикатный push‑down и эффективное сжатие.
- Apache Arrow представил язык‑независимую, в‑памяти колонковую структуру, позволяющую обмениваться данными без копирования между Python, Java и Rust.
- Avro и ORC остаются популярными для потоковой обработки (Kafka) и нагрузок Hive соответственно, поскольку они хранят схему вместе с данными, упрощая их эволюцию.
Итог? Документ или набор данных может перемещаться между облаками, быть проиндексирован ИИ и сохранять полную аудиторскую трассу без проприетарных ограничений.
Изображения, аудио и видео: гонка за сжатием
Изображения — HDR, анимация и прогрессивное декодирование
- HEIF/HEIC (2015) использовал сжатие HEVC, чтобы уменьшить размер файлов JPEG вдвое, поддерживая 16‑битную глубину и HDR. Apple сделал его стандартным в iOS 11, продвигая экосистему к более широкому цветовому охвату.
- AVIF (2020‑2024), построенный на кодеке AV1, теперь обеспечивает снижение размера на 50 % по сравнению с JPEG при поддержке lossless и HDR. Chrome, Firefox и Android поставляются с нативными декодерами.
- JPEG‑XL (2022) обещает режимы lossless + lossy, прогрессивный рендеринг и превосходное сжатие по сравнению с WebP и AVIF, и уже используется Cloudflare для доставки изображений.
- WebP добавил анимацию, улучшения lossless и поддержку ICC‑профилей в версии 1.2, став предпочтительным форматом для веб‑графики в Chrome и Android.
Аудио — Низкая задержка и lossless‑стриминг
- Opus (RFC 6716, 2012) стал кодеком по умолчанию для WebRTC, Discord и Zoom, обеспечивая высококачественный голос при скорости менее 64 kbps и задержке менее 10 мс.
- FLAC пережил возрождение, когда премиум‑сервисы (Tidal, Qobuz) добавили уровни lossless, а ALAC стал бесплатным по роялти после того, как Apple открыл его исходный код в 2011 году.
- Новые MPEG‑H 3D Audio и Dolby Atmos ADM закладывают основу для файлов пространственного аудио, которые могут транслироваться вместе с видео.
Видео — От доминирования H.264 к бесплатному AV1
- HEVC/H.265 (2013) сократил битрейт примерно на 50 % по сравнению с H.264, позволяя стримить 4K и 8K при ограниченной пропускной способности.
- VP9 (2013) и AV1 (спецификация выпущена 2018, производство с 2020+) предложили бесплатные по роялти альтернативы; AV1 теперь поддерживается аппаратным ускорением на Intel Xe, Nvidia RTX 40 и Apple Silicon.
- HEVC‑SCC (2023) оптимизировал кодирование экранного контента для удалённых рабочих столов и облачных игр, уменьшая артефакты на тексте и элементах интерфейса.
- Конвергенция контейнеров: ISO‑BMFF (MP4) и WebM теперь оба поддерживают несколько кодеков, субтитры и HDR‑метаданные, упрощая адаптивный битрейт‑стриминг (MPEG‑DASH, HLS).
Во всех областях стремление к большему сжатию, HDR и бесплатным лицензиям изменило то, что мы можем передавать по мобильным сетям и какие устройства могут декодировать нативно.
Что дальше? Встроенные ИИ, приоритет происхождения и унифицированные контейнеры
- Форматы, готовые к ИИ — черновик PDF 3.0 (2024) предлагает встроенные графы вывода, позволяющие делать сканированный текст поисковым без отдельного OCR‑конвейера.
- Происхождение на основе блокчейна — проекты вроде файлов IPFS CAR встраивают хеши Merkle‑дерева, обеспечивая защиту от подделки при распределении научных данных и цифрового искусства.
- Контейнеры пространственного аудио — MPEG‑H 3D Audio и Dolby Atmos ADM переходят от вещания к потребительскому стримингу, требуя новых обёрток файлов, несущих объектные аудио‑метаданные.
- Концепции унифицированного медиа‑контейнера (UMC) — обсуждения в рабочей группе ISO‑BMFF направлены на создание единого контейнера, способного хранить видео, аудио, субтитры, 3D‑геометрию (glTF) и AR‑метаданные, уменьшая «жонглирование форматами» в иммерсивных опытах.
- Подписи постквантового уровня — ранние эксперименты встраивают подписи Dilithium или Falcon в PDF/A‑4 и ODF, готовя к будущему, где классические RSA/ECDSA могут быть уязвимы.
Для разработчиков и создателей контента вывод ясен: выбирайте открытые, самодокументирующиеся форматы уже сейчас. Их будет проще защищать, они будут дешевле в лицензировании и готовы к ИИ‑управляемым конвейерам, которые будут доминировать в следующем десятилетии.
Быстрый справочник (на первый взгляд)
| Область | 2010‑2015 | 2016‑2020 | 2021‑2024 |
|---|---|---|---|
| Изображения | JPEG, PNG, early WebP | HEIF/HEIC, AVIF (beta) | AVIF 1.1, JPEG‑XL, WebP 1.2 |
| Видео | H.264, VP8, early HEVC | VP9, AV1 (spec), HEVC mainstream | AV1 wide, VVC early, HEVC‑SCC |
| Аудио | AAC, MP3, FLAC | Opus, ALAC open‑source, FLAC growth | Opus 1.3, MPEG‑H 3D Audio |
| Документы | PDF 1.7, ODF 1.2 | PDF 2.0, OOXML 2016, EPUB 3 | PDF 3.0 draft, ODF 1.4, EPUB 4 (draft) |
| Архивы | ZIP, RAR, 7z | Zstandard, Brotli, LZ4 | Zstd 1.5+, Brotli 1.1 |
| Большие данные | CSV, JSON, XML | Parquet, Arrow, Avro | Delta Lake, Iceberg, Feather v2 |
| 3D/AR | OBJ, FBX | glTF 2.0, USDZ | USD v23, glTF‑KTX2 (compressed textures) |
Если вы всё ещё храните всё в виде простого ZIP, пора обновиться. Выберите формат, соответствующий среде (облако, мобильные устройства, ИИ), и будущее вас отблагодарит.
Tags: #file-formats #tech-history #cloud-native
Slug: file-formats-history-2010-2024