TL;DR

С 2010 года форматы файлов перешли от ориентированных на настольные компьютеры, проприетарных блобов к открытым, облачно‑нативным и готовым к ИИ контейнерам. Крупнейшие изменения:

  • Хранилище с приоритетом облака — форматы теперь поддерживают потоковую передачу, частичное чтение и совместную работу в реальном времени (Google Docs, Office 365).
  • Импульс открытых стандартов — бесплатные по роялти кодеки (AV1, AVIF, WebP) и форматы данных (Parquet, Arrow) доминируют, чтобы избежать привязки к поставщикам.
  • Эффективность сжатия и пропускной способности — HEVC, AV1, JPEG‑XL, Zstandard и Brotli уменьшают размер файлов на 30‑60 %, сохраняя качество.
  • Метаданные, безопасность и происхождение — более богатый XMP/EXIF, цифровые подписи и зашифрованные контейнеры защищают целостность и соответствуют нормативным требованиям.
  • Готовые к ИИ, самодокументирующиеся структуры — TFRecord, Parquet и Arrow позволяют машинам читать данные без пользовательских парсеров, подпитывая конвейеры больших данных и задачи машинного обучения.

Почему последнее десятилетие имеет значение

Когда вы открывали файл в 2010 году, это обычно был статический, локальный артефакт: PDF, который вы печатали, JPEG, который отправляли по электронной почте, или ZIP, который хранили на жёстком диске. Перенесёмся в 2024 год, и тот же файл может находиться в облачном бакете, редактироваться одновременно десятками пользователей и содержать криптографическую подпись, подтверждающую его создателя. Эта трансформация обусловлена тремя макротрендами:

ТрендВлияние на форматыПример из реального мира
Настольный → Облачный‑нативныйНеобходимость потокового чтения, частичных обновлений и совместных метаданных.Google Docs хранит каждый документ в виде контейнера на основе JSON, который может редактироваться несколькими пользователями в реальном времени.
Открытый исходный код и открытый стандартФорматы становятся бесплатными по роялти, совместимыми и защищёнными от устаревания.Видеокодек AV1 (бесплатный по роялти) теперь обеспечивает 4K‑стримы YouTube, заменяя дорогие лицензии H.264/HEVC.
Сжатие и пропускная способностьБолее высокая эффективность для 4K/8K видео, HDR‑изображений и массивных наборов данных.Фотографии в формате HEIC от Apple примерно вдвое меньше JPEG, увеличивая срок службы хранилища iPhone.

Эти силы влияют на все области — документы, изображения, аудио, видео, архивы и контейнеры больших данных — заставляя стандартизационные организации (ISO, W3C, IETF, AOM) работать быстрее, чем когда‑либо.


Форматы документов и данных: от PDF к Parquet

Документы становятся защищёнными, поисковыми и мультимедийными

  • PDF 2.0 (ISO 32000‑2, 2021) добавил более сильное шифрование, более богатый XMP‑метаданные и лучшую доступность. Он также представил PDF/A‑4 для долгосрочного архивирования с встроенным происхождением.
  • Office Open XML (OOXML) успел за совместным редактированием в реальном времени в Office 365, внедряя облачно‑связанные ресурсы непосредственно в пакет файлов.
  • OpenDocument Format (ODF) получил популярность в государственных учреждениях Европы благодаря требованиям ЕС к открытым, бесплатным по роялти стандартам.
  • ePub 3.x превратил электронные книги в полноценные веб‑страницы (HTML5, MathML, аудио/видео), позволяя создавать интерактивные учебники и аудиокниги.

Конвейеры больших данных перешли к самодокументирующимся, колонковым контейнерам

  • Parquet стал де‑факто форматом хранения для Spark, Hive и Presto, предоставляя предикатный push‑down и эффективное сжатие.
  • Apache Arrow представил язык‑независимую, в‑памяти колонковую структуру, позволяющую обмениваться данными без копирования между Python, Java и Rust.
  • Avro и ORC остаются популярными для потоковой обработки (Kafka) и нагрузок Hive соответственно, поскольку они хранят схему вместе с данными, упрощая их эволюцию.

Итог? Документ или набор данных может перемещаться между облаками, быть проиндексирован ИИ и сохранять полную аудиторскую трассу без проприетарных ограничений.


Изображения, аудио и видео: гонка за сжатием

Изображения — HDR, анимация и прогрессивное декодирование

  • HEIF/HEIC (2015) использовал сжатие HEVC, чтобы уменьшить размер файлов JPEG вдвое, поддерживая 16‑битную глубину и HDR. Apple сделал его стандартным в iOS 11, продвигая экосистему к более широкому цветовому охвату.
  • AVIF (2020‑2024), построенный на кодеке AV1, теперь обеспечивает снижение размера на 50 % по сравнению с JPEG при поддержке lossless и HDR. Chrome, Firefox и Android поставляются с нативными декодерами.
  • JPEG‑XL (2022) обещает режимы lossless + lossy, прогрессивный рендеринг и превосходное сжатие по сравнению с WebP и AVIF, и уже используется Cloudflare для доставки изображений.
  • WebP добавил анимацию, улучшения lossless и поддержку ICC‑профилей в версии 1.2, став предпочтительным форматом для веб‑графики в Chrome и Android.

Аудио — Низкая задержка и lossless‑стриминг

  • Opus (RFC 6716, 2012) стал кодеком по умолчанию для WebRTC, Discord и Zoom, обеспечивая высококачественный голос при скорости менее 64 kbps и задержке менее 10 мс.
  • FLAC пережил возрождение, когда премиум‑сервисы (Tidal, Qobuz) добавили уровни lossless, а ALAC стал бесплатным по роялти после того, как Apple открыл его исходный код в 2011 году.
  • Новые MPEG‑H 3D Audio и Dolby Atmos ADM закладывают основу для файлов пространственного аудио, которые могут транслироваться вместе с видео.

Видео — От доминирования H.264 к бесплатному AV1

  • HEVC/H.265 (2013) сократил битрейт примерно на 50 % по сравнению с H.264, позволяя стримить 4K и 8K при ограниченной пропускной способности.
  • VP9 (2013) и AV1 (спецификация выпущена 2018, производство с 2020+) предложили бесплатные по роялти альтернативы; AV1 теперь поддерживается аппаратным ускорением на Intel Xe, Nvidia RTX 40 и Apple Silicon.
  • HEVC‑SCC (2023) оптимизировал кодирование экранного контента для удалённых рабочих столов и облачных игр, уменьшая артефакты на тексте и элементах интерфейса.
  • Конвергенция контейнеров: ISO‑BMFF (MP4) и WebM теперь оба поддерживают несколько кодеков, субтитры и HDR‑метаданные, упрощая адаптивный битрейт‑стриминг (MPEG‑DASH, HLS).

Во всех областях стремление к большему сжатию, HDR и бесплатным лицензиям изменило то, что мы можем передавать по мобильным сетям и какие устройства могут декодировать нативно.


Что дальше? Встроенные ИИ, приоритет происхождения и унифицированные контейнеры

  • Форматы, готовые к ИИ — черновик PDF 3.0 (2024) предлагает встроенные графы вывода, позволяющие делать сканированный текст поисковым без отдельного OCR‑конвейера.
  • Происхождение на основе блокчейна — проекты вроде файлов IPFS CAR встраивают хеши Merkle‑дерева, обеспечивая защиту от подделки при распределении научных данных и цифрового искусства.
  • Контейнеры пространственного аудиоMPEG‑H 3D Audio и Dolby Atmos ADM переходят от вещания к потребительскому стримингу, требуя новых обёрток файлов, несущих объектные аудио‑метаданные.
  • Концепции унифицированного медиа‑контейнера (UMC) — обсуждения в рабочей группе ISO‑BMFF направлены на создание единого контейнера, способного хранить видео, аудио, субтитры, 3D‑геометрию (glTF) и AR‑метаданные, уменьшая «жонглирование форматами» в иммерсивных опытах.
  • Подписи постквантового уровня — ранние эксперименты встраивают подписи Dilithium или Falcon в PDF/A‑4 и ODF, готовя к будущему, где классические RSA/ECDSA могут быть уязвимы.

Для разработчиков и создателей контента вывод ясен: выбирайте открытые, самодокументирующиеся форматы уже сейчас. Их будет проще защищать, они будут дешевле в лицензировании и готовы к ИИ‑управляемым конвейерам, которые будут доминировать в следующем десятилетии.


Быстрый справочник (на первый взгляд)

Область2010‑20152016‑20202021‑2024
ИзображенияJPEG, PNG, early WebPHEIF/HEIC, AVIF (beta)AVIF 1.1, JPEG‑XL, WebP 1.2
ВидеоH.264, VP8, early HEVCVP9, AV1 (spec), HEVC mainstreamAV1 wide, VVC early, HEVC‑SCC
АудиоAAC, MP3, FLACOpus, ALAC open‑source, FLAC growthOpus 1.3, MPEG‑H 3D Audio
ДокументыPDF 1.7, ODF 1.2PDF 2.0, OOXML 2016, EPUB 3PDF 3.0 draft, ODF 1.4, EPUB 4 (draft)
АрхивыZIP, RAR, 7zZstandard, Brotli, LZ4Zstd 1.5+, Brotli 1.1
Большие данныеCSV, JSON, XMLParquet, Arrow, AvroDelta Lake, Iceberg, Feather v2
3D/AROBJ, FBXglTF 2.0, USDZUSD v23, glTF‑KTX2 (compressed textures)

Если вы всё ещё храните всё в виде простого ZIP, пора обновиться. Выберите формат, соответствующий среде (облако, мобильные устройства, ИИ), и будущее вас отблагодарит.

Tags: #file-formats #tech-history #cloud-native
Slug: file-formats-history-2010-2024