Важные форматы файлов в 2020 году: Что должен знать каждый создатель, разработчик и специалист по данным

TL;DR – 2020 год стал годом более лёгких, умных и открытых форматов файлов. Трафик, ориентированный на мобильные устройства, 5G и облачное сотрудничество привели к появлению новых стандартов сжатия (WebP, AVIF, AV1) и колонных хранилищ данных (Parquet, ORC). PDF оставались королём статических документов, а Markdown, JSON и ONNX стали лингва‑франка для разработчиков и AI‑конвейеров.


Введение

Если вы всё ещё использовали те же типы файлов, которые изучали в 2010 году, 2020 год, вероятно, ощущался как сейсмический сдвиг. Более 70 % веб‑трафика теперь приходилось на смартфоны, 5G сделала потоковое вещание в высоком разрешении реальностью, а облачные пакеты превратили «живое редактирование» в рабочий процесс по умолчанию. Всё это давление заставило индустрию принимать форматы, которые меньше, быстрее и более совместимы. Ниже — быстрый обзор форматов, определивших год, почему они важны и где вы, скорее всего, увидите их снова в 2021‑24.


1. Форматы документов и текста — от PDF к Markdown

ФорматСостояние в 2020Почему это важноТипичные сценарии использования
PDF (ISO 32000‑2 / PDF 2.0)По‑прежнему де‑факто стандарт для печатных статических документов.Лучшие возможности доступности, цифровые подписи и поддержка встроенного 3‑D, видео и интерактивных форм.Контракты, электронные счета, государственные формы, электронные книги.
DOCX / ODTDOCX доминирует в корпоративных средах; ODT занимает около 5 % рынка.Open‑XML — это ZIP‑контейнер XML + медиа, позволяющий детальное отслеживание изменений и безопасность без макросов. ODT является бесплатным от роялти и предпочитается открытыми пакетами.Обработка текстов, совместное редактирование (OneDrive, Nextcloud).
EPUB 3.2Рост продаж электронных книг на 12 %; EPUB 3.2 стал рекомендованным стандартом.Повторно использует HTML5, CSS3, SVG; поддерживает аудио, видео, MathML; не зависит от DRM.Электронные книги, цифровые учебники, интерактивные публикации.
Markdown (.md)Взрывной рост в документации разработчиков, статических генераторах сайтов (Jekyll, Hugo).Простой текст, читаемый людьми, лёгкое преобразование в HTML/PDF; расширяемый с помощью GitHub‑Flavored Markdown (GFM).Файлы README, блоги, техническая документация.

Форматы живого редактирования (Google Docs, Office Online) всё ещё существуют как проприетарные JSON‑блоки в облаке, но все они экспортируются в PDF/DOCX для долгосрочного архивирования.

Быстрый совет

Если вам нужен документ, который выдержит десятилетие изменений программного обеспечения, экспортируйте в PDF 2.0. Для совместного написания сохраняйте исходник в Google Docs или Office Online, а затем архивируйте финальную версию в PDF или DOCX.


2. Изображения, видео и аудио — гонка за сжатием

Изображения

ФорматАктуальность в 2020Ключевые преимущества
JPEGБолее 80 % веб‑изображений.Базовое сжатие с потерями DCT, универсальная поддержка.
PNGПредпочтителен для без потерь UI‑элементов.Сжатие Deflate, альфа‑канал, без патентов.
WebPИспользование выросло примерно на 30 % год к году (Chrome 86+).На 26 % меньше JPEG при сопоставимом качестве; поддерживает анимацию и прозрачность.
HEIF/HEICПринят в iOS 11+ и Android 9+.Сокращение размера до 50 % по сравнению с JPEG; основан на внутрикадровом кодировании HEVC.
AVIF (emerging)Поддерживается браузерами‑ранними адаптерами (Firefox 78, Chrome 85).Основан на AV1, обеспечивает на 30‑50 % лучшее сжатие, чем WebP, готов к HDR.

Вывод: Веб движется к бесплатным от роялти, оптимизированным для веб форматом — WebP уже стал мейнстримом, а AVIF готов заменить JPEG для изображений высокого качества при низкой пропускной способности.

Видео и анимация

ФорматОбзор в 2020Основные моменты
MP4 (ISO Base Media File Format)≈ 95 % потоковых доставок.Поддерживает H.264/AVC, H.265/HEVC, AAC; работает с DASH и HLS.
MKV (Matroska)Набирает популярность для контента 4K/HDR.Неограниченное количество дорожек, субтитров, глав; без лицензионных отчислений.
WebMПо умолчанию для HTML5 <video> в Chrome/Firefox.Видео VP9 + аудио Opus, без роялти, потоковое вещание с низким битрейтом.
AV1 (inside .mkv/.mp4)Netflix и YouTube начали экспериментальные потоки AV1.На 30‑50 % лучшее сжатие, чем HEVC; без патентных пулов.
HEVC (H.265)По‑прежнему доминирует для 4K/UHD Blu‑ray и некоторых OTT‑сервисов.Сокращение битрейта на 50 % по сравнению с H.264; сложность лицензирования ограничивает использование в вебе.

Пример из реального мира: Netflix начал доставлять титры, закодированные в AV1, в 2020 году, сократив пропускную способность для потоков 4K HDR примерно на треть.

Аудио

ФорматПозиция в 2020Основные моменты
MP3Более 70 % потребительских аудиотек (устаревшее).128‑320 kbps, универсальная поддержка аппаратуры.
AACПредпочтителен для потокового вещания по запросу (Spotify, Apple Music).Лучшее качество при том же битрейте, что и MP3.
OpusБыстрое принятие в WebRTC, Discord, подкастах.Низкая задержка, переменный битрейт 6‑510 kbps; превосходен для речи и музыки.
FLACРост на 15 % год к году на рынке аудио высокого разрешения.Без потерь, открытый исходный код, богатые метаданные.
ALACНишевый, привязан к экосистеме Apple.Та же компрессия, что и FLAC, но в контейнере .m4a.

Итог: Opus — выбор для общения в реальном времени, AAC — для потоковой музыки, а FLAC/ALAC — для архивного аудио.


3. Данные и обмен — от CSV к колонным озерам

ФорматПочему это важно в 2020Типичные сценарии
CSVПо‑прежнему самый простой формат обмена данными; более 50 % импортов/экспортов.Экспорт из таблиц, быстрые ETL‑задачи.
JSONДоминирует в публичных веб‑API (≈ 85 %).REST‑сервисы, файлы конфигураций, NoSQL (MongoDB).
XMLУменьшается в новых API, но укоренён в корпоративных системах (SOAP, Office Open XML).Устаревшие системы, отраслевые стандарты (HL7, XBRL).
ParquetКолонное хранилище для больших данных; сокращение размера на 30 % по сравнению с CSV.Озёра данных, аналитические конвейеры Spark/Hive.
ORCКонкурирует с Parquet; предпочитается Hive/Presto.Пакетная обработка в больших масштабах.
AvroУдобен для эволюции схем; используется с Kafka.Потоковая обработка в реальном времени, событие‑ориентированное хранение.
Protocol BuffersКомпактный бинарный формат для gRPC.Микросервисы с высокой производительностью.
GeoJSONСтандарт для GIS‑данных в вебе.Картографические приложения, сервисы, основанные на местоположении.

Ключевые концепции для запоминания

  • Эволюция схем — Avro и Parquet позволяют добавлять поля без нарушения downstream‑задач.
  • Самоописывающийся vs. бинарный — JSON/XML читаемы человеком; Protobuf/Avro компактны, но требуют файл схемы.
  • Колонный макет — Отлично подходит для аналитических запросов, так как читаются только необходимые колонки с диска.

Совет: При построении озера данных храните сырой ввод в виде Parquet (или ORC) и сохраняйте копию JSON для быстрой инспекции.


4. Перспективные и нишевые форматы, за которыми стоит следить

ФорматОсновные моменты 2020
ONNXБолее 30 % новых моделей глубокого обучения экспортировались в 2020 году; обеспечивает переносимость между фреймворками.
Brotli (.br)70 % трафика Chrome сжато Brotli для HTML/CSS/JS.
SVGПолная поддержка браузерами; предпочтительный формат для адаптивных иконок и визуализации данных.
GLTF/GLB«JPEG 3‑D»; набирает популярность для веб‑AR/VR (Sketchfab, Babylon.js).
Zstandard (zstd)Быстрое, высокоэффективное сжатие; принято для образов контейнеров и патчей ядра Linux.
HEVC‑based containers (HEIF/HEIC, MP4)По‑прежнему обременены патентами, но доминируют в мобильной фотосъёмке и 4K‑видео.

Эти форматы ещё не являются универсальными, но они являются площадкой для ранних adopters, где появятся следующие крупные стандарты.


5. Общие тенденции во всех категориях

  1. Открытый исходный код и отсутствие роялти — WebP → AVIF, AV1, Opus, Brotli, Parquet.
  2. Эффективность сжатия — сокращение размера на 30‑50 % теперь конкурентное преимущество для мобильных устройств и потокового вещания.
  3. Метаданные и доступность — PDF 2.0, EPUB 3.2 и HEIF добавляют более богатые теги, подписи и цветовые профили.
  4. Кроссплатформенная совместимость — облачные JSON‑блоки (Google Docs) экспортируются в универсально читаемые форматы.
  5. Безопасность и происхождение — цифровые подписи (PDF‑DS), зашифрованный ZIP‑AES и подписанные JWT становятся обязательными для соответствия.
  6. Данные, готовые к ИИ — колонные, поддерживающие эволюцию схем форматы (Parquet, ORC) и обмен моделями (ONNX) являются ядром современных конвейеров data‑science.

Заключение

2020 год заставил экосистему форматов файлов перейти от «просто выполнить задачу» к «выполнить её эффективно, безопасно и с учётом будущего». Ориентированное на мобильные устройства потребление, пропускная способность 5G и облачное сотрудничество сделали размер, скорость и открытость новой святой троицей. Независимо от того, являетесь ли вы маркетологом, экспортирующим PDF, разработчиком, пишущим документы в Markdown, инженером данных, создающим lakehouse, или видеопродюсером, транслирующим 4K, выбранные вами форматы определят, сколько вы будете платить за пропускную способность, насколько легко будет сотрудничать и сохранятся ли ваши активы в течение следующих пяти лет.

Итог: Применяйте бесплатные от роялти, эффективно сжимающие форматы (WebP, AVIF, AV1, Parquet, Opus) для новой работы, но сохраняйте надёжный путь экспорта к проверенным стандартам (PDF, JPEG, MP4, CSV) для архивирования и совместимости.


Tags: file-formats 2020-tech-trends digital-media

Slug: important-file-formats-2020