TL;DR
Nuo 2010 metų failų formatai perėjo nuo darbalaukio orientuotų, nuosavybinių „blobų“ iki atvirų, debesų natūralių ir AI pasiruošusių konteinerių. Didžiausi pokyčiai yra:
- Debesų pirmumo saugykla – formatai dabar palaiko srautų (streaming) skaitymą, dalinį skaitymą ir realaus laiko bendradarbiavimą (Google Docs, Office 365).
- Atvirų standartų dinamika – beroyalinių kodekų (AV1, AVIF, WebP) ir duomenų formatų (Parquet, Arrow) dominavimas, siekiant išvengti tiekėjo užrakinimo.
- Suspaudimo ir pralaidumo efektyvumas – HEVC, AV1, JPEG‑XL, Zstandard ir Brotli sumažina failų dydį 30‑60 %, išlaikydami kokybę.
- Metaduomenys, saugumas ir kilmės patikimumas – turtingesni XMP/EXIF, skaitmeniniai parašai ir šifruoti konteineriai apsaugo integralumą ir atitinka reguliacinius reikalavimus.
- AI pasiruošusios, savarankiškai aprašomos struktūros – TFRecord, Parquet ir Arrow leidžia mašinoms skaityti duomenis be specialių parserių, skatindami didžiųjų duomenų pipelines ir ML darbus.
Kodėl svarbus praėjęs dešimtmetis
Kai 2010 metais atidarėte failą, jis dažniausiai buvo statinis, vietinis artefaktas: PDF, kurį spausdinote, JPEG, kurį siuntėte el. paštu, arba ZIP, kurį saugojote kietajame diske. Peršokime į 2024 metus ir tas pats failas gali būti debesų saugykloje, redaguojamas vienu metu dešimtimų vartotojų ir turintis kriptografinį parašą, patvirtinantį, kas jį sukūrė. Šį pokytį lemia trys makro‑tendencijos:
| Tendencija | Įtaka formatams | Realus pavyzdys |
|---|---|---|
| Darbalaukis → Debesų natūralus | Reikia srautinio skaitymo, dalinių atnaujinimų ir bendradarbiaujančių metaduomenų. | Google Docs saugo kiekvieną dokumentą kaip JSON pagrindu sukurtą konteinerį, kurį galima redaguoti keliais vartotojais realiu laiku. |
| Atviro kodo ir atviro standarto | Formatai tampa beroyalinių, tarpusavyje suderinami ir ateičiai užtikrinti. | AV1 vaizdo kodekas (beroyalinis) dabar maitina YouTube 4K srautus, pakeičiant brangius H.264/HEVC licencijavimus. |
| Suspaudimas ir pralaidumas | Didesnis efektyvumas 4K/8K vaizdo, HDR vaizdų ir didžiulių duomenų rinkinių atžvilgiu. | Apple HEIC nuotraukos yra maždaug perpus mažesnės nei JPEG, prailginant iPhone saugojimo trukmę. |
Dokumentų ir duomenų formatai: Nuo PDF iki Parquet
Dokumentai tampa saugūs, ieškoma ir multimedija turtingi
- PDF 2.0 (ISO 32000‑2, 2021) pridėjo stipresnę kriptografiją, turtingesnius XMP metaduomenis ir geresnį prieinamumą. Taip pat pristatė PDF/A‑4 ilgalaikiam archyvavimui su įterptu kilmės patikimumu.
- Office Open XML (OOXML) išlaikė tempą su realaus laiko bendradarbiavimu Office 365, įterpdama debesų susietus išteklius tiesiai į failo paketą.
- OpenDocument Format (ODF) įgijo populiarumą Europos valstybiniuose administravimuose dėka ES reikalavimų atviriems, beroyaliniams standartams.
- ePub 3.x paverčia elektronines knygas pilnaverčiais tinklalapiais (HTML5, MathML, garsas/video), leidžiančiais interaktyvias vadovėles ir garso knygas.
Didžiųjų duomenų konvejeriai perėjo prie savarankiškai aprašomų, stulpelinėmis konteineriais
- Parquet tapo de‑facto saugojimo formatu Spark, Hive ir Presto, siūlydamas filtrų (predicate) stumdymą ir efektyvų suspaudimą.
- Apache Arrow pristatė kalbų nepriklausomą, atmintyje esantį stulpelinį išdėstymą, leidžiantį be kopijavimo duomenų mainus tarp Python, Java ir Rust.
- Avro ir ORC išlieka populiarūs srautų (Kafka) ir Hive darbo krūvių atveju, nes jie saugo schemą kartu su duomenimis, supaprastindami evoliuciją.
Vaizdai, garsas ir vaizdo įrašai: Suspaudimo lenktynės
Vaizdai – HDR, animacija ir progresinis dekodavimas
- HEIF/HEIC (2015) pasinaudojo HEVC suspaudimu, sumažindamas JPEG failų dydį perpus, palaikydamas 16‑bitų gylį ir HDR. Apple padarė jį numatytuoju iOS 11, skatindamas ekosistemą link platesnio spektro nuotraukų.
- AVIF (2020‑2024), sukurtas ant AV1 kodeko, dabar siūlo 50 % dydžio sumažėjimą lyginant su JPEG, su beprarastiniu ir HDR palaikymu. Chrome, Firefox ir Android visi turi natūralius dekoderius.
- JPEG‑XL (2022) žada beprarastinius ir prarastinius režimus, progresinį atvaizdavimą ir geresnį suspaudimą nei WebP ir AVIF, ir jau naudojamas Cloudflare vaizdų pristatyme.
- WebP pridėjo animaciją, beprarastinius patobulinimus ir ICC profilio palaikymą 1.2 versijoje, tapdamas pagrindiniu formatu žiniatinklio grafikams Chrome ir Android.
Garsas – Žemas vėlavimas ir beprarastinis srautas
- Opus (RFC 6716, 2012) tapo numatytuoju kodeku WebRTC, Discord ir Zoom, teikdamas aukštos kokybės balsą su mažesniu nei 64 kbps srautu ir mažesniu nei 10 ms vėlavimu.
- FLAC patyrė atgimimą, kai premium paslaugos (Tidal, Qobuz) pridėjo beprarastinius lygius, o ALAC tapo beroyaliniu po to, kai Apple atvėrė jo šaltinį 2011 metais.
- Kylančios MPEG‑H 3D Audio ir Dolby Atmos ADM kuria pagrindą erdvinio garso failams, kuriuos galima transliuoti kartu su vaizdu.
Vaizdo įrašai – Nuo H.264 dominavimo iki beroyalinio AV1
- HEVC/H.265 (2013) sumažino bitų spartos iki ~50 % lyginant su H.264, leidžiant 4K ir 8K srautus riboto pralaidumo sąlygomis.
- VP9 (2013) ir AV1 (specifikacija išleista 2018, gamybinis naudojimas nuo 2020+) pasiūlė beroyalinius alternatyvus; AV1 dabar turi aparatūrinį spartinimą Intel Xe, Nvidia RTX 40 ir Apple Silicon.
- HEVC‑SCC (2023) optimizavo ekrano turinio kodavimą nuotoliniams darbastaliams ir debesų žaidimams, sumažindamas artefaktus tekste ir UI elementuose.
- Konteinerių susijungimas: ISO‑BMFF (MP4) ir WebM dabar abu palaiko kelis kodekus, subtitrus ir HDR metaduomenis, supaprastindami adaptacinio bitų spartos srautus (MPEG‑DASH, HLS).
Kas toliau? AI integruoti, pirmiausia kilmės patikimumas ir vieningi konteineriai
- AI pasiruošę formatai – Bandomasis PDF 3.0 (2024) siūlo įterptas inferencijos grafikas, leidžiančias ieškoti nuskenuotų tekstų be atskirų OCR procesų.
- Blokų grandinės pagrįstas kilmės patikimumas – Projektai kaip IPFS CAR failai įterpia Merkle medžio maišas, suteikdami galimybę nepakitimo įrodymui skirstyti mokslinius duomenis ir skaitmeninį meną.
- Erdvinio garso konteineriai – MPEG‑H 3D Audio ir Dolby Atmos ADM pereina nuo transliacijos prie vartotojų srautų, reikalaujant naujų failų apvalkų, nešančių objektų pagrįstus garso metaduomenis.
- Vieningo medijos konteinerio (UMC) koncepcijos – Diskusijos ISO‑BMFF darbo grupėje siekia sukurti vieną konteinerį, galintį talpinti vaizdo įrašus, garsą, subtitrus, 3D geometriją (glTF) ir AR metaduomenis, sumažinant „formatų šokinėjimą“ įtraukiančiose patirtyse.
- Po‑kvantinės parašų technologijos – Ankstyvi eksperimentai įterpia Dilithium arba Falcon parašus į PDF/A‑4 ir ODF, ruošiant ateitį, kai tradiciniai RSA/ECDSA gali būti pažeidžiami.
Greita informacijos lapelis (Apžvalga)
| Sritis | 2010‑2015 | 2016‑2020 | 2021‑2024 |
|---|---|---|---|
| Vaizdai | JPEG, PNG, early WebP | HEIF/HEIC, AVIF (beta) | AVIF 1.1, JPEG‑XL, WebP 1.2 |
| Vaizdo įrašai | H.264, VP8, early HEVC | VP9, AV1 (spec), HEVC mainstream | AV1 wide, VVC early, HEVC‑SCC |
| Garsas | AAC, MP3, FLAC | Opus, ALAC open‑source, FLAC growth | Opus 1.3, MPEG‑H 3D Audio |
| Dokumentai | PDF 1.7, ODF 1.2 | PDF 2.0, OOXML 2016, EPUB 3 | PDF 3.0 draft, ODF 1.4, EPUB 4 (draft) |
| Archyvai | ZIP, RAR, 7z | Zstandard, Brotli, LZ4 | Zstd 1.5+, Brotli 1.1 |
| Didieji duomenys | CSV, JSON, XML | Parquet, Arrow, Avro | Delta Lake, Iceberg, Feather v2 |
| 3D/AR | OBJ, FBX | glTF 2.0, USDZ | USD v23, glTF‑KTX2 (compressed textures) |
Jei vis dar viską saugote kaip paprastą ZIP, laikas atnaujinti. Pasirinkite formatą, atitinkantį terpę (debesis, mobilus, AI), ir ateitis jums padėks.
Tags: #file-formats #tech-history #cloud-native
Slug: file-formats-history-2010-2024