Pēdējoreiz atjaunināts: 21 May, 2025

Virsraksts - Kas ir XML: Visaptverošs ceļvedis

Kas ir XML?

XML (Paplašināmā marķēšanas valoda) ir marķēšanas valoda un faila formāts, ko izmanto datu glabāšanai, pārraidei un atjaunošanai. Tas nodrošina strukturētu pieeju informācijas kodēšanai, padarot to gan cilvēkiem, gan mašīnām saprotamu.

XML galvenās funkcijas

1. Definēts atvērtos standartos

  • Izveidoja World Wide Web Consortium (W3C) 1998. gadā saskaņā ar XML 1.0 specifikāciju.
  • Sekojot stingriem noteikumiem, nodrošina, ka dati ir strukturēti un viegli interpretējami.

2. Dizaina mērķi

  • XML ir izstrādāts ar vienkāršību, vispārīgumu un lietojamību dažādās platformās.
  • Izmanto teksta balstītu formātu, kas ļauj to viegli lasīt un rediģēt.

3. Unicode atbalsts

  • XML atbalsta Unicode, ļaujot saglabāt un apstrādāt tekstu daudzās valodās.

4. Daudzpusība

  • Sākotnēji radīts dokumentiem, XML tagad plaši tiek izmantots datu attēlošanai dažādās jomās, tostarp tīmekļa pakalpojumos, API un konfigurācijas failos.

5. Shēmas un API

  • XML struktūras var definēt, izmantojot Document Type Definition (DTD), XML Schema (XSD) vai Relax NG.
  • Dažādi API, piemēram, DOM (Document Object Model) un SAX (Simple API for XML), ļauj apstrādāt XML.

6. Biežākie XML lietojumi

  • Datu apmaiņa starp dažādām sistēmām (piemēram, tīmekļa pakalpojumi, API).
  • Konfigurācijas faili programmatūras lietojumprogrammās.
  • Strukturētas informācijas glabāšana (piemēram, RSS plūsmas, SVG grafika, dokumentu formāti kā DOCX).
  • Tīmekļa izstrāde (piemēram, XHTML, SOAP, AJAX balstītas lietojumprogrammas).

Tagad, kad jūs zināt, kas ir XML, uzziniet, kā lasīt un rediģēt XML failus ar šo iesācēju draudzīgo ceļvedi.

XML pārskats

1. XML galvenais mērķis: Serializācija

Serializācija XML nozīmē:

  • Datu glabāšana strukturētā formātā.
  • Datu pārraide starp dažādām sistēmām.
  • Datu atjaunošana lietojamā formā.

Kad divām sistēmām jāapmainās ar informāciju, XML nodrošina standardizētu faila formātu savietojamībai. Tas darbojas kā “lingua franca” strukturētai datu apmaiņai.

2. XML kā marķēšanas valoda

XML ir marķēšanas valoda, kas:

  • Marķē datus ar tagiem, lai nodrošinātu skaidru struktūru.
  • Organizē informāciju hierarhiskā veidā.
  • Kategorizē datus ar metadatiem.

Piemērs:

<book>
    <title>XML Basics</title>
    <author>John Doe</author>
</book>

Šeit <book>, <title> un <author> ir tagi, kas definē datu elementus.

3. XML shēma (XSD) un validācija

XML shēma (XSD) nosaka strukturālus noteikumus XML dokumentiem.

XML dokumenti var būt:

  • Labi veidoti → Atbilst pamata sintakses noteikumiem (pareiza ligzdošana, pareizi aizvērti tagi).
  • Derīgi → Atbilst shēmas noteikumiem (obligāti elementi, pareizi datu tipi).

XSD noteikuma piemērs:

<xs:element name="title" type="xs:string"/>

Tas nodrošina, ka <title> jābūt virknes vērtībai.

4. XML mediju tipi (RFC 7303)

IETF RFC 7303 nosaka XML mediju tipus datu pārraidei:

  • application/xml → Standarta XML dati.
  • application/xml-external-parsed-entity → Parsēti XML vienumi.
  • application/xml-dtd → XML DTD dokumenti.

XML‑balstīti formāti izmanto +xml sufiksu (piemēram, image/svg+xml priekš SVG attēliem).

5. XML tīkla lietojumprogrammās (RFC 3470 / IETF BCP 70)

IETF BCP 70 (RFC 3470) izklāsta labākās prakses XML lietošanai tīkla balstītās lietojumprogrammās, nodrošinot nevainojamu datu savietojamību starp sistēmām.


Lai programmatiski strādātu ar XML, izpētiet labākos XML parsētājus Python, Java un JavaScript.

1. XML lietojumi

XML ir elastīga marķēšanas valoda, kas paredzēta datu apmaiņai internetā. Tās sintakse ir ietekmējusi daudzus dokumentu formātus un komunikācijas protokolus, padarot to par pamata tehnoloģiju daudzās nozarēs.

Bieži izmantotie XML balstītie formāti:

  • Tīmekļa plūsmas: RSS, Atom
  • Biroja dokumenti: Office Open XML, OpenDocument
  • Grafika un 3D modeļi: SVG, COLLADA
  • Tīmekļa tehnoloģijas: XHTML
  • Datu apmaiņas protokoli: SOAP, XMPP
  • AJAX: Izmanto XML asinhronai datu apmaiņai

Nozares standarti, kas izmanto XML:

  • Veselības aprūpe: HL7 (Health Level 7)
  • Ceļojumu nozare: OpenTravel Alliance
  • Finanses: FpML (Financial products Markup Language)
  • Nekustamais īpašums & Hipotēkas: MISMO
  • Valdības datu apmaiņa: National Information Exchange Model

XML zinātnē:

Meteoroloģijā XML tiek izmantots operatīvās laika prognožu datu attēlošanai, ievērojot IWXXM standartus. Līdzīgi, Darwin Information Typing Architecture (DITA) ir plaši izmantots XML standarts publicēšanā.


Praktiskai īstenošanai apskatiet mūsu pamācību par kā lasīt un rediģēt XML Python, Java un JavaScript.

2. Galvenie termini XML

Izpratne par galvenajiem terminiem XML ir būtiska, lai efektīvi strādātu ar XML dokumentiem.

Rakstzīme

XML dokuments ir Unicode rakstzīmju secība. XML 1.1 ļauj gandrīz visas Unicode rakstzīmes, izņemot Null rakstzīmi (U+0000), kas ir stingri aizliegta.

Procesors un lietojumprogramma

  • XML procesors (vai parsētājs) lasa un analizē XML marķējumu.
  • Lietojumprogramma saņem strukturētus datus no procesora un tos apstrādā.

Marķējums un saturs

XML sadala rakstzīmes marķējumā un saturā:

  • Marķējums: Ietver elementus, atribūtus un entītijas (piemēram, <tag> un &amp;).
  • Saturs: Patiesie dati elementu iekšienē.
  • CDATA sekcijas: Ļauj tekstu, kas nav jāparsē kā marķējums, ietverot <![CDATA[ ... ]]>.

Tagi un elementi

  • Tagi: Marķējuma konstrukcijas, kas ietvertas < >.
    • <section> (atvēršanas tags)
    • </section> (aizvēršanas tags)
    • <line-break /> (tukša elementa tags)
  • Elementi: Loģiski komponenti, ko definē tagi.
    • Piemērs: <greeting>Hello, world!</greeting>

Atribūti

Atribūti nodrošina metadatus elementiem, izmantojot nosaukuma‑vērtības pārus. Piemērs:

<img src="image.jpg" alt="Description" />

src="image.jpg" un alt="Description" ir <img> elementa atribūti.

3. Rakstzīmes un izvairīšanās XML

Atļautas Unicode rakstzīmes XML

XML dokumenti ļauj tikai noteiktas Unicode rakstzīmes, lai nodrošinātu pareizu parsēšanu.

Atļautas rakstzīmes XML 1.0:

  • Kontroles rakstzīmes:
    • U+0009 (Tabulācija)
    • U+000A (Rindas pāreja)
    • U+000D (Carriage Return)
  • Teksta rakstzīmes:
    • U+0020–U+D7FF
    • U+E000–U+FFFD
    • U+10000–U+10FFFF

XML 1.1 uzlabojumi:

  • Atļautas visas U+0001–U+001F kontroles rakstzīmes, bet tās jāizbēg.
  • U+0000 (Null rakstzīme) joprojām ir aizliegta.

4. Kodējums XML

Biežākie XML kodējumi:

XML atbalsta Unicode balstītus kodējumus, tostarp:

  • UTF-8 (ieteiktais noklusējums)
  • UTF-16 (jābūt atbalstītam visiem XML parsētājiem)
  • ASCII, ISO-8859-X (mantotie kodējumi)

Kodējuma deklarācija XML:

XML galvene var norādīt kodējumu:

<?xml version="1.0" encoding="UTF-8"?>
  • Ja kodējums nav norādīts, tiek pieņemts UTF-8.
  • UTF-16 prasa BOM (Byte Order Mark), lai to pareizi noteiktu.

5. Īpašu rakstzīmju izvairīšanās XML

Tā kā XML sintakse rezervē noteiktas rakstzīmes, tās jāizbēg, lai izvairītos no konfliktiem.

Iepriekšdefinētās XML entītijas:

RakstzīmeIzglabāta formaPiemērs
< (mazāk nekā)&lt;I &lt;3 XMLI <3 XML
> (lielāk nekā)&gt;x &gt; yx > y
& (ampersands)&amp;AT&amp;TAT&T
' (vienkāršais apostrofs)&apos;"O&apos;Reilly"O’Reilly
" (dubultais pēdiņas)&quot;She said &quot;hello&quot;She said “hello”

Skaitliskās rakstzīmju atsauces:

Ja īpašas rakstzīmes nevar ierakstīt, jāizmanto skaitliskās atsauces:

  • Decimālskaitlis:
    &#20013;  <!-- Chinese character "中" -->
    
  • Heksadecimāls:
    &#x4E2D;  <!-- Chinese character "中" -->
    
  • Piemērs:
    <message>I &lt;3 J&#xF6;rg</message>
    
    Attēlo kā: I <3 Jörg

Bināro datu apstrāde:

XML neatbalsta neapstrādātus bināros datus. Tā vietā jāizmanto Base64 kodējums.

6. Komentāri XML

XML komentāru sintakse:

<!-- This is a valid XML comment -->

XML komentāru noteikumi:

  • Nevar parādīties pirms XML deklarācijas.
  • Nevar saturēt -- (dubultās domuzīmes) komentāra iekšpusē.
  • Entītiju atsauces tiek ignorētas komentāros.

Piemērs:

<!-- This is a comment with < and & symbols -->

Secinājums

XML ir būtiska tehnoloģija strukturētai datu apmaiņai, kas nodrošina tīmekļa plūsmas, biroja dokumentus, zinātniskus datus un nozares standartus. Izprotot galvenos XML terminus, kodējuma noteikumus un izvairīšanās mehānismus, var izveidot labi veidotus XML dokumentus, kas darbojas pareizi dažādās sistēmās.

Izpildot labas prakses rakstzīmju kodēšanas un izvairīšanās jomā, izstrādātāji var novērst parsēšanas kļūdas un nodrošināt savietojamību XML balstītajās lietojumprogrammās.