Kemas Kini Terakhir: 21 May, 2025

Tajuk - Apa Itu XML: Panduan Komprehensif

Apa Itu XML?

XML (Bahasa Penanda yang Diperluas) adalah bahasa penanda dan format fail yang digunakan untuk menyimpan, menghantar, dan membina semula data. Ia menyediakan pendekatan berstruktur untuk mengekod maklumat, menjadikannya boleh dibaca oleh manusia dan mesin.

Ciri-ciri Utama XML

1. Ditakrifkan oleh Standard Terbuka

  • Ditubuhkan oleh World Wide Web Consortium (W3C) pada tahun 1998 di bawah Spesifikasi XML 1.0.
  • Mengikuti peraturan ketat untuk memastikan data berstruktur dan mudah ditafsir.

2. Matlamat Reka Bentuk

  • XML direka dengan kesederhanaan, kebersamaan, dan kebolehgunaan merentasi pelbagai platform.
  • Menggunakan format berasaskan teks, menjadikannya mudah dibaca dan diedit.

3. Sokongan Unicode

  • XML menyokong Unicode, membolehkan ia menyimpan dan memproses teks dalam pelbagai bahasa.

4. Kebolehsuaian

  • Pada mulanya dicipta untuk dokumen, XML kini banyak digunakan untuk representasi data merentasi pelbagai domain, termasuk perkhidmatan web, API, dan fail konfigurasi.

5. Skema dan API

  • Struktur XML boleh ditakrifkan menggunakan Document Type Definition (DTD), XML Schema (XSD), atau Relax NG.
  • Pelbagai API, seperti DOM (Document Object Model) dan SAX (Simple API for XML), membolehkan pemprosesan XML.

6. Penggunaan Umum XML

  • Pertukaran data antara sistem yang berbeza (contoh, perkhidmatan web, API).
  • Fail konfigurasi dalam aplikasi perisian.
  • Menyimpan maklumat berstruktur (contoh, suapan RSS, grafik SVG, format dokumen seperti DOCX).
  • Pembangunan web (contoh, XHTML, SOAP, aplikasi berasaskan AJAX).

Sekarang anda tahu apa itu XML, pelajari cara membaca dan mengedit fail XML dengan panduan mesra pemula ini.

Gambaran Keseluruhan XML

1. Tujuan Utama XML: Serialisasi

Serialisasi dalam XML bermaksud:

  • Menyimpan data dalam format berstruktur.
  • Menghantar data antara sistem yang berbeza.
  • Membina semula data dalam bentuk yang boleh digunakan.

Apabila dua sistem perlu menukar maklumat, XML menyediakan format fail piawai untuk kebolehsambungan. Ia berfungsi sebagai “lingua franca” untuk pertukaran data berstruktur.

2. XML sebagai Bahasa Penanda

XML adalah bahasa penanda, yang bermaksud ia:

  • Menandakan data dengan tag untuk struktur yang jelas.
  • Menyusun maklumat secara hierarki.
  • Mengategorikan data dengan metadata.

Contoh:

<book>
    <title>XML Basics</title>
    <author>John Doe</author>
</book>

Di sini, <book>, <title>, dan <author> adalah tag yang mendefinisikan elemen data.

3. Skema XML (XSD) dan Pengesahan

Sebuah Skema XML (XSD) mendefinisikan peraturan struktur untuk dokumen XML.

Dokumen XML boleh menjadi:

  • Well-formed → Mengikuti peraturan sintaks asas (penyusunan yang betul, tag penutup yang tepat).
  • Valid → Mematuhi peraturan skema (elemen wajib, jenis data yang betul).

Contoh Peraturan XSD:

<xs:element name="title" type="xs:string"/>

Ini memastikan bahawa <title> mesti mengandungi nilai rentetan.

4. Jenis Media XML (RFC 7303)

IETF RFC 7303 mendefinisikan jenis media XML untuk penghantaran data:

  • application/xml → Data XML standard.
  • application/xml-external-parsed-entity → Entiti XML yang diparse.
  • application/xml-dtd → Dokumen DTD XML.

Untuk format berasaskan XML, akhiran +xml digunakan (contoh, image/svg+xml untuk imej SVG).

5. XML dalam Aplikasi Berjaringan (RFC 3470 / IETF BCP 70)

IETF BCP 70 (RFC 3470) menggariskan amalan terbaik untuk penggunaan XML dalam aplikasi berasaskan rangkaian, memastikan kebolehsambungan data yang lancar merentasi sistem.


Untuk bekerja dengan XML secara programatik, terokai penyelesai XML terbaik untuk Python, Java, dan JavaScript.

1. Aplikasi XML

XML adalah bahasa penanda fleksibel yang direka untuk pertukaran data melalui Internet. Sintaksnya telah mempengaruhi pelbagai format dokumen dan protokol komunikasi, menjadikannya teknologi asas dalam banyak industri.

Format Berasaskan XML Umum:

  • Suapan Web: RSS, Atom
  • Dokumen Pejabat: Office Open XML, OpenDocument
  • Grafik dan Model 3D: SVG, COLLADA
  • Teknologi Web: XHTML
  • Protokol Pertukaran Data: SOAP, XMPP
  • AJAX: Menggunakan XML untuk pertukaran data tak segerak

Standard Industri Menggunakan XML:

  • Penjagaan Kesihatan: HL7 (Health Level 7)
  • Industri Pelancongan: OpenTravel Alliance
  • Kewangan: FpML (Financial products Markup Language)
  • Hartaan & Pinjaman: MISMO
  • Pertukaran Data Kerajaan: National Information Exchange Model

XML dalam Sains:

Dalam meteorologi, XML digunakan untuk representasi data cuaca operasi mengikut standard IWXXM. Begitu juga, Darwin Information Typing Architecture (DITA) adalah standard XML yang banyak digunakan dalam penerbitan.


Untuk pelaksanaan praktikal, lihat tutorial kami tentang cara membaca dan mengedit XML dalam Python, Java, dan JavaScript.

2. Terminologi Utama dalam XML

Memahami terminologi teras dalam XML adalah penting untuk bekerja dengan dokumen XML secara berkesan.

Aksara

Dokumen XML adalah urutan aksara Unicode. XML 1.1 membenarkan hampir semua aksara Unicode, kecuali aksara Null (U+0000), yang dilarang keras.

Pemproses dan Aplikasi

  • Pemproses XML (atau parser) membaca dan menganalisis penanda XML.
  • Aplikasi menerima data berstruktur daripada pemproses dan bertindak ke atasnya.

Penanda dan Kandungan

XML membahagikan aksara kepada penanda dan kandungan:

  • Penanda: Termasuk elemen, atribut, dan entiti (contoh, <tag> dan &amp;).
  • Kandungan: Data sebenar dalam elemen.
  • Bahagian CDATA: Membenarkan teks yang tidak sepatutnya diparse sebagai penanda, dibungkus dalam <![CDATA[ ... ]]>.

Tag dan Elemen

  • Tag: Konstruksi penanda yang dibungkus dalam < >.
    • <section> (Tag mula)
    • </section> (Tag akhir)
    • <line-break /> (Tag elemen kosong)
  • Elemen: Komponen logik yang ditakrifkan oleh tag.
    • Contoh: <greeting>Hello, world!</greeting>

Atribut

Atribut menyediakan metadata untuk elemen menggunakan pasangan nama-nilai. Contoh:

<img src="image.jpg" alt="Description" />

src="image.jpg" dan alt="Description" adalah atribut bagi elemen <img>.

3. Aksara dan Penyingkiran dalam XML

Aksara Unicode Sah dalam XML

Dokumen XML hanya membenarkan aksara Unicode tertentu untuk memastikan parsing yang betul.

Aksara yang Dibenarkan dalam XML 1.0:

  • Aksara kawalan:
    • U+0009 (Tab)
    • U+000A (Baris Baru)
    • U+000D (Kembalian Kereta)
  • Aksara teks:
    • U+0020–U+D7FF
    • U+E000–U+FFFD
    • U+10000–U+10FFFF

Penambahbaikan XML 1.1:

  • Membenarkan semua aksara kawalan U+0001–U+001F tetapi memerlukan mereka ditandakan.
  • U+0000 (Aksara Null) tetap dilarang.

4. Pengekodan dalam XML

Pengekodan XML Umum:

XML menyokong pengekodan berasaskan Unicode, termasuk:

  • UTF-8 (Cadangan lalai)
  • UTF-16 (Mesti disokong oleh semua parser XML)
  • ASCII, ISO-8859-X (Pengekodan warisan)

Deklarasi Pengekodan dalam XML:

Header XML boleh menyatakan pengekodan:

<?xml version="1.0" encoding="UTF-8"?>

Jika tiada pengekodan dinyatakan, UTF-8 dianggap.
UTF-16 memerlukan BOM (Byte Order Mark) untuk pengesanan yang betul.

5. Menyingkirkan Aksara Khas dalam XML

Memandangkan sintaks XML menyimpan beberapa aksara, mereka mesti ditandakan untuk mengelakkan konflik.

Entiti XML Pratentu:

AksaraBentuk DitandakanContoh
< (Kurang daripada)&lt;I &lt;3 XMLI <3 XML
> (Lebih daripada)&gt;x &gt; yx > y
& (Ampersand)&amp;AT&amp;TAT&T
' (Petikan tunggal)&apos;"O&apos;Reilly"O’Reilly
" (Petikan berganda)&quot;She said &quot;hello&quot;She said “hello”

Rujukan Aksara Numerik:

Untuk aksara khas yang tidak dapat ditaip, gunakan rujukan numerik:

  • Desimal:
    &#20013;  <!-- Chinese character "中" -->
    
  • Heksadesimal:
    &#x4E2D;  <!-- Chinese character "中" -->
    
  • Contoh:
    <message>I &lt;3 J&#xF6;rg</message>
    
    Paparan: I <3 Jörg

Pengendalian Data Binari:

XML tidak menyokong data binari mentah. Sebaliknya, gunakan pengekodan Base64.

6. Komen dalam XML

Sintaks Komen XML:

<!-- This is a valid XML comment -->

Peraturan untuk Komen XML:

  • Tidak boleh muncul sebelum deklarasi XML.
  • Tidak boleh mengandungi -- (dua tanda hubung) di dalam komen.
  • Rujukan entiti diabaikan dalam komen.

Contoh:

<!-- This is a comment with < and & symbols -->

Kesimpulan

XML adalah teknologi penting untuk pertukaran data berstruktur, menyokong suapan web, dokumen pejabat, data saintifik, dan standard industri. Memahami terminologi utama XML, peraturan pengekodan, dan mekanisme penyingkiran memastikan dokumen XML yang berstruktur baik dan berfungsi dengan betul merentasi pelbagai sistem.

Dengan mengikuti amalan terbaik dalam pengekodan aksara dan penyingkiran, pembangun dapat mengelakkan ralat parsing dan memastikan keserasian dalam aplikasi berasaskan XML.