Proses Perpindahan Data (ETL, ELT, dan Data Pipelines)

—

Definisi: Proses otomatis untuk mengubah data mentah menjadi data siap analisis.
Tahapan:
1. Extract:
  - Mengumpulkan data dari sumber (misalnya, database, aplikasi, cloud).
  - Metode Ekstraksi:
    - Batch Processing: Data dipindahkan dalam jumlah besar pada interval terjadwal.
      - Contoh Tools: Stitch, Blendo.
    - Stream Processing: Data diproses secara real-time saat dalam perjalanan.
      - Contoh Tools: Apache Samza, Apache Storm, Apache Kafka.
2. Transform:
  - Membersihkan, memformat, dan mengubah data agar sesuai untuk analisis.
  - Contoh Transformasi:
    - Menyeragamkan format tanggal dan satuan ukuran.
    - Menghapus data duplikat.
    - Memfilter data yang tidak diperlukan.
    - Memperkaya data (misalnya, memisahkan nama lengkap menjadi nama depan, tengah, dan belakang).
    - Menetapkan hubungan antar tabel.
3. Load:
  - Memuat data yang sudah diproses ke sistem tujuan (misalnya, data warehouse).
  - Jenis Load:
    - Initial Loading: Memuat semua data ke repositori.
    - Incremental Loading: Memperbarui data secara berkala.
    - Full Refresh: Menghapus dan memuat ulang data segar.
  - Verifikasi Load: Memeriksa data yang hilang, null, atau kegagalan load.
Use Case: Cocok untuk data terstruktur dan batch processing.
Contoh Tools: IBM Infosphere, AWS Glue, Informatica PowerCenter.

Definisi: Variasi ETL di mana data diekstrak, dimuat ke sistem tujuan, lalu ditransformasi di sana.
Perbedaan dengan ETL:
- Transformasi dilakukan di sistem tujuan (biasanya data lake atau data warehouse).
- Lebih fleksibel untuk data tidak terstruktur dan non-relasional.
Keunggulan:
- Siklus ekstraksi dan pengiriman lebih cepat.
- Cocok untuk data besar (Big Data) dan data lake.
- Analis dan ilmuwan data dapat melakukan eksplorasi data lebih bebas.
- Transformasi hanya dilakukan untuk data yang diperlukan.
Use Case: Ideal untuk data lake dan analitik eksploratif.

Definisi: Istilah umum yang mencakup seluruh perjalanan data dari sumber ke tujuan.
- ETL dan ELT adalah bagian dari data pipeline.
Karakteristik:
- Dapat dirancang untuk batch processing, streaming data, atau kombinasi keduanya.
- Streaming Data: Data diproses secara terus-menerus (misalnya, data dari sensor lalu lintas).
- Mendukung query batch jangka panjang dan query interaktif kecil.
Tujuan: Memuat data ke berbagai sistem tujuan (data lake, aplikasi, tools visualisasi).
Contoh Tools: Apache Beam, AirFlow, DataFlow.

Aspek	ETL	ELT	Data Pipelines
Proses	Extract → Transform → Load	Extract → Load → Transform	Perjalanan data dari sumber ke tujuan
Tujuan Utama	Data terstruktur, batch processing	Data tidak terstruktur, Big Data	Mendukung batch dan streaming data
Fleksibilitas	Kurang fleksibel	Lebih fleksibel	Sangat fleksibel
Use Case	Data warehouse, analitik tradisional	Data lake, analitik eksploratif	Berbagai skenario (batch/streaming)
Contoh Tools	IBM Infosphere, AWS Glue	–	Apache Beam, AirFlow

ETL: Cocok untuk data terstruktur dan batch processing.
ELT: Ideal untuk data tidak terstruktur dan Big Data, terutama di data lake.
Data Pipelines: Mencakup seluruh proses perpindahan data, mendukung batch dan streaming.
Pemilihan metode tergantung pada jenis data, tujuan analitik, dan infrastruktur yang tersedia.

Comments