Data Mining Repositories (Data Warehouse, Data Mart, Data Lake)


1. Tujuan Data Mining Repositories

  • Tujuan Umum: Menyimpan data untuk pelaporan, analisis, dan pengambilan insight.
  • Perbedaan: Tujuan, jenis data yang disimpan, dan cara mengakses data berbeda-beda tergantung jenis repositori.

2. Data Warehouse

  • Definisi: Repositori pusat yang mengintegrasikan data dari berbagai sumber.
  • Fitur:
    • Menyimpan data saat ini dan historis yang telah dibersihkan, disesuaikan, dan dikategorikan.
    • Data sudah dimodelkan dan terstruktur untuk tujuan analisis.
    • Sering menyimpan data relasional dari sistem transaksional (CRM, ERP, HR, Finance).
  • Arsitektur 3-Tier:
    1. Bottom Tier: Database server (relasional/non-relasional) untuk ekstraksi data.
    2. Middle Tier: OLAP Server untuk pemrosesan dan analisis data.
    3. Top Tier: Client front-end (tools untuk query, reporting, dan analisis).
  • Cloud-Based Data Warehouse:
    • Manfaat: Biaya lebih rendah, penyimpanan dan komputasi tak terbatas, skalabilitas pay-as-you-go, pemulihan bencana lebih cepat.
    • Contoh: Amazon RedShift, Google BigQuery, Snowflake, IBM Db2 Warehouse.
  • Use Case: Cocok untuk organisasi dengan data operasional besar yang perlu dianalisis secara cepat.

3. Data Mart

  • Definisi: Sub-bagian dari data warehouse yang dibangun untuk fungsi bisnis tertentu atau kelompok pengguna.
    • Contoh: Data mart untuk tim sales atau finance.
  • Jenis Data Mart:
    1. Dependent Data Mart: Bagian dari data warehouse, data sudah dibersihkan dan ditransformasi.
    2. Independent Data Mart: Dibuat dari sumber selain data warehouse (sistem operasional internal atau data eksternal).
    3. Hybrid Data Mart: Menggabungkan input dari data warehouse, sistem operasional, dan sumber eksternal.
  • Tujuan:
    • Menyediakan data yang relevan untuk pengguna.
    • Mempercepat proses bisnis dengan respons yang efisien.
    • Menghemat biaya dan waktu dalam pengambilan keputusan berbasis data.
    • Meningkatkan keamanan dan kontrol akses.

4. Data Lake

  • Definisi: Repositori yang menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam format aslinya.
  • Perbedaan dengan Data Warehouse:
    • Data warehouse: Data sudah dibersihkan dan dimodelkan untuk tujuan tertentu.
    • Data lake: Data disimpan dalam format mentah, tanpa perlu mendefinisikan struktur atau skema sebelumnya.
  • Fitur:
    • Data diklasifikasikan, dilindungi, dan diatur dengan baik meskipun dalam format mentah.
    • Menggabungkan berbagai teknologi untuk eksplorasi data yang agile.
    • Dapat di-deploy menggunakan Cloud Object Storage (Amazon S3) atau sistem terdistribusi (Apache Hadoop).
  • Manfaat:
    • Menyimpan semua jenis data (unstructured, semi-structured, structured).
    • Skalabilitas tinggi (dari terabyte ke petabyte).
    • Menghemat waktu karena tidak perlu mendefinisikan struktur atau transformasi awal.
    • Fleksibilitas untuk menggunakan data dalam berbagai use case di masa depan.
  • Contoh Vendor: Amazon, Cloudera, Google, IBM, Microsoft, Snowflake.

5. Perbandingan Data Warehouse, Data Mart, dan Data Lake

AspekData WarehouseData MartData Lake
TujuanAnalisis data terstrukturAnalisis untuk fungsi bisnis tertentuPenyimpanan data mentah untuk berbagai use case
Jenis DataTerstruktur (relasional)TerstrukturTerstruktur, semi-terstruktur, tidak terstruktur
SkemaSudah dimodelkan dan terstrukturSudah dimodelkanTanpa skema (schema-less)
Use CasePelaporan dan analisis bisnisAnalisis departemen tertentuEksplorasi data, analisis fleksibel
Contoh ToolsAmazon RedShift, SnowflakeSub-bagian dari data warehouseAmazon S3, Hadoop, Cloudera

6. Kesimpulan

  • Data Warehouse: Cocok untuk analisis data terstruktur dan terintegrasi.
  • Data Mart: Fokus pada kebutuhan analisis departemen atau fungsi bisnis tertentu.
  • Data Lake: Ideal untuk menyimpan data mentah dan eksplorasi data yang fleksibel.
  • Pemilihan repositori tergantung pada kebutuhan bisnis, jenis data, dan infrastruktur teknologi.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *