Sebelumnya kita telah membahas bagaimana sumber data saat ini menjadi semakin dinamis dan beragam. Kali ini, kita akan mengeksplorasi beberapa sumber data umum yang sering digunakan, seperti:
- Basis Data Relasional
Organisasi biasanya menggunakan aplikasi internal untuk mendukung aktivitas bisnis sehari-hari, seperti transaksi pelanggan, manajemen sumber daya manusia, dan alur kerja. Sistem ini menyimpan data secara terstruktur dalam basis data relasional seperti SQL Server, Oracle, MySQL, dan IBM DB2. Data dari sistem ini dapat digunakan untuk analisis, misalnya:- Data transaksi ritel untuk menganalisis penjualan di berbagai wilayah.
- Data dari sistem CRM (Customer Relationship Management) untuk membuat proyeksi penjualan.
- Dataset Eksternal
Di luar organisasi, terdapat dataset publik dan privat yang tersedia, seperti:- Dataset demografis dan ekonomi dari pemerintah.
- Data yang dijual oleh perusahaan, seperti data Point-of-Sale, data keuangan, atau data cuaca.
Dataset ini biasanya disediakan dalam bentuk flat file, spreadsheet, atau XML. - Flat file (misalnya, CSV) menyimpan data dalam format teks biasa dengan pemisah seperti koma atau tab.
- Spreadsheet (misalnya, Excel) dapat menyimpan data dalam beberapa lembar kerja.
- XML mendukung struktur data yang lebih kompleks dan hierarkis.
- API dan Layanan Web
Banyak penyedia data dan situs web menawarkan API (Application Programming Interface) atau layanan web untuk mengakses data. Contoh penggunaan API:- Twitter/Facebook API untuk analisis sentimen atau opini publik.
- API pasar saham untuk data harga saham dan komoditas.
- API validasi data untuk pembersihan dan korelasi data (misalnya, mencocokkan kode pos dengan kota).
- Web Scraping
Web scraping digunakan untuk mengekstrak data dari sumber tidak terstruktur seperti situs web. Beberapa kegunaannya meliputi:- Mengumpulkan detail produk untuk perbandingan harga.
- Menghasilkan prospek penjualan dari sumber data publik.
- Mengumpulkan data untuk pelatihan model machine learning.
Alat populer untuk web scraping termasuk BeautifulSoup, Scrapy, dan Selenium.
- Data Stream dan Feed
Data stream digunakan untuk mengumpulkan data yang terus mengalir dari sumber seperti perangkat IoT, GPS, atau media sosial. Contoh penggunaan:- Ticker saham untuk perdagangan finansial.
- Aliran transaksi ritel untuk manajemen rantai pasok.
- Feed media sosial untuk analisis sentimen.
Aplikasi yang sering digunakan untuk memproses data stream termasuk Apache Kafka dan Apache Spark Streaming.
- RSS Feed
RSS (Really Simple Syndication) digunakan untuk menangkap pembaruan data dari forum online atau situs berita. Dengan feed reader, pembaruan ini dapat di-stream ke perangkat pengguna.
Refleksi Pribadi:
Pemahaman tentang berbagai sumber data ini sangat penting untuk analisis data yang efektif. Setiap sumber memiliki keunikan dan kegunaannya sendiri, tergantung pada tujuan analisis. Misalnya, data dari basis data relasional cocok untuk analisis terstruktur, sementara web scraping dan data stream lebih berguna untuk data real-time dan tidak terstruktur. Selain itu, penggunaan API dan layanan web memudahkan integrasi data dari berbagai platform.
Leave a Reply