Konsep open data mendorong ketersediaan berbagai dataset publik yang dapat dimanfaatkan untuk pengambilan keputusan berdasarkan data atau data-driven decisions. Berikut adalah beberapa sumber dataset publik yang dapat anda gunakan:
- Google Cloud Public Datasets memberikan akses terhadap dataset publik yang tinggi permintaan, dan mempemudah analisa dengan menggunakan Cloud.
- Dataset Search dapat membantu pengguna menemukan dataset secara online dengan melakukan pencarian menggunakan keyword.
- Kaggle memungkinkan pengguna mencari dataset yang tersedia didalamnya dan berlatih menggunakan data tersebut.
- BigQuery menyediakan 150+ dataset publik yang dapat dimanfaatkan dan digunakan, terutama jika anda menggunakan BigQuery
Dataset mengenai Kesehatan Masyarakat
- Global Health Observatory data merupakan koleksi data dari Badan Kesehatan Dunia atau World Health Organization (WHO).
- The Cancer Imaging Archive (TCIA) dataset adalah koleksi dari gambar medis yang sudah di de-identifikasi de-identified biasanya dalam DICOM format. Koleksi ini diatur berdasarkan penyakit seperti kanker paru-paru, dan apakah merupakan gambar dari hasil MRI atau CT.
- 1000 Genomes dataset yang memuat sekitar 2,500 genomes dari 25 populations di seluruh dunia.
Dataset mengenai Iklim
- National Climatic Data Center menyediakan link dataset cuaca, dataset iklim milik NCEI dari berbagai produk, laman, dan sumber.
- NOAA Public Dataset Gallery publik dataset yang berisikan galeri publik dataset, snapshot data, dan data primer iklim.
Dataset mengenai Sosial Politik Internasional
- UNICEF State of the World’s Children berisikan data dari UNICEF berupa kumpulan table yang dapat di-download
- The Stanford Open Policing Project merupakan dataset yang disediakan Stanford berkaitan dengan data tentang pemberhentian kendaraan dan pejalan kaki dari departemen penegakan hukum di seluruh US.
Setelah data diperoleh, tahapan berikutnya adalah pembersihan dan memastikan kualias data. Tools yang biasa digunakan adalah spreadsheet atau query terhadap database menggunakan Structured Query Language (SQL).
Untuk pengguna yang biasa melakukan analisa dengan spreadsheet seperti Microsoft Excel, Google juga menyediakan product serupa yaitu Google Sheets. Google Sheets termasuk salah satu product Google workspace yang memungkinkan anda menggunakan spreadsheet secara gratis hanya dengan menggunakan akun Google.
Sementara itu jika anda biasa melakukan query terhadap database, BigQuery adalah salah satu layanan yang tersedia di Google Cloud Platform (GCP) yang dapat digunakan untuk menyimpan, dan melakukan query terhadap dataset. BiqQuery sendiri dapat diakses menggunakan 2 jenis akun yaitu,
BigQuery Sandbox memungkinkan anda mengeksplor kegunaan BigQuery tanpa biaya atau tanpa menginput informasi pembayaran seperti kartu kredit. Jika BigQuery memenuhi ekspektasi, anda dapat menggunakan BigQuery dengan fitur lengkap yaitu, BigQuery console yang tersedia di Google Cloud Plaform. Tentu saja BigQuery Sandbox memiliki keterbatasan fitur jika dibandingkan dengan BigQuery console di GCP seperti,
- Batas penggunaan 10GB active storage, 1TB query terhadap data setiap bulannya.
- Setiap data yang disimpan dalam bentuk dataset, table, view, akan expired secara otomatis dalam waktu 60 hari.
- Sandbox project tidak mendukung
- Streaming data
- Data manipulation language (DML) statements
- BigQuery Data Transfer Service
Lantas bagaimana jika anda ingin menggunakan fitur lengkap tapi tidak memiliki kartu kredit? Anda dapat menghubungi Google Partner seperti Cloud Ace untuk pembuatan akun billing yang memungkinkan anda membayar biaya tagihan BigQuery melalui transfer antar bank. Google Cloud memberikan $300 kredit gratis yang dapat anda manfaat untuk mengeksplor produk Google Cloud seperti BigQuery disetiap pembuatan akun billing. Jika anda tindak menggunakan BigQuery lebih dari $500, anda tidak dikenakan biaya namun tetap dapat mengakses fitur lengkap dari BigQuery.