EVAN SUSANTO / 1304505107
JURUSAN TEKNOLOGI INFORMASI / FAKULTAS TEKNIK /
UNIVERSITAS UDAYANA
DATA WAREHOUSE
DOSEN : I PUTU AGUS EKA PRATAMA, S.T., M.T.
Data Warehouse dan Big Data
Data warehouse merupakan
data-data yang berorientasi subjek, terintegrasi, memiliki dimensi waktu, serta
merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung proses
pengambilan keputusan oleh para manajer di setiap jenjang (namun terutama pada
jenjang manajerial yang memiliki peringkat tinggi). Pemakaian teknologi data
warehouse hampir dibutuhkan oleh semua organisasi, tidak terkecuali
Perpustakaan. Data warehouse memungkinkan integrasi berbagai macam jenis data
dari berbagai macam aplikasi atau sistem. Hal ini menjamin mekanisme akses
“satu pintu bagi manajemen untuk memperoleh informasi, dan menganalisisnya
untuk pengambilan keputusan”.
Data
Warehouse menggunakan 2 server atau lebih. Memiliki data yang berasal dari
sumber-sumber yang terpisah kedalam suatu format yang tetap dan saling
terintegrasi menjadi satu kesatuan yang menunjang keseluruhan konsep Data
Warehouse itu sendiri. Dengan kata lain informasi dikumpulkan dari data yang
terpisah yang kemudian disatukan menjadi sebuah ringkasan.
Big Data
BIG DATA
adalah buzzword atau menangkap-frase yang digunakan untuk menggambarkan volume
besar, baik dari data terstruktur dan tidak terstruktur yang begitu besar
sehingga sulit untuk memproses dengan menggunakan teknik database dan perangkat
lunak biasa. Dalam kebanyakan kejadian data perusahaan yang terlalu besar atau
bergerak terlalu cepat atau melebihi kapasitas pengolahan saat ini. Big data
memiliki potensi untuk membantu perusahaan meningkatkan operasi, membuat lebih
cepat dan keputusan yang lebih cerdas.
sumber https://indrawandb.files.wordpress.com/2015/03/bigdata3v_ina.png
Contoh Big
Data
Contoh data besar mungkin petabyte (1.024 terabyte) atau exabyte (1.024
petabyte) data yang terdiri dari miliaran triliunan catatan dari jutaan orang
dari berbagai sumber yang berbeda (misalnya Web, penjualan, contact center
pelanggan, media sosial, data ponsel dan sebagainya). Data tersebut biasanya
terstruktur longgar atau data yang sering tidak lengkap dan tidak dapat
diakses.
Big Data dan Data Warehouse sagalt lah berbeda,
masing-masing baik Big Data dan Data Warehouse memiliki
kasus alur penggunaan sendiri. Dalam beberapa kasus, sebuah perusahaan yang
hanya memiliki database saja untuk melakukan operasional yang memiliki
data yang terstruktur sehingga pencatatan data dapat dilakukan dengan
mengandalkan Data Warehouse, sedangkan pada sebuah kasus industri yang
membutuhkan dan menggunakan sejumlah data mentah yang besar, dan bentuk/format
datanya sangat beragam untuk melakukan analisis maka diperlukan teknologi Big
Data.
Membangun Data Warehouse juga
dapat membantu dalam membangun open-standards API untuk
memungkinkan fleksibilitas ketika dikemudian hari diperlukannya teknologi Big
Data karena akan lebih mudah dalam membangun API dari sumber data yang
ada dari berbagai sumber operasional yang telah disetujui.
Adanaya data yang di olah dalam data
warehouse dan big data diperlukan rancanagan infrastruktur yang mumpuni seperti
denagn menggunakan supercomputer atau sebagai level tertinggi dalam computing.
Supercomputing yang pada umumnya. Merupakan mesin komputasi yang memiliki
kinerja tingkat tinggi dan memiliki kecepatan pemrosesan data yang cepat.
Terdapat juga beberapa aplikasi seperti scientific calculations, modeling
simulations, and rendering large 3D graphics. Yang bisasanya
supercomputer ini memiliki ukuran yang lebih besar dari komputer biasanya.
Dan membutuhkan
ruang space yang cukup besar.
Infastruktur
adalah sebuah landasan untuk menjalankan sebuah sistem. Untuk menggunakan
infrastruktur yang telah disediakan, diperlukan perangkat lunak Apache Hadoop
yang merupakan sebuah framework perangkat lunak open-source yang
mampu menangani pemrosesan Data Warehouse dan Big Data.
Gambar Skema Relasi Apache Hadoop
• OLAP (OnLine Analytical Processing)
Pengertian
OLAP merupakan sebuah prangkat lunak yang melakukan pemrosesan untuk
menganalisa data bervolume besar dari berbagai perspektif
(multidimensi). OLAP seringkali disebut analisis data multidimensi yang
berfungsi sebagai data analasis (select). Data multidimensi adalah data
yang dapat dimodelkan sebagai atribut dimensi dan atribut ukuran. Contoh
atribut dimensi adalah nama barang dan warna barang, sedangkan contoh
atribut ukuran adalah jumlah barang.
• OLTP (Online Transaction Processing Systems)
OLTP
(On-line Transaction Processing) memiliki karakteristik dengan jumlah
data yang besar namun hanya dapat melakukan hal sederhana seperti
insert,update, dan delete. Hal utama yang menjadi perhatian dari sistem
yang dilakukan OLTP adalah melakukan query secara cepat, data mudah
untuk diperbaiki dan dapat diakses melalui komputer yang terhubung dalam
jaringan. OLTP berorientasi pada proses yang memproses suatu transaksi
secara langsung melalui komputer yang terhubung dalam jaringan. Seperti
misalanya kasir pada sebuah super market yang menggunakan mesin dalam
proses transaksinya. OLTP mempunyai karakteristik beberapa user dapat
creating, updating, retrieving untuk setiap record data, lagi pula OLTP
sangat optimal untuk updating data.
ETL adalah kumpulan
proses menyiapkan data dari operational source untuk data. Proses
ini terdiri dari extracting, transforming, loading, dan
beberapa proses yang dilakukan sebelum dipublikasikan ke dalam data
warehouse. Jadi, ETL atau extract, transform, loading adalah fase
pemrosesan data dari sumber data masuk ke dalam data warehouse. Tujuan
ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata yang
relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. ETL
juga dapat digunakan untuk mengintegrasikan data
Dengan sistem yang sudah
ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi
kriteria data warehouse seperti data historis, terpadu, terangkum,
statis dan memiliki struktur yang dirancang untuk keperluan proses analisis.
Proses ETL terdiri dari tiga tahap, yaitu :
1. Extract
Langkah pertama dari
proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional
sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber
data di luar system database). Kebanyakan proyek data warehouse menggabungkan
data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah
proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu
pola atau struktur data yang diinginkan.
2. Transform
Proses membersihkan data
yang telah diambil pada proses extract sehingga data itu sesuai dengan
struktur data warehouse atau data mart. Hal-hal yang dapat
dilakukan dalam tahap transformasi :
a). Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.
b). Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai
1 untuk pria dan 2 untuk wanita, tetapi data warehouse menyimpan M untuk
pria dan F untuk wanita). Proses yang dilakukan disebut automated data
cleansing, tidak ada pembersihan secara manual selama proses ETL.
c). Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”,
dan ”Mr ke dalam ”M”).
d). Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price).
e). Menggabungkan data dari berbagai sumeber bersama-sama.
f). Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk
setiap bagian).
Kesulitan yang terjadi
pada proses transformasi adalah data harus digabungkan dari beberapa sistem
terpisah, harus dibersihkan sehingga konsisten dan harus diagregasi untuk
mempercepat analisis.
3. Load
Fase load merupakan
tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke
dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau
menambah data tergantung pada perancangan data warehouse pada waktu
menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database,
constraint didefinisikan dalam skema database sebagai suatu trigger
yang diaktifkan pada waktu melakukan load data (contohnya : uniqueness,referential,
integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan
tampilan dan kualitas data dari proses ETL.
DAFTAR PUSTAKA
[1] Oracle. 2014. Oracle Database 12c for Data Warehousing and Big Data. http://www.oracle.com/technetwork/database/bi-datawarehousing/data-warehousing-wp-12c-1896097.pdf. 11 Oktober 2015.
[2] Wikipedia, English. 2015. Big Data. https://en.wikipedia.org/wiki/Big_data. 11 Oktober 2015.
[3] Kudang Karsono. 2012. ETL (Extraction, Transformation, Loading). http://kundang.weblog.esaunggul.ac.id/2013/09/17/extract-transform-loading/ 11 Oktober 2015
0 komentar:
Posting Komentar