Minggu, 11 Oktober 2015

Data Warehouse dan Big Data



EVAN SUSANTO / 1304505107
JURUSAN TEKNOLOGI INFORMASI / FAKULTAS TEKNIK /
UNIVERSITAS UDAYANA
DATA WAREHOUSE
DOSEN : I PUTU AGUS EKA PRATAMA, S.T., M.T.

 Data Warehouse dan Big Data

Data Warehouse
Data warehouse merupakan data-data yang berorientasi subjek, terintegrasi, memiliki dimensi waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung proses pengambilan keputusan oleh para manajer di setiap jenjang (namun terutama pada jenjang manajerial yang memiliki peringkat tinggi). Pemakaian teknologi data warehouse hampir dibutuhkan oleh semua organisasi, tidak terkecuali Perpustakaan. Data warehouse memungkinkan integrasi berbagai macam jenis data dari berbagai macam aplikasi atau sistem. Hal ini menjamin mekanisme akses “satu pintu bagi manajemen untuk memperoleh informasi, dan menganalisisnya untuk pengambilan keputusan”.
Data Warehouse menggunakan 2 server atau lebih. Memiliki data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang tetap dan saling terintegrasi menjadi satu kesatuan yang menunjang keseluruhan konsep Data Warehouse itu sendiri. Dengan kata lain informasi dikumpulkan dari data yang terpisah yang kemudian disatukan menjadi sebuah ringkasan.

Big Data
BIG DATA adalah buzzword atau menangkap-frase yang digunakan untuk menggambarkan volume besar, baik dari data terstruktur dan tidak terstruktur yang begitu besar sehingga sulit untuk memproses dengan menggunakan teknik database dan perangkat lunak biasa. Dalam kebanyakan kejadian data perusahaan yang terlalu besar atau bergerak terlalu cepat atau melebihi kapasitas pengolahan saat ini. Big data memiliki potensi untuk membantu perusahaan meningkatkan operasi, membuat lebih cepat dan keputusan yang lebih cerdas. 





sumber https://indrawandb.files.wordpress.com/2015/03/bigdata3v_ina.png

Contoh Big Data 
Contoh data besar mungkin petabyte (1.024 terabyte) atau exabyte (1.024 petabyte) data yang terdiri dari miliaran triliunan catatan dari jutaan orang dari berbagai sumber yang berbeda (misalnya Web, penjualan, contact center pelanggan, media sosial, data ponsel dan sebagainya). Data tersebut biasanya terstruktur longgar atau data yang sering tidak lengkap dan tidak dapat diakses. 
 

Big Data dan Data Warehouse
Big Data dan Data Warehouse sagalt lah berbeda, masing-masing  baik Big Data dan Data Warehouse memiliki kasus alur penggunaan sendiri. Dalam beberapa kasus, sebuah perusahaan yang hanya memiliki database saja untuk melakukan operasional yang memiliki data yang terstruktur sehingga pencatatan data dapat dilakukan dengan mengandalkan Data Warehouse, sedangkan pada sebuah kasus industri yang membutuhkan dan menggunakan sejumlah data mentah yang besar, dan bentuk/format datanya sangat beragam untuk melakukan analisis maka diperlukan teknologi Big Data.

Membangun Data Warehouse juga dapat membantu dalam membangun open-standards API untuk memungkinkan fleksibilitas ketika dikemudian hari diperlukannya teknologi Big Data karena akan lebih mudah dalam membangun API dari sumber data yang ada dari berbagai sumber operasional yang telah disetujui. 

Adanaya data yang di olah dalam data warehouse dan big data diperlukan rancanagan infrastruktur yang mumpuni seperti denagn menggunakan supercomputer atau sebagai level tertinggi dalam computing. Supercomputing yang pada umumnya. Merupakan mesin komputasi yang memiliki kinerja tingkat tinggi dan memiliki kecepatan pemrosesan data yang cepat. Terdapat juga beberapa aplikasi seperti scientific calculations, modeling simulations, and rendering large 3D graphics. Yang bisasanya supercomputer ini memiliki ukuran yang lebih besar dari komputer biasanya.
Dan membutuhkan ruang space yang cukup besar.

Infastruktur adalah sebuah landasan untuk menjalankan sebuah sistem. Untuk menggunakan infrastruktur yang telah disediakan, diperlukan perangkat lunak Apache Hadoop yang merupakan sebuah framework perangkat lunak open-source yang mampu menangani pemrosesan Data Warehouse dan Big Data.


                           Gambar Skema Relasi Apache Hadoop

• OLAP (OnLine Analytical Processing)
Pengertian OLAP merupakan sebuah prangkat lunak yang melakukan pemrosesan untuk menganalisa data bervolume besar dari berbagai perspektif (multidimensi). OLAP seringkali disebut analisis data multidimensi yang berfungsi sebagai data analasis (select). Data multidimensi adalah data yang dapat dimodelkan sebagai atribut dimensi dan atribut ukuran. Contoh atribut dimensi adalah nama barang dan warna barang, sedangkan contoh atribut ukuran adalah jumlah barang.

 • OLTP (Online Transaction Processing Systems)
OLTP (On-line Transaction Processing) memiliki karakteristik dengan jumlah data yang besar namun hanya dapat melakukan hal sederhana seperti insert,update, dan delete. Hal utama yang menjadi perhatian dari sistem yang dilakukan OLTP adalah melakukan query secara cepat, data mudah untuk diperbaiki dan dapat diakses melalui komputer yang terhubung dalam jaringan. OLTP berorientasi pada proses yang memproses suatu transaksi secara langsung melalui komputer yang terhubung dalam jaringan. Seperti misalanya kasir pada sebuah super market yang menggunakan mesin dalam proses transaksinya. OLTP mempunyai karakteristik beberapa user dapat creating, updating, retrieving untuk setiap record data, lagi pula OLTP sangat optimal untuk updating data.

ETL adalah kumpulan proses menyiapkan data dari operational source untuk data. Proses ini terdiri dari extracting, transforming, loading, dan beberapa proses yang dilakukan sebelum dipublikasikan ke dalam data warehouse. Jadi, ETL atau extract, transform, loading adalah fase pemrosesan data dari sumber data masuk ke dalam data warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data

Dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan memiliki struktur yang dirancang untuk keperluan proses analisis. Proses ETL terdiri dari tiga tahap, yaitu :

1. Extract
Langkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan.

2. Transform
Proses membersihkan data yang telah diambil pada proses extract sehingga data itu sesuai dengan struktur data warehouse atau data mart. Hal-hal yang dapat dilakukan dalam tahap transformasi :
a). Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.
b). Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai 1 untuk pria dan 2 untuk wanita, tetapi data warehouse menyimpan M untuk pria dan F untuk wanita). Proses yang dilakukan disebut automated data cleansing, tidak ada pembersihan secara manual selama proses ETL.
c). Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”, dan ”Mr ke dalam ”M”).
d). Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price).
e). Menggabungkan data dari berbagai sumeber bersama-sama.
f). Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk setiap bagian).
Kesulitan yang terjadi pada proses transformasi adalah data harus digabungkan dari beberapa sistem terpisah, harus dibersihkan sehingga konsisten dan harus diagregasi untuk mempercepat analisis.

3. Load

Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (contohnya : uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.
DAFTAR PUSTAKA
[1] Oracle. 2014. Oracle Database 12c for Data Warehousing and Big Data. http://www.oracle.com/technetwork/database/bi-datawarehousing/data-warehousing-wp-12c-1896097.pdf. 11 Oktober 2015.
[2] Wikipedia, English. 2015. Big Data. https://en.wikipedia.org/wiki/Big_data. 11 Oktober 2015.
[3] Kudang Karsono. 2012. ETL (Extraction, Transformation, Loading). http://kundang.weblog.esaunggul.ac.id/2013/09/17/extract-transform-loading/ 11 Oktober 2015
 
 

Categories:

0 komentar:

Posting Komentar