Google Colab & Manajemen Data

Rr Dea Annisayanti Putri
4 min readJun 20, 2020

--

Hai, semua❤

Integrating Google Colaboratory into Your Machine Learning ...

Hari ini saya mau berbagi sedikit nih tentang Google Colab. Bagi kalian yang sudah banyak bermain main dengan Python, mungkin kalian tidak asing dengan Jupyter Notebook. Tapi tenang, kalau kalian pencinta IDE seperti Sublime atau VSCode atau bahkan terminal, sehingga kalian tidak mengenal Jupyter Notebook, tidak masalah, karena kode tidak membeda-bedakan platform dan akan menghasilkan output yang sama dimanapun dijalankan 😉

Jadi buat yang tidak tau apa itu Jupyter Notebook, Jupyter adalah aplikasi web yang open-source dimana kamu bisa membuat dan membagi dokumentasi output dari kode Python. Outputnya bisa berupa print, visualisasi data, tampilan tabel dan masih banyak lagi. Selain output kode, kamu juga bisa membuat tulisan berupa penjelasan dari kode yang kamu buat dengan tampilan khusus (bukan komentar di kode ya). Sehingga Jupyter notebook ini sangat cocok untuk analisis data dan memberikan report. Biasanya Jupyter Notebook dijalankan di localhost komputer lokal (atau di virtual machine bagi yang menjalankan cloud computing).

Jadi, apa nih persamaan Colab sama Jupyter notebook? Ya jadi Colaboratory, atau disingkat “Colab”, ini adalah produk dari Google Research, yang sebenarnya adalah Jupyter Notebook tapi disediakan oleh Google langsung dan sudah dirancang +dimodifikasi. Jadi nih, kamu yang memakainya tidak perlu menjalankannya di komputer lokal, atur-atur konfigurasi dan install apapun. Intinya tinggal pakai dan yang penting…gratis!

Google Colab memiliki beberapa kelebihan dibanding Jupyter Notebook, pertama adalah karena dia disupport oleh Google, maka kamu nggak perlu memiliki komputer yang canggih dan highend untuk melakukan eksperimen dan pastinya Google punya kecepatan network yang baik jadi kamu nggak perlu khawatir tentang kecepatan komputasi dan kecepatan penggembalian hasil kodenya (yang perlu kamu khawatirkan adalah koneksi internetmu sendiri 😛). Selain itu Colab menyediakan akses ke GPU dan TPU, voila! Semuanya tersedia di cloud, jadi sekali lagi, kamu tidak perlu punya komputer canggih sendiri dan banyak library pendukung yang sudah terinstall sehingga tidak perlu manage library sendiri (kamu juga bisa install library tambahan yang belum tersedia dengan mudah). Kamu juga bisa berbagi hasil karyamu di Colab tanpa orang lain harus mendownload. Ibaratnya kamu sudah punya blog berisikan hasil karya indah kode Python!

Meskipun semuanya gratis, pasti ada kelemahan dari Colab ini ya, yaitu kamu harus berbagi. Sekalipun gratis tapi kamu juga gaboleh egois dong, karena banyak yang mau menggunakan Colab juga, sehingga terkadang koneksimu akan terputus di tengah jalan ketika kamu AFK (Away From Keyboard) terlalu lama. Tapi jangan takut, ketika kamu reconnect, semua variable akan tersimpan lho, keren kan? Selain itu, kalau kamu mengakses GPU dan TPU terus menerus, kamu akan diban atau tidak-diperkenankan menggunakannya lagi untuk beberapa waktu. Kok gitu? Ya, karena sekali lagi Colab ini memberikan akses gratis kepada semua orang, sehingga kamu juga harus berbagi dengan yang lain.

Nah, selain penjelasan singkat tentang Colab, kali ini saya juga ingin sharing tentang pengolahan data di dalam drive sehingga bisa dipakai langsung oleh Colab.

  1. Download data eksternal

Untuk download data melalui Colab, kamu tinggal menggunakan !wget _link_ contohnya:

!wget https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat

Kode diatas untuk mendownload sample data Hourly Precipitation fixed-length ASCII Sample. Data tersebut akan langsung terunduh ke folder yang sama dengan Colabmu, kemdian kamu bisa langsung memakainya dengan pandas atau library lain.

Selain dengan wget, kamu juga bisa pakai tf.keras dengan menggunakan

tf.keras.utils.get_file(_dataset_name_, _url_)

Untuk lebih lengkap bisa dieksplore disini: https://www.tensorflow.org/api_docs/python/tf/keras/utils/get_file Perbedaannya adalah, file yang diunduh tidak tersimpan di folder kerja Colab, tapi di /root/.keras/datasets/_dataset_name.

2. Mengunggah file

Kamu bisa mengunggah file dengan mudah dari lokal komputermu tanpa keluar dari Colab. Gimana caranya? Kamu tinggal menggunakan kode berikut:

from google.colab import filesfile = files.upload()

Voila! Maka akan muncul pilihan upload/unggah dan kamu bisa mengunggah file dari komputer lokal dan filenya akan tersimpan di folder yang sama dengan Colab, sehingga kamu bisa langsung menggunakannya. Selain data, kamu juga bisa upload file lain seperti .py yang ingin kamu pakai fungsi/methodnya. Caranya sama dengan kode di atas dan setelah kamu selesai mengunggah filenya, kamu bisa langsung import filenya seperti berikut:

from _nama_file_ import _nama_kelas_/_nama_method_

3. Akses file dari drive

Kalau data yang mau kamu pakai sudah terunggah/tersedia di drive, maka kamu bisa mengaksesnya juga dengan kode berikut:

from google.colab import drivedrive.mount(‘/content/gdrive’)

Setelah menjalankan kode berikut, kamu akan mengisi kode autentifikasi. Maka setelah berhasil, kamu bisa mengakses data yang ada di drivemu.

Itu dia informasi tentang Google Colab dan bagaimana kamu bisa mengelola data eksternal sehingga bisa digunakan selama menggunakan Colab. Apabila ada informasi yang kurang ataupun salah, saya dengan senang hati menerima koreksi, masukan atau kritik untuk diperbaiki di tulisan ini atau di tulisan-tulisan berikutnya. Terima kasih dan sampai jumpa lagi!

Source:

  1. https://research.google.com/colaboratory/faq.html
  2. https://jupyter.org/
  3. https://www.tensorflow.org
  4. https://mc.ai/integrating-google-colaboratory-into-your-machine-learning-workflow/

--

--

No responses yet