Jangan Mengaku Data Scientist Jika Tidak Memahami Ini

Artikel

Muhtar

Penulis: Lukmanul Hakim (Dosen Sains Data UICI)

Banyak data scientist yang tidak menyadari bahwa dalam penerapannya, data memiliki kekurangan dan kelebihan. Setiap data memberikan informasi yang berbeda walaupun dalam kasus yang sama. Karena sejatinya data dipengaruhi oleh beberapa hal, seperti waktu pengambilan yang berbeda, alat ukur yang digunakan berbeda dan lain-lain.

Karakteristik dari data harus benar-benar dipahami agar pemilihan metode dapat dilakukan dengan mudah. Jika metode yang digunakan sesuai dengan karakteristik data yang dianalisis maka output yang dihasilkan akan optimal.

Dalam penerapannya, tidak ada metode yang optimal untuk menangani semua data. Setiap metode tentu akan menyesuaikan sesuai dengan karakteristik data yang dianalisis. Sehingga seorang data scientist dituntut tidak hanya mengerti bagaimana cara merunning sebuah program akan tetapi mampu memahami karakteristik dari data sebelum dianalisis.
 
Ada beberapa kekurangan dari data yang umum dijumpai, yaitu terdapat missing value, outlier, dan data berdimensi tinggi (High Dimensional Data). Jika dalam melakukan analisis data dan menemukan karakteristik data seperti yang disebutkan tadi maka perlu waspada dalam pemilihan metode. Salah dalam memilih metode akan berdampak pada keputusan yang diambil. Kekurangan dari data tersebut bukan berarti tidak dapat dianalisis, hanya saja membutuhkan perlakukan khusus atau pendekatan khusus  untuk menghindari terjadinya bias.

Bias yang dimaksud di sini yaitu selisih antara nilai harapan dari penduga dengan parameter yang diduga. Tentu saja penduga yang baik adalah penduga yang tidak bias, yaitu apabila nilai harapan sama dengan parameter yang diduga.

Hal yang utama dan sangat perlu dilakukan sebelum analisis data yaitu melakukan eksplorasi data. Tujuannya untuk memahami karakteristik dari data tersebut dan melihat apakah terdapat missing value, outlier atau data yang digunakan berdimensi tinggi (High Dimensional Data).

Eksplorasi data memang terdengar sangat sederhana akan tetapi memiliki manfaat yang luar biasa. Mengabaikan eksplorasi data artinya mengabaikan pondasi dari analisis tersebut. Rumah tanpa pondasi yang kuat akan mudah ambruk begitu juga dengan analisis data. Sehingga sangat penting melakukan eksplorasi data untuk menguatkan hasil analisis yang dilakukan. Tidak sedikit para peneliti atau data scientist mengabaikan hal tersebut dan hanya berfokus pada output yang dihasilkan.

Output yang baik tentu bergantung pada ekslorasi yang baik karena ekplorasi data yang baik akan menuntut para peneliti atau data scientist dalam memilih metode.

Cara sederhana dalam melakukan eksplorasi data yaitu membuat grafik-grafik yang mudah dipahami seperti boxplot, barplot, pie chart, scatter plot dan lain-lain. Selain membuat grafik, dapat juga melihat informasi dasar dari data seperti mean, median, modus, dan melakukan analisis sederhana seperti korelasi dan lain-lain.

Setelah melakukan eksplorasi data, mempelajari karakteristik dari data dan menemukan kekurangan dari data seperti yang disebutkan di atas, maka hal yang harus dilakukan mencari informasi terkait penanganan data tersebut. Seperti cara menangani data yang terdapat missing value, cara menanganai data outlier, dan cara menangani data yang berdimensi tinggi (High Dimensional Data).

Jika semua proses dasar tersebut dilakukan dan data sudah ditangani, barulah seorang peneliti atau data scientist melakukan analisis data sesuai dengan tujuan penelitian yang diinginkan. (*)

share :