“Algoritma mengenal Anda dengan lebih baik ketimbang Anda mengenal diri sendiri,” Xavier Amatriain, mantan ilmuwan data di Netflix.
Lawrence Summer—mantan Menteri Keuangan Amerika Serikat, mantan rektor Harvard, dan penerima penghargaan ilmu ekonomi, mengundang Seth Stephens-Davidowitz ke kantornya. Summer ingin membahas tentang big data.
Pembicaraan akrab mereka berdua tentang segala gagasan lewat setengah jam dari jadwal waktu yang ditentukan. Sampai pada pertanyaan inti dari Summer. “Apakah menurut Anda, kita bisa meramalkan pasar saham dengan data ini?”
Pertanyaan yang paling manusiawi. Kehendak duniawi yang purba sejak Adam tercipta sebagai manusia pertama. Intinya adalah apakah bisa sumber-sumber big data secara sukses dapat memprediksi ke arah mana saham akan bergerak?
Seth Stephens-Davidowitz menulis cerita ini dalam bukunya yang berjudul Everybody Lies, Big Data dan Apa yang Diungkapkan Internet tentang Siapa Kita Sesungguhnya. Sebagai ilmuwan data, peraih gelar Ph.D dari Harvard ini pernah bekerja di Google dan menangani banyak data.
Sejak 1998 Google mengumpulkan data dari para pengunjung yang menuliskan kata-kata pencarian di dalam kotak sederhananya. Dengan keajaiban algoritma, Google pelan-pelan menciptakan sumber big data yang paling kaya di alam semesta. Dalam satu hari rata-rata di bagian awal abad ke-21 ini, manusia menghasilkan 2,5 juta triliun byte data (hal.15).
Yang patut diingat adalah big data yang menjadi sebuah gerak revolusi bukanlah sekadar menghimpun data sebanyak-banyaknya, melainkan juga soal pengumpulan data yang tepat. Para insinyur Google ini yang melakukannya lebih baik sehingga meninggalkan para pesaingnya.
Empat Kedahsyatan
Di dalam buku itu, Davidowitz menjelaskan empat keutamaan big data. Pertama, big data menawarkan jenis-jenis data yang baru yang sulit didapat hanya dengan mengandalkan metode survei konvensional.
Ketika ingin melihat hal-hal apa yang berkaitan dengan tingkat pengangguran, maka bukan pada kata kunci unemployment office atau new jobs yang paling banyak dicari, tetapi Spider Solitaire. Kesimpulan yang bisa diambil adalah orang yang menganggur akan banyak bermain “games”. Maka ini bisa menjadi model peramalan untuk melacak angka pengangguran. Jadi, nilai big data bukan pada ukurannya saja, namun juga pada tawaran bentuk informasi baru untuk bisa dipejari.
Di kolom pencarian Google, para pengunjung dengan bebas dan tanpa rasa takut mengetikkan segala tanya yang ada di benaknya yang mahaluas karena mereka anonim. Google tidak merekam siapa menanyakan apa. Dari sanalah hipotesis itu muncul: big data memberikan kejujuran. Inilah keunggulan kedua big data: menyediakan data yang jujur. Dengarlah cerita Netflix berikut.
Awalnya, Netflix memperbolehkan para pelanggannya membuat daftar urutan film yang ingin mereka tonton. Biasanya para pelanggan akan memasukkan banyak film dengan tema-tema serius dan bermutu tinggi. Kemudian, Netflix secara rutin mengingatkan kepada para pelanggan tentang film-film yang ingin diputar berdasarkan data yang ada di daftar itu. Hasilnya malah mereka tidak menonton film. Para pelanggan itu menonton film bertema komedi murahan atau percintaan. Mereka berbohong. Everybody lies.
Netflix menghentikan cara itu. Lalu mulai membangun model berdasarkan jutaan klik dan view dari pelanggan yang sama. Netflix menawarkan film bukan dari daftar film berdasarkan pengakuan pelanggan, melainkan berdasarkan data dari film-film yang para pelanggan tonton.
Hasilnya adalah orang mengunjungi Netflix lebih sering dan pelanggan menonton lebih banyak film. Davidowitz menulis, jangan memercayai apa yang orang katakan kepada Anda, percayalah pada apa yang mereka lakukan.
Kemudian, kedahsyatan ketiga dari big data itu adalah memungkinkan kita memusatkan perhatian pada subhimpunan kecil. Sebuah keadaan yang tidak bisa dicapai oleh penelitian dengan cara konvensional yang menyediakan informasi bersifat tahunan atau barangkali bulanan, paling untung setiap pekanan. Dengan big data, penelitian bisa mengambil data jam demi jam atau bahkan menit demi menit. Maka dengan begitu Facebook bisa mengubah tampilan lamannya setiap tiga jam berdasarkan pengalaman pengguna yang dihimpun Facebook.
Dengan big data, peneliti bisa mendata dari menit ke menit jumlah konsumsi air di sebuah kota yang menjadi tempat pertandingan Olimpiade, bisa mendata pula orang-orang yang pindah dari Philadelphia ke Miami dan mulai berbohong dalam laporan pajak. Data sedemikian besar dan kaya sehingga pemeriksaan lebih mendetail dan lebih dekat lagi.
Keempat, kehebatan big data memungkinkan kita melakukan banyak eksperimen sebab-akibat. Dengan eksperimen acak melalui Uji A/B itulah revolusi internet dimulai, tanpa biaya mahal, dan dapat dikerjakan dengan mudah, kapan saja, di mana saja, selama manusia terhubung internet.
Intinya adalah Uji A/B menawarkan pilihan kepada pengguna internet mana yang menurut mereka terbaik. Uji A/B menggunakan pengalaman pengguna sebagai dasarnya. Jadi sebelum sebuah produk diluncurkan, para pengembang memberikan produk itu untuk dites terlebih dahulu kepada warganet. Mereka mengumpulkan klik. Dari sanalah kesimpulan diambil.
Maka dengan menggunakan desain kampanye yang dipilih dari Uji A/B itu pantas Obama mendapatkan dana kampanye sebesar 69 juta dolar dan memenangkan pemilihan presiden Amerika Serikat. Facebook menggunakan 1000 Uji A/B setiap harinya. Google meraup untung dengan melakukan tujuh ribu Uji A/B setiap harinya pada 2011.
Keterbatasan Big Data
Kehebatan big data ini yang membuat para ilmuwan sosial di masa lalu seperti Kinsey, Foucalt, Freud, dan Salk akan iri. Namun, tetap saja big data ada keterbatasannya. Big data memberikan himpunan data yang lebih baru dan ini sering memberi tambahan variabel eksponensial dibanding sumber data tradisional. Big data memberikan bahan uji yang terlalu banyak. Solusinya tidak selalu lebih banyak big data. Perlu upaya mengefektifkan big data dengan cara penilaian manusia dan survei kecil. Facebook kadang memanfaatkan sumber informasi yang banyak diremehkan di buku ini: survei kecil.
Di sana, Davidowitz memberikan garis batas bahwa big data tidak melulu menghadirkan data untuk tiap pertanyaan. Big data dan data kecil itu saling melengkapi.
Buku ini menarik karena selain lumuran kisah-kisah yang ada di sepanjang halamannya, Davidowitz mampu menyajikan jawaban atas pertanyaan-pertanyaan penting seperti ini: apakah iklan memang efektif untuk memasarkan barang? Pentingkah di mana kita kuliah? Di mana tempat terbaik untuk membesarkan anak? Berapa banyak orang tuntas membaca buku? Dan terpenting adalah pertanyaan apakah orang-orang akan benar-benar jujur di dunia nyata dibandingkan keberadaannya di dunia maya?
Desain kaver buku ini berbeda dengan buku yang dicetak dalam bahasa aslinya, namun menurut saya desain buku terjemahan ini malah lebih ciamik. Buat Anda yang menyukai dunia teknologi informasi dan perkembangannya, maka buku ini sangat layak dibaca. Davidowitz seperti Malcolm Gladwell di dunianya sendiri.
Lalu bagaimana jawaban Davidowitz atas pertanyaan Summer di atas? Tidak. Big data tidak mampu meramal pasar saham, kalaupun iya, Davidowitz sudah menggunakannya sejak dulu dan tidak melahirkan karya besarnya: buku ini.
**
Judul buku: Everybody Lies, Big Data dan Apa yang Diungkapkan Internet tentang Siapa Kita Sesungguhnya
Penulis : Seth Stephens-Davidowitz
Penerjemah : Alex Tri Kantjono Widodo
Penerbit : PT Gramedia Pustaka Utama
Edisi : Cetakan ketiga, Juni 2019
***
Riza Almanfaluthi
dedaunan di ranting cemara
30 Juli 2020
walau berat aku tetap mencoba mengikuti ringkasan di atas sebagai wujud terima kasih dan penghargaan telah membaginya…
LikeLike
Terima kasih reviewnya, pencerahan untuk yang masih awam dengan Big Data. Istilah yang menarik tapi kalau membacanya perlu mikir panjang dulu. Agak terhenyok dengan fakta “Everybody lies”. 🙂
LikeLike
Siap, makasih banyak
LikeLike
Poin2 pembahasannya bagus dan penting, tetapi cara penulisannya sangat buruk. Pening…
LikeLike
Terima kasih…
LikeLike
Saya baca file buku aslinya. Yang paling dahsyat adalah review Seth mengenai kemenangan Obama pada tahun 2008. Google Trend menyajikan bahwa rasisme tidak melulu urusan Utara vs Selatan USA, tetapi rasisme juga muncul di wilayah kantung suara Partai Demokrat yang mendukung Obama.
LikeLike
Setuju.
LikeLike