Pada 18 November 2025, Cloudflare, salah satu penyedia infrastruktur terbesar di dunia untuk perlindungan dan optimasi jaringan internet, mengalami gangguan besar yang berdampak luas ke ratusan juta pengguna internet di seluruh dunia. Gangguan ini menyebabkan berbagai situs populer seperti X (sebelumnya Twitter), ChatGPT, platform streaming, bahkan layanan kripto tidak dapat diakses untuk sementara waktu. Insiden ini menjadi salah satu gangguan terbesar yang dialami Cloudflare sejak tahun 2019.
Kronologi dan Penyebab Gangguan
Gangguan dimulai sekitar pukul 11:20 UTC, ketika jaringan Cloudflare mulai mengalami kegagalan signifikan dalam mengirimkan lalu lintas inti jaringan. Pengguna akhir yang mencoba mengakses situs yang menggunakan layanan Cloudflare akan menemui halaman error 5xx yang menandakan kegagalan internal di jaringan Cloudflare.
Penyebab utama gangguan ternyata bukan berasal dari serangan siber atau aktivitas jahat, melainkan sebuah bug laten yang muncul akibat perubahan pada sistem basis data ClickHouse yang mendasari sistem manajemen bot Cloudflare. Perubahan ini menyebabkan sistem basis data mengeluarkan entri berlebihan dalam sebuah "file fitur" yang digunakan oleh sistem manajemen bot. File fitur ini secara tidak terduga membengkak menjadi dua kali lipat ukuran normalnya.
Sistem proxy inti Cloudflare, yang bertugas mengarahkan lalu lintas pengguna, memiliki batasan ukuran file fitur yang dapat diproses. Ketika file fitur yang terlalu besar tersebut dipropagasi ke seluruh server mereka, software routing tidak mampu memprosesnya dengan benar sehingga menyebabkan sistem mengalami crash dan menghasilkan kesalahan HTTP 5xx yang meluas.
Dampak Gangguan
Gangguan ini berdampak pada berbagai layanan utama Cloudflare, seperti:
- Layanan Content Delivery Network (CDN) dan keamanan mereka yang mengakibatkan error 5xx pada trafik HTTP.
- Sistem otentikasi dan akses Cloudflare mengalami kegagalan sehingga banyak pengguna tidak dapat mengakses situs yang dilindungi.
- Layanan Workers KV yang menjadi gateway bagi banyak aplikasi internal Cloudflare ikut terganggu, memicu lonjakan error.
- Cloudflare Dashboard dan layanan Turnstile yang mendukung login pengguna juga sempat tidak dapat diakses.
Dampak gangguan berlanjut selama beberapa jam dan mengakibatkan kerusakan signifikan pada pengalaman pengguna internet global.
Langkah Pemulihan dan Keberhasilan Cloudflare
Setelah melakukan investigasi intensif, Cloudflare berhasil mengidentifikasi kesalahan berupa file konfigurasi berukuran berlebihan yang menjadi sumber masalah. Pada pukul 14:30 UTC, mereka menghentikan pembuatan dan penyebaran file konfigurasi bermasalah tersebut, kemudian mengembalikan file ke versi sebelumnya yang dikenal stabil.
Pemulihan bertahap pun berlangsung, dengan trafik inti jaringan secara perlahan kembali normal. Semua sistem berhasil berfungsi penuh kembali pada pukul 17:06 UTC. Tim Cloudflare juga melakukan restart pada layanan terkait untuk memastikan semua modul operasi berjalan semestinya.
Dalam pernyataannya, CEO & tim Cloudflare menyatakan permohonan maaf atas gangguan yang terjadi dan menegaskan bahwa insiden sebesar ini sangat tidak dapat diterima mengingat posisi penting Cloudflare dalam ekosistem internet global. Mereka berjanji akan mengambil langkah konkret untuk mencegah kejadian serupa di masa depan.
Penyebab Serupa Terjadi dan Cara Mencegahnya
Gangguan besar seperti yang dialami Cloudflare dapat terjadi akibat beberapa faktor teknis mendasar, antara lain:
-
Perubahan Sistem yang Tidak Disertai Pengujian Menyeluruh
Setiap perubahan atau pembaruan software, konfigurasi database, atau pengaturan keamanan yang tidak diuji dengan lengkap berpotensi memunculkan bug baru yang tidak terdeteksi hingga produksi. -
Batasan Sistem yang Terlewati
Sistem perangkat lunak biasanya dirancang dengan batasan memori, ukuran data, atau kapasitas proses tertentu. Ketika data input melebihi batas ini, aplikasi dapat mengalami crash atau kegagalan fungsi. have resource limits such as file size, memory use, or CPU. Breaching these limits, as happened with the oversized feature file, can cause crashes. -
Duplikasi Data dan Anomali pada Query Database
Perubahan query pada basis data dapat menghasilkan data yang berlebihan atau duplikat sehingga menyebabkan komponen yang bergantung pada data tersebut gagal berfungsi. -
Ketergantungan Sistem yang Kompleks
Infrastruktur modern yang terhubung secara kompleks berarti masalah di satu bagian bisa memicu efek domino yang meluas ke berbagai layanan lain.
Untuk mencegah insiden serupa, organisasi dan tim IT harus melakukan langkah-langkah berikut:
- Pengujian Mendalam dan Validasi Perubahan
- Monitoring dan Alerting Real-Time
- Implementasi Batasan dan Proteksi di Level Sistem
- Redundansi dan Rollback Cepat
- Audit dan Review Berkala
- Pelatihan dan Dokumentasi Tim
Gangguan Cloudflare pada November 2025 menjadi pelajaran berharga bahwa di balik layanan internet yang besar dan kompleks, risiko teknologi bisa terjadi kapan saja. Namun, melalui respons cepat dan perbaikan sistematis, dampak tersebut dapat diminimalkan. Pengetahuan dan kesiapan teknis adalah kunci untuk menjaga kelangsungan layanan dan kepercayaan pengguna di era digital kini.


