File robots.txt adalah salah satu instrumen paling penting dalam technical SEO (Search Engine Optimization) yang memberikan Anda kendali langsung atas crawler mesin pencari. Melalui file ini, Anda bisa menentukan bagian mana dari website yang boleh dan tidak boleh di-crawl. Meskipun terlihat sederhana sebagai file teks biasa, robots.txt memainkan peran kritis dalam mengelola crawl budget, melindungi konten sensitif dari indeksasi yang tidak diinginkan, dan mengoptimalkan cara Googlebot dan crawler lainnya mengeksplorasi situs Anda.Â
Tanpa konfigurasi robots.txt yang tepat, website Anda berisiko mengalami pemborosan crawl budget pada halaman yang tidak penting, indeksasi konten duplikat, atau bahkan eksposur halaman administratif yang seharusnya tetap private. Namun, penting untuk memahami bahwa robots.txt bukanlah solusi keamanan, ini adalah protokol kesepakatan yang diikuti oleh crawler, tetapi bukan gerbang keamanan absolut.Â
Artikel The Daily Martech ini akan membahas secara komprehensif tentang robots.txt. Mulai dari definisi dan prinsip dasar sebagai file instruksi bot, fungsi kritisnya dalam technical SEO, istilah-istilah penting yang perlu dipahami, panduan praktis membuat dan mengunggah file, cara menguji dengan tools resmi Google, hingga peringatan penting tentang keterbatasan dan risiko yang harus Anda pahami.
Robots.txt Adalah: Definisi & Prinsip Dasar File Instruksi Bot
Memahami robots.txt sebagai file instruksi bot adalah langkah pertama dalam menguasai aspek fundamental dari technical SEO. File ini, meskipun sederhana dalam strukturnya, memiliki dampak yang signifikan terhadap bagaimana mesin pencari mengindeks dan menampilkan konten website Anda di hasil pencarian.Â
Definisi Robots.txt
Robots.txt adalah sebuah file teks sederhana yang berisi instruksi atau perintah yang ditujukan kepada bot mesin pencari (crawler) untuk mengatur bagian mana dari website yang boleh (Allow) atau tidak boleh (Disallow) di-crawl.
Karakteristik Utama:
- Format Teks Plain: File ini adalah plain text (.txt), bukan format lain
- Standar Protokol: Mengikuti Robots Exclusion Protocol (REP), standar yang diakui sejak 1994
- Instruksi Deklaratif: Berisi perintah-perintah sederhana yang mudah dibaca oleh mesin dan manusia
- Dapat Diakses Umum: Dapat diakses oleh siapa saja yang mengetahui URL-nya
Prinsip Kunci Robots.txt
1. Penempatan: Direktori Root Website
File robots.txt selalu ditempatkan di direktori root situs web dan dapat diakses melalui namadomain.com/robots.txt:
Contoh URL Akses: https://www.example.com/robots.txt
Aturan Penempatan:
- Harus di Root: File tidak boleh di subfolder seperti /folder/robots.txt
- Case Sensitive: Nama file harus huruf kecil: robots.txt bukan Robots.txt atau ROBOTS.TXT
- Satu Per Subdomain: Setiap subdomain memerlukan file robots.txt terpisah
- Protokol Spesifik: HTTP dan HTTPS dianggap sebagai host berbeda
2. Bukan Komponen Keamanan
File ini hanya mengatur akses crawl bot dan bukan merupakan komponen untuk menjaga keamanan informasi:
Penting Dipahami:
- Terlihat Secara Publik: Siapa pun dapat membaca file robots.txt Anda dengan mengakses URL-nya
- Tidak Memaksa: Crawler nakal atau scraper dapat mengabaikan instruksi
- Tidak Ada Perlindungan Password: File tidak bisa dilindungi dengan password atau enkripsi
- URL Terindeks Bisa Muncul: Bahkan jika di-disallow, URL masih bisa muncul di hasil pencarian jika ada backlink eksternal
3. Tujuan: Mengizinkan atau Menolak Crawling
Fungsi utama adalah mengizinkan (Allow) atau menolak (Disallow) proses crawl yang dilakukan oleh search engine:
Contoh Kasus Penggunaan:
- Menghemat Crawl Budget: Mengarahkan crawler hanya ke halaman penting
- Mencegah Duplikasi: Memblokir variasi URL yang menghasilkan konten sama
- Proteksi Area Sensitif: Mencegah indeksasi folder admin, staging, atau testing
- Kontrol Akses Per-Bot: Memberikan instruksi berbeda untuk crawler yang berbeda
- Optimasi Indeksasi: Memastikan halaman terbaik yang terindeks
Format Dasar:
User-agent: [nama bot]
Disallow: [path yang diblokir]
Allow: [path yang diizinkan]
Baca Juga: 4 Fungsi dan Perbedaan Robots Meta Tags dengan Robots.txt
Fungsi Kritis Robots.txt dalam Technical SEO
Mari kita eksplorasi empat fungsi kritis dari robots.txt dalam ekosistem technical SEO.
1. Membatasi & Meringankan Load Server
Mengontrol akses crawl bot, sehingga kapasitas load server tetap terjaga dan stabil:
Masalah Tanpa Pembatasan:
- Server Overload: Crawler agresif dapat membuat terlalu banyak request simultan
- Waktu Respon Lamban: Beban berlebih memperlambat website untuk penggunaÂ
- Risiko Downtime: Dalam kasus ekstrem, dapat menyebabkan server crash
- Biaya Hosting Naik: Bandwidth dan penggunaan resource yang tinggi
2. Pencegahan Crawl Konten Duplikat
Mencegah bot membuang crawl budget pada konten terduplikat atau halaman yang tidak perlu:
Kasus Umum Pemborosan Crawl Budget:
| Halaman Admin | Parameter URL | Staging & Testing | Search Results Pages | Versi Printer-Friendly |
| Disallow: /wp-admin/ Disallow: /admin/ Disallow: /dashboard/ | Disallow: /*?utm_source= Disallow: /*?ref= Disallow: /*?sessionid= | Disallow: /staging/ Disallow: /test/ Disallow: /dev/ | Disallow: /search? Disallow: /?s= | Disallow: /*?print= Disallow: /print/ |
Dampak Positif:
- Crawl budget difokuskan pada halaman yang benar-benar penting
- Indeks lebih bersih tanpa duplikasi
- Waktu indeksasi konten baru lebih cepat
- Menghindari isu konten duplikat
3. Menentukan Halaman yang Diizinkan
Mengatur laman mana saja yang boleh diakses Google Crawler agar konten utama terindeks optimal:
Contoh Strategi Allow:
Allow Paths Tertentu:
User-agent: Googlebot
Disallow: /private/
Allow: /private/public-subsection/
Prioritas CSS dan JavaScript (untuk rendering):
User-agent: Googlebot
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Disallow: /wp-admin/
Allow untuk Bot Tertentu:
User-agent: Googlebot-Image
Allow: /images/
User-agent: *
Disallow: /images/
4. Memberitahu Lokasi Sitemap
Menginformasikan lokasi sitemap XML kepada user agent agar proses crawl lebih efisien:
Sintaks:
Sitemap: https://www.example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap-images.xml
Sitemap: https://www.example.com/sitemap-news.xml
Manfaat Deklarasi Sitemap:
- Discovery: Membantu crawler menemukan semua halaman penting
- Sinyal Prioritas: Sitemap memberikan informasi tambahan tentang prioritas halaman
- Notifikasi Update: Memberitahu ketika ada konten baru atau update
- Beberapa Sitemaps: Dapat mendeklarasikan beberapa sitemap untuk berbagai jenis konten
Istilah Penting dalam Penulisan File Robots.txt
Dalam bagian ini, kita akan mengeksplorasi empat istilah fundamental yang harus Anda kuasai, lengkap dengan contoh praktis yang dapat langsung Anda terapkan.
1. User-agent
User-agent mengidentifikasi crawler atau bot spesifik yang akan mengikuti instruksi yang diberikan.
Sintaks:
User-agent: [nama bot atau wildcard]
User-Agents Umum:
Google:
User-agent: Googlebot     # Semua crawler Google
User-agent: Googlebot-Image  # Google Image crawler
User-agent: Googlebot-News   # Google News crawler
User-agent: Googlebot-Video  # Google Video crawler
User-agent: Google-Extended  # Google AI/ML training (baru)
Bing:
User-agent: Bingbot
User-agent: BingPreview
Lainnya:
User-agent: Slurp       # Yahoo
User-agent: DuckDuckBot    # DuckDuckGo
User-agent: Baiduspider    # Baidu (China)
User-agent: YandexBot     # Yandex (Russia)
Wildcard (Semua Bot):
User-agent: *
Penggunaan Multiple User-Agents:
User-agent: Googlebot
User-agent: Bingbot
Disallow: /private/
# Instruksi yang sama berlaku untuk kedua bot
2. Allow
Allow secara eksplisit mengizinkan crawler untuk mengakses path tertentu.
Sintaks:
Allow: /path/
Kapan Menggunakan Allow:
Override Disallow:
User-agent: *
Disallow: /private/
Allow: /private/public/
# Memblokir /private/ kecuali /private/public/
Allow CSS/JS untuk Rendering:
User-agent: Googlebot
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow Root (Default Behavior):
User-agent: *
Allow: /
# Izinkan semua (ini behavior default jika tidak ada instruksi lain)
Note: Jika tidak ada instruksi Disallow, semua path default di-allow, jadi Allow: / sebenarnya redundant kecuali untuk klarifikasi.
3. Disallow
Disallow memblokir crawler dari mengakses path tertentu.
Sintaks:
Disallow: /path/
Exact Path:
Disallow: /private/
# Blokir /private/ dan semua di bawahnya
Wildcard (*):
Disallow: /*?
# Blokir semua URL dengan query parameters
Disallow: /*.pdf$
# Blokir semua file PDF
Root Disallow (Blokir Semua):
User-agent: *
Disallow: /
# HATI-HATI: Ini memblokir SEMUA crawling!
Empty Disallow (Izinkan Semua):
User-agent: *
Disallow:
# Izinkan crawl semua (sama dengan tidak ada instruksi)
4. Sitemap
Digunakan untuk memberikan informasi lokasi sitemap XML:
Sintaks:
Sitemap: https://www.example.com/sitemap.xml
Karakteristik:
- Tidak Ada Spesifikasi User-Agent: Deklarasi sitemap berlaku untuk semua crawler
- Deklarasi Beberapa Sitemap: Dapat mendeklarasikan beberapa sitemap
- Full URL Dibutuhkan: Harus menggunakan URL absolut lengkap dengan protokol
Contoh Multiple Sitemaps:
Sitemap: https://www.example.com/sitemap-posts.xml
Sitemap: https://www.example.com/sitemap-pages.xml
Sitemap: https://www.example.com/sitemap-products.xml
Sitemap: https://www.example.com/sitemap-images.xml
Contoh Penerapan Lengkap
Blokir Folder Kontak:
User-agent: Googlebot
Allow: /
Disallow: /kontak/
Sitemap: https://www.example.com/sitemap.xml
Penjelasan:
- User-agent: Googlebot – Instruksi untuk Googlebot
- Allow: / – Izinkan crawl semua (opsional, default behavior)
- Disallow: /kontak/ – Blokir folder /kontak/ dan semua di dalamnya
- Sitemap: – Informasikan lokasi sitemap
Panduan Membuat, Mengunggah, dan Menguji Robots.txt
Proses pembuatan robots.txt yang benar memerlukan perhatian terhadap detail dan pemahaman tentang struktur website Anda. Dalam section ini, kita akan membahas langkah demi langkah bagaimana membuat, mengunggah, memverifikasi, dan menguji file robots.txt Anda.
Baca Juga: Fungsi dan Cara Membuat Robots.txt, Settingnya Mudah!
Langkah 1: Buat File Robots.txt
Metode Manual:
- Buka Text Editor: Gunakan Notepad (Windows), TextEdit (Mac), atau editor kode seperti VS Code
- Tulis Instruksi: Masukkan instruksi yang dibutuhkan
- Simpan sebagai .txt: Pastikan nama file persis robots.txt (huruf kecil)
Contoh File Sederhana:
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Tips Penulisan:
- Satu instruksi per baris
- Gunakan # untuk komentar
- Perhatikan spasi setelah titik dua (:)
- Hindari karakter spesial atau encoding non-UTF-8
Langkah 2: Upload ke Root Directory
Upload file robots.txt ke folder root situs web menggunakan FTP atau File Manager:
Metode FTP (FileZilla, dll):
- Connect ke server via FTP client
- Navigate ke direktori root (biasanya public_html, www, atau htdocs)
- Upload file robots.txt
- Atur permissions ke 644 (readable by all)
Metode File Manager (cPanel):
- Login ke cPanel
- Buka File Manager
- Navigate ke direktori root
- Click Upload dan pilih file robots.txt
- Refresh untuk memastikan file muncul
Metode WordPress (Manual):
- Gunakan FTP atau File Manager untuk upload ke root WordPress installation
- Pastikan di level yang sama dengan folder wp-content dan wp-includes
Langkah 3: Verifikasi Upload
Akses URL namadomain.com/robots.txt untuk memastikan instruksi sudah muncul:
Yang Harus Terlihat:
- Browser menampilkan konten file sebagai plain text
- Semua instruksi yang Anda tulis muncul dengan benar
- Tidak ada error 404 atau access denied
Troubleshooting Jika Tidak Muncul:
- Periksa nama file (harus exact robots.txt)
- Periksa lokasi (root directory, bukan subfolder)
- Clear cache browser
- Periksa file permissions (644)
- Periksa .htaccess tidak memblokir akses
Langkah 4: Uji dengan Google Search Console
Gunakan Robots.txt Tester di Google Search Console (GSC) untuk menguji script dan memastikan file berfungsi sesuai instruksi:
Langkah Testing di GSC:
- Login ke Google Search Console
- Pilih Property Website Anda
- Navigasi ke: Settings → robots.txt (atau cari “robots.txt tester”)
- Lihat Current robots.txt: GSC akan ambil dan display file Anda
- Tes URL Tertentu:
- Masukkan URL yang ingin ditest
- Klik “Test“
- GSC akan show apakah URL “Allowed” atau “Blocked“
Opsi Alternatif di WordPress: Menggunakan Plugin
Dapat dibuat melalui “File Editor” atau lebih mudah menggunakan Plugin:
- Install plugin Yoast SEOÂ
- Navigasi ke SEO → Tools → File Editor
- Edit robots.txt directly dalam interface
- Simpan perubahan
- Install plugin AIOSEOÂ
- Navigasi ke All in One SEO → Tools → Robots.txt
- Pilih “Enable Custom Robots.txt“
- Gunakan visual editor untuk menambah aturan tanpa coding manual
- Simpan perubahan
- Install plugin Rank MathÂ
- Navigasi ke Rank Math → General Settings → Edit robots.txt
- Edit atau gunakan template pre-builtÂ
- Simpan
Hal Penting yang Harus Diperhatikan
Penting untuk memahami bahwa robots.txt adalah instruksi yang bersifat advisory (anjuran), mesin pencari yang patuh akan mengikutinya, tetapi tidak ada mekanisme yang memaksa kepatuhan absolut. Dalam section ini, kita akan membahas tiga peringatan kritis yang harus selalu Anda ingat ketika mengkonfigurasi robots.txt.
1. Tidak Menjamin Noindex
Laman yang di-disallow masih dapat diindeks jika ditautkan dari website lain:
Kesalahpahaman Umum: Banyak yang mengira Disallow: /halaman/ akan menghapus halaman dari indeks Google, ini salah.
Kenyataan:
- Disallow mencegah crawling (bot tidak akan visit halaman)
- Disallow TIDAK mencegah indexing jika Google menemukan URL melalui cara lain
Best Practice:
- Untuk konten yang tidak ingin di-crawl DAN tidak ingin di-index: Gunakan noindex tag
- Untuk konten yang ingin dihapus dari indeks: Gunakan noindex tag dan jangan block dengan robots.txt (Google perlu akses untuk melihat noindex tag)
2. Sintaksis & Kepatuhan Bot
Aturan robots.txt mungkin tidak didukung atau diartikan berbeda oleh semua mesin pencari atau user agent:
Variasi Implementasi untuk Tiap Crawler:
Google:
- Mendukung wildcard (*) dan $
- Tidak menghormati Crawl-delay
- Case-sensitive untuk paths
Bing:
- Mendukung wildcard
- Menghormati Crawl-delay
- Implementasi sedikit berbeda dari Google
Crawler Nakal:
- Banyak scrapers dan bad bots mengabaikan robots.txt sepenuhnya
- Beberapa crawlers justru menggunakan robots.txt untuk mencari area sensitif
3. Bukan Solusi Keamanan
File ini tidak cukup untuk keamanan; disarankan menggunakan metode pemblokiran lain:
Mengapa Robots.txt Bukan Protokol Keamanan:
- Dapat Dibaca Siapapun: Siapa pun dapat membaca robots.txt dan tahu folder mana yang Anda sembunyikan
- Tidak Ada Paksaan: Tidak ada mekanisme teknis yang memaksa kepatuhan
- Crawler nakal dapat mengabaikan
- Scrapers sering mengabaikan robots.txt
- Akses URL Langsung: User dengan URL langsung tetap bisa akses
- Penyingkapan Informasi: Robots.txt justru mengekspos struktur website
- Penyerang/peretas dapat memetakan seluruh struktur website
- Mengidentifikasi teknologi yang digunakan (/wp-admin/ = WordPress)
- Menemukan area sensitif untuk ditarget
Kesimpulan Keamanan:
- Gunakan robots.txt untuk manajemen SEO, bukan keamanan
- Implementasikan proper authentication untuk area sensitif
- Jangan andalkan robots.txt untuk melindungi informasi rahasia
- Kombinasikan beberapa lapisan keamanan untuk proteksi maksimal
Baca Juga: 5 Cara Kerja, Manfaat dan Jenis-Jenis SSL Certificate
Robots.txt adalah file teks fundamental dalam technical SEO yang berisi instruksi untuk mengatur crawler mesin pencari tentang bagian website mana yang boleh atau tidak boleh di-crawl. Audit dan testing rutin penting untuk memastikan konfigurasi robots.txt tidak secara tidak sengaja memblokir konten penting atau mengekspos area yang seharusnya dilindungi.
Untuk info terbaru mengenai strategi technical SEO lainnya, pantau terus The Daily Martech!
