projasaweb logo

Robot.txt & Cara Mengelolanya

Estimasi Waktu Baca 6 Menit

Robot.txt atau robots exclusion standard, juga dikenal sebagai robots exclusion protocol atau hanya robots.txt , adalah standar yang digunakan oleh situs web untuk berkomunikasi dengan perayap web dan robot web lainnya.

File teks kecil mungil ini adalah bagian dari setiap situs web di Internet, tetapi kebanyakan orang bahkan tidak mengetahui bahwa file ini ada. File ini bisa berdampak besar untuk SEO, jika dimanfaatkan dengan benar.

Apa Itu Robots.txt

Apa Itu Robots.txt?

Robots.txt adalah file yang memberi tahu crawler mesin pencari untuk tidak merayapi halaman atau bagian tertentu dari sebuah situs web. Sebagian besar mesin pencari utama (termasuk Google, Bing dan Yahoo) mengenali dan menghormati pengaturan di robots.txt.

File ini digunakan terutama agar situs Anda terhindar dari beban permintaan yang terlampau banyak. Robot.txt bukanlah mekanisme untuk menyembunyikan halaman web dari Google. Untuk menyembunyikan halaman dari Google, Anda harus memblokir pengindeksan dengan noindex atau lindungi halaman dengan sandi.

Apa Manfaat Robots.txt?

File robots.txt dapat digunakan terutama untuk mengelola crawl budget situs Anda. Penting untuk diingat bahwa pengaruh robots.txt dapat berbeda untuk beragam jenis file.

Mengelola Crawl Budget

Crawl Budget adalah jumlah halaman yang akan dirayapi Google di situs Anda pada hari tertentu. Jumlah ini dapat berbeda dari hari ke hari, namun secara umum, jumlahnya relatif stabil.

Jika Anda mengalami kesulitan untuk mengindeks semua halaman Anda, Anda mungkin memiliki masalah crawl budget. Dengan memblokir halaman yang tidak penting dengan robots.txt, Googlebot dapat menghabiskan lebih banyak anggaran perayapan Anda pada halaman yang benar-benar penting.

Memblokir Halaman Web

Terkadang Anda memiliki halaman di situs Anda yang tidak ingin Anda indeks. Misalnya, Anda mungkin memiliki versi staging dari suatu halaman atau halaman login. Halaman-halaman ini harus ada. Tapi Anda tidak ingin orang menemukannya di Google. Ini adalah kasus di mana Anda dapat menggunakan robots.txt untuk memblokir halaman tersebut dari crawler dan bot mesin pencari.

Anda dapat menggunakan file robots.txt untuk halaman web (HTML, PDF, atau format non-media lain yang dapat dibaca Google). Anda dapat menggunakan robot.txt jika server kewalahan menangani permintaan dari crawler Google, atau untuk menghindari crawling halaman yang mirip atau tidak penting di situs Anda.

Peringatan: File robots.txt tidak dapat menyembunyikan halaman web Anda dari hasil penelusuran Google.

Jika halaman web Anda diblokir dengan file robots.txt, URL tersebut masih dapat muncul di hasil penelusuran, tetapi hasil penelusuran tersebut tidak akan memiliki deskripsi. File gambar, video, PDF, dan file non-HTML lainnya tidak akan disertakan.

Jika Anda ingin menyembunyikan halaman sepenuhnya dari Penelusuran, gunakan metode noindex.

File media

File robots.txt dapat digunakan untuk mencegah file gambar, video, dan audio muncul dalam hasil penelusuran Google. Langkah ini tidak akan mencegah pengguna atau halaman lain menautkan ke file gambar, video, atau audio Anda.

Jika Anda ingin file tersebut tidak bisa diakses sama sekali Anda tidak bisa melakukannya dengan file robot.txt. Anda harus menghapus file tersebut atau melindunginya dengan kata sandi.

File resource

Anda juga dapat menggunakan file robots.txt untuk memblokir file resource seperti gambar, skrip, atau css, jika menurut Anda halaman yang dimuat tanpa resource ini tidak akan terpengaruh secara signifikan. Namun, jika ketaktersediaan resource ini mempersulit crawler Google dalam memahami halaman, jangan blokir resource tersebut.

Mengapa Robots.txt Penting?

Seperti yang sudah dijelaskan di atas, robot.txt menjadi penting karena fungsinya yang dapat mengontrol proses crawl mesin pencari. Tapi perlu diketahui menurut Brian Dean dari Backlinko, sebagian besar situs web tidak memerlukan file robots.txt.

Itu karena Google biasanya dapat menemukan dan mengindeks semua halaman penting di situs Anda.

Dan Google secara otomatis TIDAK akan mengindeks halaman yang tidak penting atau versi halaman duplikat lain.

Anda dapat memeriksa berapa banyak halaman yang telah Anda indeks di Google Search Console.

Jika jumlahnya sesuai dengan jumlah halaman yang ingin diindeks, Anda tidak perlu repot dengan file Robots.txt.

Tetapi jika angka tersebut lebih tinggi dari yang Anda harapkan (dan Anda melihat URL terindeks yang seharusnya tidak diindeks), maka inilah saatnya untuk membuat file robots.txt untuk situs web Anda.

Memahami batasan file robots.txt

Sebelum Anda membuat atau mengedit file robots.txt, Anda harus mengetahui batas metode pemblokiran URL dengan robot.txt.

  • Perintah robots.txt mungkin tidak didukung oleh mesin telusur tertentu.
    File robots.txt tidak dapat memaksakan perilaku crawler di situs Anda. Crawler dapat memilih untuk mematuhi petunjuk atau tidak. Meskipun Googlebot dan beberapa web crawler besar lainnya mematuhi petunjuk dalam file robots.txt, tapi crawler lain mungkin tidak mematuhinya. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari web crawler, sebaiknya gunakan metode pemblokiran lainnya, seperti melindunginya dengan sandi pada server Anda.
  • Crawler dapat menafsirkan script dengan cara yang berbeda.
    Masing-masing crawler mungkin menafsirkan perintah dengan cara yang berbeda. Anda harus mengetahui sintak yang sesuai untuk menangani berbagai web crawler yang ada.
  • Halaman yang tidak diizinkan dalam robots.txt masih dapat diindeks oleh Google.
    Meskipun Google tidak akan meng-crawl atau mengindeks konten yang diblokir oleh robots.txt, Google mungkin masih dapat menemukan dan mengindeks URL yang tidak diizinkan jika ditautkan dari situs lain di web. Akibatnya, alamat URL dan informasi lain yang tersedia secara publik masih dapat muncul di hasil penelusuran Google.

Perhatian: Menggabungkan beberapa perintah crawling dan pengindeksan dapat menyebabkan pertentangan antara satu perintah dengan perintah yang lainnya.

Tag meta robots dan header HTTP X-Robots-Tag akan ditemukan saat URL di-crawl. Jika halaman tidak boleh di-crawl melalui file robots.txt, semua informasi tentang perintah pengindeksan atau penayangan tidak akan ditemukan dan akan diabaikan. Jika perintah pengindeksan atau penayangan harus diikuti, URL yang berisi perintah tersebut harus diizinkan untuk di-crawl.

Cara Membuat File robots.txt

Ada empat langkah yang diperlukan dalam membuat file robots.txt yang dapat diakses secara umum dan bermanfaat:

Membuat file robots.txt

Gunakanlah editor teks sederhana untuk membuat file robots.txt. Misalnya, Notepad, Notepad++, TextEdit, vi, dan emacs.

Jangan gunakan pengolah kata seperti MS. Word atau WPS karena program semacam ini sering kali menyimpan file dengan menambahkan karakter yang tidak diharapkan, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler. Pastikan untuk menyimpan file dengan encoding UTF-8.

Aturan pembuatan file:

  • File harus diberi nama robots.txt.
  • Situs hanya boleh memiliki satu file robots.txt.
  • File robots.txt harus berada di root host situs tempat file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada https://www.example.com/, file robots.txt harus berada di https://www.example.com/robots.txt.
  • File tersebut tidak boleh ditempatkan di subdirektori (misalnya di https://example.com/pages/robots.txt). Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.
  • File robots.txt dapat diposting di subdomain (misalnya https://website.example.com/robots.txt) atau di port non-standar (misalnya http://example.com:8181/robots.txt).
  • File robots.txt hanya berlaku untuk jalur dalam protokol, host, dan port tempat file diposting. Artinya, aturan di https://example.com/robots.txt hanya berlaku untuk file di https://example.com/, bukan untuk subdomain seperti https://m.example.com/, atau protokol alternatif seperti http://example.com/.
  • File robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Google dapat mengabaikan karakter yang bukan bagian dari rentang UTF-8, yang berpotensi membuat aturan robots.txt tidak valid.

Menambahkan aturan ke file robots.txt

Aturan adalah petunjuk yang menginformasikan bagian situs mana saja yang dapat di-crawl oleh crawler. Ikuti panduan berikut saat menambahkan aturan ke file robots.txt:

  • File robots.txt terdiri dari satu atau beberapa grup.
  • Setiap grup terdiri dari beberapa aturan atau perintah (petunjuk), satu perintah per baris. Setiap grup diawali dengan baris User-agent yang menentukan target grup.
  • Grup memberikan informasi berikut:
    • Untuk siapa grup berlaku (agen pengguna).
    • Direktori atau file mana yang dapat diakses oleh agen.
    • Direktori atau file mana yang tidak dapat diakses oleh agen.
  • Crawler memproses grup dari atas ke bawah. Satu agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu grup yang pertama dan paling spesifik yang cocok dengan agen pengguna tertentu.
  • Asumsi default-nya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan disallow.
  • Aturan peka huruf besar/kecil. Misalnya, disallow: /file.asp berlaku untuk https://www.example.com/file.asp, tetapi tidak untuk https://www.example.com/FILE.asp.
  • Karakter # menandai awal dari komentar.

Crawler Google mendukung perintah berikut di file robots.txt:

  • user-agent: [Wajib, satu atau beberapa per grup] Perintah ini menentukan nama klien otomatis yang dikenal sebagai crawler mesin telusur menjadi sasaran penerapan aturan. Ini adalah baris pertama untuk grup aturan apa pun. Nama agen pengguna Google tercantum dalam daftar agen pengguna Google. Penggunaan tanda bintang (*) sesuai dengan semua crawler kecuali dengan berbagai crawler AdsBot, yang harus dinamai secara eksplisit. Contoh:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
  • disallow: [Minimal satu atau beberapa entri disallow atau allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Jika aturan mengacu pada halaman, nama tersebut harus berupa nama halaman lengkap seperti yang ditampilkan di browser. Nama harus diawali dengan tanda / dan jika mengacu pada direktori, nama harus diakhiri dengan tanda /.
  • allow: [Minimal satu atau beberapa entri disallow atau allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang mungkin di-crawl oleh agen pengguna sebagaimana disebutkan di artikel bantuan ini. Ini digunakan untuk mengganti perintah disallow guna mengizinkan crawling subdirektori atau halaman dalam direktori yang tidak diizinkan. Untuk satu halaman, tentukan nama halaman lengkap seperti yang ditampilkan di browser. Untuk direktori, akhiri aturan dengan tanda /.
  • sitemap: [Opsional, nol atau lebih per file] Lokasi peta situs untuk situs ini. URL peta situs harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang baik untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari peta situs lebih lanjutContoh:Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Semua perintah, kecuali sitemap, mendukung karakter pengganti * untuk awalan jalur, akhiran, atau string secara keseluruhan.

Baris yang tidak cocok dengan perintah tersebut akan diabaikan.

Baca halaman kami tentang interpretasi Google terkait spesifikasi robots.txt untuk mengetahui deskripsi lengkap dari setiap perintah.

Mengupload file robots.txt

Setelah menyimpan file robots.txt ke komputer, Anda sudah siap menjadikan file tersebut tersedia untuk crawler mesin telusur. Tidak ada alat yang dapat membantu Anda menyelesaikan langkah ini, karena cara Anda mengupload file robots.txt ke situs Anda bergantung pada arsitektur server dan situs Anda. Hubungi perusahaan hosting Anda atau telusuri dokumentasi perusahaan hosting Anda, seperti telusuri “mengupload file ke infomaniak”.

Setelah Anda mengupload file robots.txt, uji apakah file tersebut dapat diakses secara publik dan apakah Google dapat mengurainya.

Menguji markup robots.txt 

Untuk menguji apakah file robots.txt yang baru diupload dapat diakses secara publik, buka jendela penjelajahan rahasia (atau yang setara) di browser Anda dan buka lokasi file robots.txt. Contohnya https://example.com/robots.txt. Jika Anda melihat konten file robots.txt, berarti markup file siap diuji.

Google menawarkan dua opsi untuk menguji markup robots.txt:

  1. Penguji robots.txt di Search Console. Anda hanya dapat menggunakan alat ini untuk file robots.txt yang sudah dapat diakses di situs Anda.
  2. Jika Anda adalah developer, lihat dan buat library robots.txt open source Google, yang juga digunakan di Google Penelusuran. Anda dapat menggunakan alat ini untuk menguji file robots.txt secara lokal di komputer.

Mengirim file robots.txt ke Google

Setelah Anda mengupload dan menguji file robots.txt Anda, crawler Google secara otomatis akan menemukan dan mulai menggunakan file robots.txt Anda. Anda tidak perlu melakukan apa pun. Jika Anda sudah memperbarui file robots.txt dan harus memperbarui salinan yang di-cache Google sesegera mungkin, pelajari cara mengirimkan file robots.txt yang sudah diperbarui.

Membuat atau memperbarui file robots.txt

Jika memutuskan bahwa Anda butuh file robots.txt, pelajari cara membuat file robots.txt. Atau, jika Anda sudah memiliki file robots.txt, pelajari cara memperbaruinya.

Photo of author

Kanada Kurniawan

Merupakan founder dari Projasaweb. Aktif menulis tentang SEO, SEM dan Social Media serta perkembangan terbaru digital marketing.
Photo of author

Kanada Kurniawan

Merupakan founder dari Projasaweb. Aktif menulis tentang SEO, SEM dan Social Media serta perkembangan terbaru digital marketing.

Tinggalkan komentar

Share via