projasaweb logo

Googlebot : Apa Itu, Jenis & Cara Mengontrolnya

Estimasi Waktu Baca 4 Menit

Googlebot adalah perangkat lunak perayap web yang digunakan oleh Google untuk mengumpulkan informasi dari web untuk membangun indeks (proses crawl). Googlebot adalah nama umum yang merujuk pada dua jenis perayap web yang berbeda: perayap desktop (untuk mensimulasikan pengguna desktop) dan perayap seluler (untuk mensimulasikan pengguna seluler).

Jika situs Anda telah dikonversi untuk mobile-first indexing (mengutamakan seluler) di Google, maka sebagian besar permintaan crawl Googlebot akan dibuat menggunakan crawler seluler. Untuk situs yang belum dikonversi, maka sebagian besar crawl akan dibuat menggunakan crawler desktop. Pada kedua kasus ini, crawler minoritas hanya meng-crawl URL yang sudah di-crawl oleh crawler mayoritas.

Apa Itu Googlebot

Cara Identifikasi Jenis Googlebot Anda

Untuk tahu jenis Googlebot yang digunakan pada suatu website, Anda dapat melihatnya pada Google Search Console.

  1. Login ke Google Search Console
  2. Pilih menu Settings (pada bagian kiri paling bawah)
  3. Perhatian bagian About,
  4. Lihat Indexing crawler
menu Google Search Console
menu Google Search Console

Pada bagian tersebut akan disebutkan jenis Googlebot yang digunakan. Jika yang digunakan adalag Googlebot Smartphone, maka akan dicantumkan juga pada tanggal berapa peralihan dari Googlebot Desktop ke Googlebot Smartphone dilakukan.

Kenapa Googlebot Itu Penting?

Googlebot sangat mempengaruhi keberhasilan proses crawl yang dilakukan oleh Google. Dan seperti yang Anda ketahui bahwa Crawl merupakan tahap pertama cari cara kerja suatu search engine seperti Google. Jadi jika proses ini bermasalah maka dapat berefek pada posisi Anda pada halaman hasil pencarian Google.

Perlu diketahui bahwa cara kerja search engine ada tiga yaitu Crawl, Indexing dan Ranking :

  • Crawl adalah proses yang digunakan bot search engine untuk mengunjungi halaman baru dan yang diperbarui untuk ditambahkan ke indeks.
  • Indexing adalah proses yang dilakukan Google atau mesin pencari yang lain dalam memahami elemen-elemen dalam suatu halaman.
  • Proses ranking Google adalah proses pemberian peringkat pada hasil pencarian Google dan menayangkannya kepada pengguna.

Jenis-Jenis Googlebot

CrawlerToken agen penggunaString agen pengguna lengkap
Googlebot ImageGooglebot-Image, GooglebotGooglebot-Image/1.0
Googlebot NewsGooglebot-Image, GooglebotAgen pengguna Googlebot-News menggunakan berbagai string agen pengguna Googlebot.
Googlebot VideoGooglebot-Image, GooglebotGooglebot-Video/1.0
Googlebot DesktopGooglebotMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36,

Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot SmartphoneGooglebotMozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
tabel Googlebot

Situs Anda kemungkinan akan di-crawl oleh Googlebot Desktop dan Googlebot Smartphone. Anda dapat mengidentifikasi subjenis Googlebot dengan melihat string agen pengguna (user agent string). Namun, kedua jenis crawler tersebut menggunakan token produk yang sama (token agen pengguna) di robots.txt, sehingga Anda tidak dapat menargetkan Googlebot Smartphone atau Googlebot Desktop secara selektif menggunakan robots.txt.

Cara Mengontrol Googlebot

Google memberi Anda beberapa cara untuk mengontrol apa yang dirayapi dan diindeks.

Cara untuk mengontrol perayapan

  • Robots.txt  – File ini di situs web Anda memungkinkan Anda untuk mengontrol apa yang dirayapi.
  • Nofollow  – Nofollow adalah atribut tautan atau tag meta robot  yang menyarankan agar tautan tidak diikuti. Itu hanya dianggap sebagai petunjuk, jadi mungkin diabaikan.
  • Crawl Budget  – Dengan menggunakan fitur crawl budget di Google Search Console yang lama memungkinkan Anda memperlambat perayapan Google. Fitur ini dapat diakses di sini.

Cara untuk mengontrol pengindeksan

  • Hapus konten Anda  – Jika Anda menghapus halaman, maka tidak ada yang perlu diindeks. Kelemahan dari ini adalah tidak ada orang lain yang dapat mengaksesnya juga.
  • Batasi akses ke konten  – Jika Anda membatasi akses sebuah konten maka Google tidak masuk ke konten tersebut, jadi segala jenis perlindungan seperti kata sandi atau autentikasi akan mencegah Google melihat konten.
  • Noindex  – Noindex di tag meta robot memberi tahu mesin pencari untuk tidak mengindeks halaman Anda.
  • Alat penghapusan URL  – Nama alat ini dari Google sedikit menyesatkan, karena cara kerjanya akan menyembunyikan konten untuk sementara. Google masih akan melihat dan merayapi konten ini, tetapi laman tidak akan muncul di hasil penelusuran.
  • Robots.txt (Hanya Gambar)  – Memblokir Gambar Googlebot dari perayapan berarti gambar Anda tidak akan diindeks.

Cara Googlebot Mengakses Situs Anda

Untuk kebanyakan situs, rata-rata Googlebot tidak akan mengakses situs Anda lebih dari beberapa detik sekali. Namun, akibat penundaan jaringan, bisa jadi kecepatan crawling akan sedikit lebih tinggi dalam periode waktu yang singkat.

Googlebot dirancang untuk dijalankan bersamaan oleh ribuan perangkat guna meningkatkan performa. Untuk mengurangi penggunaan bandwidth, Google akan menjalankan banyak crawler di perangkat yang terletak di dekat server situs yang akan di-crawl.

Hal ini dapat menyebabkan pada log situs Anda terlihat kunjungan dari beberapa perangkat berbeda tapi dengan user agent yang sama, Googlebot. Tujuan Google adalah meng-crawl sebanyak mungkin halaman situs tanpa membebani bandwidth server Anda. Jika situs Anda kesulitan mengimbangi permintaan crawling Google, Anda dapat meminta perubahan kecepatan crawling seperti yang sudah disampaikan di atas..

HTTP

Umumnya, Googlebot meng-crawl melalui HTTP/1.1. Namun, mulai bulan November 2020, Googlebot dapat meng-crawl situs melalui HTTP/2 jika didukung oleh situs. Hal ini dapat menghemat resource komputasi seperti CPU, RAM) untuk situs dan Googlebot. Tapi ingat, hal ini tidak memengaruhi pengindeksan atau peringkat situs Anda. Anda dapat melakukan cek dukungan http/2 untuk situs Anda pada banyak layanan yang tersedia secara gratis seperti :

  • https://tools.keycdn.com/http2-test
  • https://http2.pro

Jika tidak ingin di-crawl melalui HTTP/2, Anda dapat meminta server yang menghosting situs Anda untuk merespons dengan kode status HTTP 421 saat Googlebot mencoba meng-crawl situs Anda melalui HTTP/2. Jika tidak berhasil, Anda dapat mengirim pesan ke tim Googlebot (tetapi solusi ini bersifat sementara).

15 MB Pertama

Googlebot dapat meng-crawl 15 MB pertama dari file HTML atau file berbasis teks yang didukung. Setiap resource yang dirujuk dalam HTML seperti gambar, video, CSS, dan JavaScript akan diambil secara terpisah.

Setelah 15 MB pertama file, Googlebot akan berhenti melakukan crawling dan hanya mempertimbangkan untuk mengindeks 15 MB pertama dari file tersebut. Batas ukuran file diterapkan pada data yang tidak dikompresi. Crawler lain mungkin memiliki batas yang berbeda.

15MB merupakan ukuran yang sangat besar untuk sebuah halaman situs. Sebagai perbandingan, halaman artikel yang sedang baca ini ukurannya tidak lebih dari 1 MB. Jika suatu halaman ukurannya lebih dari 3 MB, biasanya pengunjung sudah mengeluh lambat ketika mengakses halaman tersebut.

Memverifikasi Googlebot

Sebelum memutuskan untuk memblokir Googlebot, perlu diperhatikan bahwa string agen pengguna yang digunakan oleh Googlebot sering di-spoofing oleh crawler lain. Penting untuk memverifikasi bahwa permintaan yang bermasalah benar-benar berasal dari Google. Cara terbaik untuk memverifikasi bahwa permintaan benar-benar berasal dari Googlebot adalah dengan menggunakan pencarian DNS terbalik di IP sumber permintaan, atau mencocokkan IP sumber dengan rentang IP Googlebot.

Photo of author

Kanada Kurniawan

Merupakan founder dari Projasaweb. Aktif menulis tentang SEO, SEM dan Social Media serta perkembangan terbaru digital marketing.
Photo of author

Kanada Kurniawan

Merupakan founder dari Projasaweb. Aktif menulis tentang SEO, SEM dan Social Media serta perkembangan terbaru digital marketing.

Tinggalkan komentar

Support Kami Dengan Berbagi

Berbagi itu mudah dan dapat menebar manfaat untuk lebih banyak orang
SAYA TIDAK TERTARIK
This window will automatically close in 20 seconds