projasaweb logo

Apa Itu Crawl? Dalam Search Engine & SEO

Estimasi Waktu Baca 6 Menit

Crawl adalah proses yang digunakan bot search engine untuk mengunjungi halaman baru dan yang diperbarui untuk ditambahkan ke indeks.

Apa itu crawl? Crawl adalah tahap pertama dari tiga tahap cara kerja search engine. Tahapan berikutnya adalah Indexing dan kemudian Ranking.

Dengan crawling, search engine dapat mengetahui halaman apa yang ada di web. Tidak semua halaman yang sudah di crawling dapat lanjut ke tahap berikutnya. Oleh karena itu anda perlu mengoptimasinya.

Google menyediakan dokumentasi lengkap mengenai proses crawling yang mereka lakukan. Oleh karena itu sebagian besar artikel ini akan merujuk pada proses crawling yang dilakukan oleh Google.

Apa Itu Crawl?

Crawl adalah proses yang digunakan bot search engine untuk mengunjungi halaman baru dan yang diperbarui untuk ditambahkan ke indeks. Click To Tweet

Pengertian di atas saya ambil dari halaman resmi Google [1].

Artinya, jika website anda tidak bisa di crawling oleh mesin pencari, maka website anda tidak akan muncul pada mesin pencari.

Berikut ini videonya :

Apa Itu Indexing?

Indexing adalah proses yang dilakukan Google atau mesin pencari yang lain dalam memahami elemen-elemen dalam suatu halaman.

Ini merupakan tahapan kedua, jadi hanya halaman yang sudah di crawl lah yang dapat masuk ke dalam index Google.

Selain itu anda juga harus tahu tahapan kerja search engine yang terakhir, yaitu ranking.

Apa Itu Proses Ranking Google?

Proses ranking Google adalah proses pemberian peringkat pada hasil pencarian Google dan menayangkannya kepada pengguna.

Banyak orang yang terjebak dengan berfokus hanya pada optimasi proses ranking saja. Oleh karena itu berbagai upaya optimasi yang mereka lakukan tidak banyak membuahkan hasil

Apa Itu Web Crawler?

Web Crawler adalah program yang sengaja dibuat untuk melakukan proses crawl. Google memiliki berbagai jenis web crawl.

Google menggunakan banyak sekali komputer untuk meng-crawl miliaran halaman web yang ada. Pada Google, program yang melakukan crawl ini disebut Googlebot (juga dikenal sebagai robot, bot, atau spider).

Googlebot menggunakan proses algoritma untuk menentukan situs mana yang di-crawl, seberapa sering, dan jumlah halaman yang akan di crawl dari tiap situs.

Contoh Web Crawl

Selain Googlebot ada beberapa web crawler lain yang perlu anda ketahui:

  • Bingbot dari Bing
  • DuckDuckBot dari DuckDuckGO
  • Alexa Crawler dari Amazon
  • Baiduspider dari Baidu (mesin pencari dari China)
  • Yandex Bot dari Yandex (mesin pencari dari Rusia)

Kenapa Mesin Pencari Melakukan Crawling?

Karena jumlah website terus bertambah, maka Google harus terus mencari halaman baru dan menambahkannya ke daftar halaman yang dikenal.

Beberapa halaman sudah dikenal karena telah di-crawling Google sebelumnya.

Selain itu, halaman-halaman yang sudah di-crawling-pun harus di crawling kembali jika pada halaman tersebut ada perubahan.

Bagaimana Proses Crawling Bekerja?

Pertama, Google dan mesin pencari yang lain akan berusaha menemukan URL atau link halaman website baru yang belum mereka kenal.

Proses ini akan dibantu oleh link, baik itu internal link ataupun backlink sama-sama memiliki peranan penting. Selain itu, sitemap juga memiliki peranan besar dalam proses ini.

Mesin pencari akan terus menelusuri lewat link dan sitemap yang dapat ditemukan, sehingga akhirnya Google mendapatkan informasi dan data dari halaman-halaman tersebut.

Saat mengunjungi halaman-halaman itu Googlebot biasanya menemukan link menuju halaman baru dan menambahkannya ke daftar halaman yang akan di-crawl. Disinilah backlink memiliki peran besar.

Saya sudah menulis artikel khusus mengenai backlink, silakan pelajari lebih lanjut disini :

Data-data yang didapat dari proses ini berupa halaman baru, perubahan terhadap situs yang ada, dan link mati akan dicatat serta digunakan untuk memperbarui indeks Google.

Pada proses crawling ini Google menggunakan daftar URL halaman web, yang didapat dari proses crawling sebelumnya. Selain itu, Google juga memanfaatkan sitemap yang dibuat dan dikirimkan oleh pemilik website.

Dari sitemap ini Google dapat menemukan halaman lain yang belum memiliki backlink. Saya sudah menulis artikel khusus mengenai sitemap ini :

Proses Render

Pada saat melakukan crawling Google berusaha memahami halaman-halaman website yang telah ditemukan. Mesin pencari berusaha untuk mencari tahu apa yang ada di dalam halaman itu.

Ini biasa dikenal dengan istilah render. Dalam proses render Google menggunakan Chrome versi terbaru. Jadi pastikan halaman website anda sudah kompetibel.

Google merender halaman dan menganalisis konten teks, non-teks, serta tata letak visual secara keseluruhan. Semakin baik Google memahami situs Anda, semakin besar kemungkinan anda muncul pada halaman hasil pencarian.

Jadi bantulah mesin pencari untuk memahami website anda.

Cara Optimasi Crawl Google

Berikut ini beberapa cara yang adapat anda lakukan untuk membantu Google menemukan halaman di situs Anda:

Buat dan kirim sitemap pada search console.

Proses ini sudah saya jelaskan pada artikel mengenai sitemap, pada link di atas.

Gunakan URL yang sederhana

Kriteria URL yang disenangi Google adalah yang dapat dibaca manusia. Hindari menggunakan URL dengan angka tanpa teks hingga sulit dibaca. Dan pastikan juga URL anda relevan untuk halaman Anda,

Gunakan Internal Link

Mencantumkan link internal pada halaman website yang relevan juga dapat membantu proses crawl.

Pastikan bahwa semua laman di situs anda dapat dicapai menggunakan link dari laman lain. Link perujuk harus menyertakan teks atau gambar yang memiliki atribut alt, yang relevan dengan halaman target.

Saya sudah membuat artikel khusus mengenai optimasi internal link, silakan baca pada link berikut :

Gunakan Parameter URL

Jika website anda menggunakan parameter tertentu untuk menentukan kontennya, maka gunakanlah parameter URL. Biasanya fitur ini digunakan untuk pilihan bahasa pada suatu website.

Hindari pengguna parameter non URL karena mungkin Google tidak dapat mengenalinya. Biasanya ini terjadi pada website berbasis javascript.

Gunakan Sitemap

Buatlah sitemap dengan link yang mengarah ke halaman penting di situs Anda. Sediakan juga halaman berisi daftar link ke halaman tersebut yang dapat dibaca manusia.

Jika anda kurang memahami masalah sitemap ini, silakan perdalam lagi dengan membaca artikel saya berikut ini.

Batasi Jumlah Link

Batasi jumlah link pada suatu halaman dalam jumlah yang wajar (maksimum beberapa ribu).

Gunakan If-Modified-Since

Pastikan server web Anda mendukung header HTTP If-Modified-Since dengan benar.

Fitur ini dapat berfungsi agar web server Anda memberi tahu Google jika ada konten yang berubah sejak terakhir kali di-crawl. Dengan adanya fitur ini, akan menghemat bandwidth dan overhead.

Gunakan Robot TXT

Gunakan file robots.txt untuk mengelola crawl budget dengan mencegah proses crawling pada halaman-halaman yang tidak diperlukan. Selalu perbarui file robots.txt Anda.

Apa Itu Crawl Budget?

Menurut dokumentasi Google, crawl budget adalah jumlah URL yang dapat dan ingin dirayapi Googlebot.

Crawl Budget adalah jumlah halaman yang akan dirayapi Google di situs Anda pada hari tertentu. Jumlah ini dapat berbeda dari hari ke hari, namun secara umum, jumlahnya relatif stabil.

Apa Itu Crawl Budget?

Crawl budget memiliki peranan penting dalam dunia SEO. Oleh karena itu sangat penting bagi anda untuk mendalami hal ini. Silakan baca lebih lanjut mengenai crawl budget pada artikel saya berikut ini.

Nah, satu hal lagi yang perlu kita bahas adalah cara memblokir proses crawl. Pada beberapa kondisi, hal ini sangat dibutuhkan.

Cara Memblokir Web Crawler?

Anda bisa memblokir atau melarang web crawler untuk melakukan crawling menggunakan robots.txt. Berikut ini penjelasannya :

Mungkin anda bertanya-tanya, kenapa harus diblokir? Apakah ada konten kita yang tidak perlu dicrawl oleh Google?

Jawabannya adalah iya ada. Selalu ada kondisi dimana kita tidak ingin suatu konten tersebut masuk ke dalam index Google.

Contoh yang paling sering terjadi di dunia SEO adalah konten duplikat. Dalam SEO, duplikat konten sering menimbulkan masalah jika tidak dikelola dengan baik. Dan salah satu cara mengelolanya adalah dengan melarang Google untuk meng-crawl konten tersebut.

Cek Fakta Proses Crawl Google

Berikut beberapa fakta mengenai crawling yang harus Anda ketahui.

Fakta Google Crawling yang wajib Anda ketahui

Apakah Kompresi Pada Sitemap Dapat Menaikkan Crawl Budget?

Tidak. Kompresi pada sitemap tidak mempengaruhi crawl budget.

Apakah Google Menyukai Konten Yang Lebih Baru?

Konten dinilai berdasarkan kualitas bukan dari baru atau tidaknya. Silakan perbarui konten Anda jika memang diperlukan

Tetapi satu hal yang perlu Anda ingat, bahwa tidak ada manfaat yang akan didapatkan dengan membuat sebuah konten seolah-olah baru dengan membuat perubahan kecil dan memperbarui tanggal.

Benarkah Situs Kecil Tidak di-Crawl Sesering Situs Besar

Salah. Jika situs memiliki Anda memiliki konten yang penting dan sering berubah, maka Google akan sering meng-crawl situs tersebut. Jadi tidak ada hubungannya dengan besar kecil suatu situs.

Apakah Kecepatan Situs Dan Error Memengaruhi Crawl Budget

Benar. Mempercepat situs akan memperbaiki pengalaman pengguna sekaligus meningkatkan kecepatan crawling.

Semakin cepat suatu situs berarti berarti waktu yang diperlukan untuk meng-crawl satu halaman juga akan berkurang. Itu artinya dalam durasi yang sama, Googlebot dapat meng-crawl lebih banyak halaman.

Situs yang cepat menunjukkan bahwa server yang digunakan dalam keadaan sehat. Hal ini menunjukkan bahwa Googlebot dapat membuat koneksi yang lebih banyak dengan situs tersebut dalam rangka melakukan proses crawling.

Di sisi lain, jika terdapat banyak error (kode HTTP 5xx error server) atau waktu tunggu koneksi yang tinggi menandakan server sedang mengalami masalah. Hal ini akan dijadikan penanda bagi Googlebot untuk memperlambat proses crawl.

Google mungkin mengalokasikan waktu lebih banyak untuk meng -crawl situs yang memiliki informasi yang lebih penting, meskipun situs tersebut lebih lambat.

Kecepatan itu penting, tapi konten jauh lebih penting.

Sebaiknya perhatikan laporan Statistik Crawling di Search Console dan pastikan jumlah error server rendah.

Benarkan Crawling Adalah Faktor Ranking

Salah. Crawling merupakan salah satu dari tahapan kerja mesin pencari dan bukan salah satu dari faktor ranking Google.

Apakah URL Alternatif Dan Konten Yang Disematkan Mempengaruhi Crawl Budget

Ya, setiap URL yang di-crawl Googlebot akan memengaruhi crawl budget. URL alternatif, seperti AMP atau hreflang, serta konten yang disematkan, seperti CSS dan JavaScript akan menghabiskan crawl budget.

Kode Perintah “crawl-delay” Dapat Mempengaruhi Googlebot

Salah. Kode perintah robots.txt “crawl-delay” merupakan kode perintah yang non-standar jadi perintah tersebut tidak akan diproses oleh Googlebot.

Simpulan

Karena proses crawling ini sangat penting untuk SEO, maka sebisa mungkin kita usahakan agar prosesnya berjalan lancar.

Referensi

  1. Google.

Demikianlah artikel singkat mengenai apa itu crawl. Jangan lupa sampaikan pertanyaan, kritik dan saran pada kolom komentar.

Photo of author

Kanada Kurniawan

Merupakan founder dari Projasaweb. Aktif menulis tentang SEO, SEM dan Social Media serta perkembangan terbaru digital marketing.
Photo of author

Kanada Kurniawan

Merupakan founder dari Projasaweb. Aktif menulis tentang SEO, SEM dan Social Media serta perkembangan terbaru digital marketing.

Support Kami Dengan Berbagi

Berbagi itu mudah dan dapat menebar manfaat untuk lebih banyak orang
SAYA TIDAK TERTARIK
This window will automatically close in 20 seconds