Apa Itu Crawl? Search Engine & SEO

Crawl adalah proses yang digunakan bot search engine untuk mengunjungi halaman baru dan yang diperbarui untuk ditambahkan ke indeks.

Apa itu crawl? Crawl adalah tahap pertama dari tiga tahap cara kerja search engine. Dengan crawling, search engine dapat mengetahui halaman apa yang ada di web.

Google menyediakan dokumentasi lengkap mengenai proses crawling yang mereka lakukan. Oleh karena itu sebagian besar artikel ini akan merujuk pada proses crawling yang dilakukan oleh Google.

Apa Itu Crawl?

Crawl adalah proses yang digunakan bot search engine untuk mengunjungi halaman baru dan yang diperbarui untuk ditambahkan ke indeks. Click To Tweet

Pengertian di atas saya ambil dari halaman resmi Google [1].

Artinya, jika website anda tidak bisa di crawling oleh mesin pencari, maka website anda tidak akan muncul pada mesin pencari.

Berikut ini videonya :

Apa Itu Web Crawler?

Web Crawler adalah program yang melakukan proses crawl.

Google menggunakan banyak sekali komputer untuk meng-crawl miliaran halaman web yang ada. Pada Google, program yang melakukan crawl ini disebut Googlebot (juga dikenal sebagai robot, bot, atau spider).

Googlebot menggunakan proses algoritma untuk menentukan situs mana yang di-crawl, seberapa sering, dan jumlah halaman yang akan di crawl dari tiap situs.

Contoh Web Crawl

Selain Googlebot ada beberapa web crawler lain yang perlu anda ketahui:

  • Bingbot dari Bing
  • DuckDuckBot dari DuckDuckGO
  • Alexa Crawler dari Amazon
  • Baiduspider dari Baidu (mesin pencari dari China)
  • Yandex Bot dari Yandex (mesin pencari dari Rusia)

Kenapa Mesin Pencari Melakukan Crawling?

Karena jumlah website terus bertambah, maka Google harus terus mencari halaman baru dan menambahkannya ke daftar halaman yang dikenal.

Beberapa halaman sudah dikenal karena telah di-crawling Google sebelumnya.

Selain itu, halaman-halaman yang sudah di-crawling-pun harus di crawling kembali jika pada halaman tersebut ada perubahan.

Bagaimana Proses Crawling Bekerja?

Pertama, Google dan mesin pencari yang lain akan berusaha menemukan URL atau link halaman website baru yang belum mereka kenal.

Proses ini akan dibantu oleh link, baik itu internal link ataupun backlink sama-sama memiliki peranan penting. Selain itu, sitemap juga memiliki peranan besar dalam proses ini.

Mesin pencari akan terus menelusuri lewat link dan sitemap yang dapat ditemukan, sehingga akhirnya Google mendapatkan informasi dan data dari halaman-halaman tersebut.

Saat mengunjungi halaman-halaman itu Googlebot biasanya menemukan link menuju halaman baru dan menambahkannya ke daftar halaman yang akan di-crawl. Disinilah backlink memiliki peran besar.

Saya sudah menulis artikel khusus mengenai backlink, silakan pelajari lebih lanjut disini :

Data-data yang didapat dari proses ini berupa halaman baru, perubahan terhadap situs yang ada, dan link mati akan dicatat serta digunakan untuk memperbarui indeks Google.

Pada proses crawling ini Google menggunakan daftar URL halaman web, yang didapat dari proses crawling sebelumnya. Selain itu, Google juga memanfaatkan sitemap yang dibuat dan dikirimkan oleh pemilik website.

Dari sitemap ini Google dapat menemukan halaman lain yang belum memiliki backlink. Saya sudah menulis artikel khusus mengenai sitemap ini :

Proses Render

Pada saat melakukan crawling Google berusaha memahami halaman-halaman website yang telah ditemukan. Mesin pencari berusaha untuk mencari tahu apa yang ada di dalam halaman itu.

Ini biasa dikenal dengan istilah render. Dalam proses render Google menggunakan Chrome versi terbaru. Jadi pastikan halaman website anda sudah kompetibel.

Google merender halaman dan menganalisis konten teks, non-teks, serta tata letak visual secara keseluruhan. Semakin baik Google memahami situs Anda, semakin besar kemungkinan anda muncul pada halaman hasil pencarian.

Jadi bantulah mesin pencari untuk memahami website anda.

Membantu Proses Crawl

Berikut ini beberapa cara yang adapat anda lakukan untuk membantu Google menemukan halaman di situs Anda:

Buat dan kirim sitemap pada search console.

Proses ini sudah saya jelaskan pada artikel mengenai sitemap, pada link di atas.

Gunakan URL yang sederhana

Kriteria URL yang disenangi Google adalah yang dapat dibaca manusia. Hindari menggunakan URL dengan angka tanpa teks hingga sulit dibaca. Dan pastikan juga URL anda relevan untuk halaman Anda,

Gunakan Internal Link

Mencantumkan link internal pada halaman website yang relevan juga dapat membantu proses crawl.

Pastikan bahwa semua laman di situs anda dapat dicapai menggunakan link dari laman lain. Link perujuk harus menyertakan teks atau gambar yang memiliki atribut alt, yang relevan dengan halaman target.

Saya sudah membuat artikel khusus mengenai optimasi internal link, silakan baca pada link berikut :

Gunakan Parameter URL

Jika website anda menggunakan parameter tertentu untuk menentukan kontennya, maka gunakanlah parameter URL. Biasanya fitur ini digunakan untuk pilihan bahasa pada suatu website.

Hindari pengguna parameter non URL karena mungkin Google tidak dapat mengenalinya. Biasanya ini terjadi pada website berbasis javascript.

Gunakan Sitemap

Buatlah sitemap dengan link yang mengarah ke halaman penting di situs Anda. Sediakan juga halaman berisi daftar link ke halaman tersebut yang dapat dibaca manusia.

Batasi Jumlah Link

Batasi jumlah link pada suatu halaman dalam jumlah yang wajar (maksimum beberapa ribu).

Gunakan If-Modified-Since

Pastikan server web Anda mendukung header HTTP If-Modified-Since dengan benar.

Fitur ini dapat berfungsi agar web server Anda memberi tahu Google jika ada konten yang berubah sejak terakhir kali di-crawl. Dengan adanya fitur ini, akan menghemat bandwidth dan overhead.

Gunakan Robot TXT

Gunakan file robots.txt untuk mengelola crawl budget dengan mencegah proses crawling pada halaman-halaman yang tidak diperlukan. Selalu perbarui file robots.txt Anda.

Apa Itu Crawl Budget?

Menurut dokumentasi Google, crawl budget adalah jumlah URL yang dapat dan ingin dirayapi Googlebot.

Crawl budget memiliki peranan penting dalam dunia SEO. Oleh karena itu sangat penting bagi anda untuk mendalami hal ini. Silakan baca lebih lanjut mengenai crawl budget pada artikel saya berikut ini.

Simpulan

Karena proses crawling ini sangat penting untuk SEO, maka sebisa mungkin kita usahakan agar prosesnya berjalan lancar.

Referensi

  1. Google.

Demikianlah artikel singkat mengenai apa itu crawl. Jangan lupa sampaikan pertanyaan, kritik dan saran pada kolom komentar.