Lompat ke konten Lompat ke sidebar Lompat ke footer

Apa Itu Robots.Txt?


Kata-kata 'aneh' yang bakal mimin pake pada postingan ini yaitu :

Index / diindex = dirayapi
Meng-index = merayapi
Bot crawler = robot perayap
Search engine = mesin pencari / penelusur (seperti, Google, Yahoo!, Bing)
Page = halaman
Directory / direktori = folder
Public directory = folder publik
Default = bawaan

Sebagai seorang blogger, kalian mungkin sudah pernah mendengar kata "robots.txt". Dan mimin yakin, ketika pertama kali mendengarnya, kalian bingung. Begitu pula dengan mimin ketika pertama kali mendengarnya. Namun, ketika ini insyaAllah mimin sedikit banyak sudah paham apa itu robots.txt dan bagaimana cara kerjanya. Oleh alasannya yaitu itu, lewat artikel ini mimin akan menyebarkan ilmu yang mimin tahu mengenai robots.txt.

Apa itu Robots.txt?

Robots.txt yaitu sebuah file berformat text (.txt) yang wajib dimiliki setiap situs di internet yang didaftarkan pada search engine menyerupai Google, Yahoo!, dan Bing. Kaprikornus robots.txt sangat bersahabat hubungannya dengan SEO. Robots.txt berfungsi untuk mengontrol halaman atau direktori website mana yang boleh diindex search engine.

Bagaimana cara kerja Robots.txt?

Singkatnya, ketika bot crawler mengunjungi blog / website kalian, file yang pertama kali mereka index yaitu file robots.txt yang terletak pada public directory blog / website kalian. File robots.txt itu sendiri berisi perintah-perintah untuk mengatur bot crawler mengenai halaman mana saja yang boleh diindex di search engine. Hal ini tentu saja untuk melindungi halaman sistem kalian untuk diketahui orang-orang, contohnya halaman Administrator.

Sama halnya dengan website pribadi, blog juga mempunyai file robots.txt, hanya saja di blog biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk blog Blogspot, default robots.txt diatur menyerupai ini :
User-agent: Mediapartners-Google disallow: User-agent: * disallow: /search allow: / sitemap: http://blogURL/feed/posts/default?orderby=UPDATED 

Arti dari isyarat di atas :
  1. "User-agent: Mediapartners-Google": itu berarti bahwa kode-kode yang ditempatkan di bawahnya hanya berlaku untuk bot crawler Mediapartners-Google yang merupakan bot crawler untuk Google Adsense.
  2. "disallow:": itu berarti tidak ada batasan bot crawler untuk mengindex konten yang ada di blog tersebut.
  3. "User-agent: *": ini berarti isyarat / perintah yang ditempatkan di bawahnya berlaku untuk semua bot crawler (diwakili dengan tanda bintang '*').
  4. "disallow: /search": melarang bot crawler untuk mengindex URL yang mempunyai awalan "http://domainblogmu.com/search".
  5. "allow: /": membiarkan bot crawler mengindex semua page kecuali yang dicantumkan pada perintah disallow.
  6. "sitemap:": ini yaitu sitemap dari blog kalian yang diberitahukan kepada bot crawler biar gampang ketika menjelajahinya lagi. Sitemap ini berisi semua URL yang ada di blog kalian untuk diindex oleh bot crawler.
Kesimpulan dari kode-kode di atas yaitu :

  • File robots.txt memperbolehkan bot crawler Google Adsense (User-agent: Mediapartners-Google) untuk mengindex semua page pada blog kalian.
  • Mengizinkan semua bot crawler dari search engine manapun (User-agent: *) mengindex semua page blog kalian kecuali page dengan URL yang mempunyai awalan http://domainblogmu.com/search.

Bagaimana cara mengatur Robots.txt?

Jika kalian ingin memodifikasi atau mengatur robots.txt maka kalian harus berhati-hati alasannya yaitu kesalahan sedikit saja pada isyarat robots.txt sanggup menyebabkan blog / website kalian tidak terindex oleh search engine. Oleh alasannya yaitu itu, mimin akan menjelaskan bagaimana memodifikasi atau mengatur robots.txt dengan benar.

A. Memblokir URL

Contoh kasus, misal kalian ingin memblokir postingan tertentu biar tidak diindeks oleh semua bot crawler search engine, kalian sanggup melakukannya dengan menempatkan isyarat di bawah ini :
User-agent: * disallow: /2018/04/url-postingan-yang-ingin-diblokir.html 
Kode yang mimin warnai di atas merupakan pola struktur URL permalink blogspot yang diblokir tanpa menuliskan nama domain blog di depannya.

B. Memblokir Folder / Direktori

Untuk memblokir semua bot crawler search engine mengindeks direktori (beserta isinya) pada website / blog kalian, kalian sanggup melakukannya menyerupai isyarat yang mimin tuliskan di bawah ini :
User-agent: * disallow: /foldergambar/ disallow: /folderadmin/

C. Memblokir URL yang Mengandung Karakter / Kata Tertentu

Contoh kasus, mimin mau memblokir semua bot crawler search engine mengindex halaman yang pake huruf tanda tanya (?) yang biasanya digunakan pada URL untuk query string atau pencarian pada web tertentu yang menyebabkan duplikat. Maka mimin akan memakai isyarat di bawah ini :
User-agent: * disallow: /*?*

D. Memblokir Akses Pada Ekstensi / Format File Tertentu

Contoh kasus, mimin mau memblokir semua bot crawler search engine supaya tidak mengindex file dengan ekstensi (format) tertentu, maka mimin akan memakai isyarat di bawah ini :
User-agent: * disallow: /*.php$ disallow: /*.js$ disallow: /*.jpg$ disallow: /*.png$ 
Saat kalian memodifikasi robots.txt, kalian sanggup mengatur bot crawler mana saja yang diperbolehkan melaksanakan index pada blog / website kalian. Berikut mimin kasih list beberapa bot crawler paling populer yang sering digunakan orang-orang di luaran sana :

  1. Googlebot - bot crawler dari Google.
  2. Baiduspider - bot crawler dari Baidu.
  3. MSN Bot/Bingbot - bot crawler dari Bing yang dimiliki oleh perusahaan teknologi besar, Microsoft.
  4. Yandex Bot - bot crawler dari Yandex.
  5. Soso Spider - bot crawler dari Soso yang dimiliki oleh perusahaan berjulukan Tencent Holdings Limited (Cina).
  6. Exabot - bot crawler dari ExaLead.
  7. Sogou Spider - bot crawler dari Sogou.com (Cina)
  8. Google Plus Share - bot crawler dari Google.
  9. Facebook External Hit - bot crawler dari Facebook.
  10. Google Feedfetcher - bot crawler dari Google.
  11. Mediapartners-google - bot crawler Google Adsense.
  12. Yahoo Slurp - bot crawler dari Yahoo!.

Oke, mimin rasa cukup itu saja yang sanggup mimin bagi untuk hari ini. Jika kalian masih galau jangan sungkan-sungkan untuk bertanya eksklusif ke mimin, sanggup lewat kolom komentar di bawah atau eksklusif kirim lewat Halaman Kontak.

Semoga bermanfaat and.. happy weekend!

Sumber https://bee-id.blogspot.com/