Standart bir Robots.txt dosyasında admin panel bilgileri dışında tüm siteye botların erişimine izin verilir. Ancak sitenin bazı bölümlerine saldırıların olması, buralara da Robots.txt dosyası yardımı ile botların gelmesini engellemeyi gerektirebilir. Robots.txt dosyası oluşturmadan önce sizin de işinize yarayacağını umduğum Robots.txt kodlarını sizlerle paylaşmak istiyorum. Robots.txt kodları kaynakta da gösterildiği gibi Google tarafından tavsiye edilen kodlardır.
Robots.txt dosyası, sitenizin kök dizininde bulunur. Dolayısıyla example.com sitesinde robots.txt dosyası example.com/robots.txt adresinde bulunur. Robots.txt, Robot Hariç Tutma Standardı'na uygun bir düz metin dosyasıdır. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural belirli bir tarayıcının söz konusu web sitesindeki belirli bir dosya yoluna erişimini engeller (veya erişimine izin verir).
Aşağıda, iki kural içeren basit bir robots.txt dosyasının içeriği gösterilmektedir:
Açıklama:
example.com/ altındaki tüm URL'lerde taramayı kontrol etmek için robots.txt dosyası
example.com/robots.txt konumuna yerleştirilmelidir.
Bir alt dizine (örneğin, example.com/pages/robots.txt) yerleştirilemez.
Söz dizimi
User-agent: Googlebot
Disallow: /
# 2. Örnek: Googlebot'u ve Adsbot'u engelleme
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# 3. Örnek: AdsBot tarayıcıları dışındaki her şeyi engelleme
User-agent: *
Disallow: /
Site haritası: http://www.example.com/sitemap.xml
Kaynak:
Robots.txt dosyası oluşturma
https://support.google.com/webmasters/answer/6062596?hl=tr#
Güncellenen robots.txt dosyanızı Google'a gönderme
https://support.google.com/webmasters/answer/6078399?hl=tr&ref_topic=6061961
Robots.txt dosyası, sitenizin kök dizininde bulunur. Dolayısıyla example.com sitesinde robots.txt dosyası example.com/robots.txt adresinde bulunur. Robots.txt, Robot Hariç Tutma Standardı'na uygun bir düz metin dosyasıdır. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural belirli bir tarayıcının söz konusu web sitesindeki belirli bir dosya yoluna erişimini engeller (veya erişimine izin verir).
Aşağıda, iki kural içeren basit bir robots.txt dosyasının içeriği gösterilmektedir:
Kod:
# 1. Kural
User-agent: Googlebot
Disallow: /nogooglebot/
# 2. Kural
User-agent: *
Allow: /
Site haritası: http://www.example.com/sitemap.xml
Açıklama:
- "Googlebot" tarayıcısı adlı kullanıcı aracısı, example.com/nogooglebot/ klasörünü veya herhangi bir alt dizinini taramamalıdır.
- Diğer tüm kullanıcı aracıları sitenin tamamına erişebilir. (Tam erişim sağlandığı varsayımından hareketle bu durum belirtilmese dahi sonuç aynı olacaktır.)
- Sitenin Site haritası dosyası, example.com/sitemap.xml adresinde bulunmaktadır.
example.com/ altındaki tüm URL'lerde taramayı kontrol etmek için robots.txt dosyası
example.com/robots.txt konumuna yerleştirilmelidir.
Bir alt dizine (örneğin, example.com/pages/robots.txt) yerleştirilemez.
Söz dizimi
- Robots.txt bir ASCII veya UTF-8 metin dosyası olmalıdır. Başka hiçbir karaktere izin verilmez.
- Robots.txt dosyası, bir veya daha fazla kuraldan oluşur.
- Her kural çok sayıda yönergeden (talimattan) oluşur ve her satırda bir yönerge bulunur.
- Bir kuralda şu bilgiler verilir:
- Kuralın kimin için geçerli olacağı (kullanıcı aracısı)
- Söz konusu aracının erişebileceği dizinler veya dosyalar ve/veya
- Söz konusu aracının erişemeyeceği dizinler veya dosyalar.
- Kurallar yukarıdan aşağıya doğru işlenir ve kullanıcı aracısı, yalnızca bir kural grubuyla eşleşebilir. Bu, belirli bir kullanıcı aracısıyla eşleşen ilk ve en ayrıntılı kural olur.
- Varsayılan olarak bir kullanıcı aracısının Disallow: kuralıyla engellenmeyen bir sayfayı veya dizini tarayabileceği kabul edilir.
- Kurallar büyük/küçük harfe duyarlıdır. Örneğin, Disallow: /file.asp kuralı example.com/file.asp için geçerli olur ancak example.com/FILE.asp için geçerli değildir.
User-agent: Googlebot
Disallow: /
# 2. Örnek: Googlebot'u ve Adsbot'u engelleme
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# 3. Örnek: AdsBot tarayıcıları dışındaki her şeyi engelleme
User-agent: *
Disallow: /
- Disallow: [Kural başına en az bir veya daha fazla Disallow veya Allow] Kullanıcı aracısı tarafından taranmaması gereken bir dizin veya sayfa; kök alanla göreli olarak belirtilir. Bu bir sayfaysa, tarayıcıda gösterildiği şekliyle tam sayfa adı olmalıdır; bir dizinse, / işaretiyle sona ermelidir. Yol önekleri, sonek veya dizenin tamamı için * joker karakterini destekler.
- Allow: [Kural başına en az bir veya daha fazla Disallow veya Allow] Az önce bahsedilen kullanıcı aracısı tarafından taranması gereken bir dizin veya sayfa; kök alanla göreli olarak belirtilir. Bu parametre, izin verilmeyen bir dizindeki bir alt dizinin veya sayfanın taranmasına izin vermek üzere Disallow parametresini geçersiz kılmak için kullanılır. Bu bir sayfaysa, tarayıcıda gösterildiği şekliyle tam sayfa adı olmalıdır; bir dizinse, / işaretiyle sona ermelidir. Yol önekleri, sonek veya dizenin tamamı için * joker karakterini destekler.
- Sitemap: [İsteğe bağlı, dosya başına sıfır veya daha fazla] Bu web sitesinin site haritasının konumu. Tam bir URL olmalıdır; Google, http/https/www.www olmayan alternatifleri varsaymaz veya kontrol etmez. Site Haritaları, Google'a tarayabileceği veya tarayamayacağı içeriğe karşılık hangi içeriği taraması gerektiğinibildirmek için iyi bir yoldur.
Site haritası: http://www.example.com/sitemap.xml
Kaynak:
Robots.txt dosyası oluşturma
https://support.google.com/webmasters/answer/6062596?hl=tr#
Güncellenen robots.txt dosyanızı Google'a gönderme
https://support.google.com/webmasters/answer/6078399?hl=tr&ref_topic=6061961