Robots.txt dosyasını kullanarak sayfaları engelleme veya kaldırma

ertunc_58 · 25 Şubat 2011

Robots.txt dosyasını kullanarak sayfaları engelleme veya kaldırma

Googlebot'un sitenizdeki sayfaları taramasını önlemek için bir robots.txt dosyası kullanabilirsiniz.

Örneğin, robots.txt dosyasını el ile oluşturuyorsanız, Googlebot'un belirli bir dizindeki (örneğin lemurlar) tüm sayfaları taramasını önlemek için aşağıdaki robots.txt girişini kullanırsınız:

User-agent: Googlebot
Disallow: /lemurlar

Googlebot'un belirli bir dosya türündeki (örneğin .gif) tüm dosyaları taramasını engellemek için aşağıdaki robots.txt girişini kullanabilirsiniz:

User-agent: Googlebot
Disallow: /*.gif$

Googlebot'un ? içeren URL'leri taramasını engellemek için (daha açık belirtmek gerekirse, etki alanı adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'leri) taramasını engellemek için):

User-agent: Googlebot
Disallow: /*?

robots.txt tarafından engellenen içerik sayfalarını taramamamıza veya dizinlerini oluşturmamamıza karşın, bunları web üzerindeki diğer sayfalarda bulduğumuz takdirde URL'leri tarayıp dizinlerini oluşturabiliriz. Sonuç olarak, sayfanın URL'si ve büyük olasılıkla herkesin kullanımına açık olan site bağlantılarındaki metin veya Açık Dizin Projesi'nden bir başlık gibi (www.dmoz.org) diğer bilgiler Google arama sonuçlarında görünebilir. Ancak, sayfalarınızın hiçbir içeriği taranmaz, dizine eklenmez veya görüntülenmez.

Bir sayfanın, başka sitelerde bu sayfa için bağlantı olsa bile Google dizinine eklenmesini bütünüyle önlemek için bir noindex meta etiketi kullanın ve sayfanın robots.txt dosyasında görünmemesini sağlayın. Googlebot sayfayı taradığında, noindex meta etiketini tanır ve URL'yi dizinden çıkarır.

eyaslak · 25 Şubat 2011

ozaman ben şimdi http://www.evosangels.com/subat/files/search/searchtext.xml adresini engellemek için robots.txt ye şunu mu yazmam lazım?

User-agent: Googlebot
Disallow: /http://www.evosangels.com/subat/files/search

yoksa ?

User-agent: Googlebot
Disallow: /subat/files/search

ertunc_58 · 25 Şubat 2011

User-agent: Googlebot
Disallow: /subat/files/search

eyaslak · 25 Şubat 2011

+rep teşekkürlerrr

eyaslak · 25 Şubat 2011

ertunc_58' Alıntı:
User-agent: Googlebot
Disallow: /subat/files/search

En son olarak şuan robots.txt yi açtım şu yazıyor

User-agent: *
Allow: /

bunu sileyim mi yoksa altına mı yazayım ?

ertunc_58 · 25 Şubat 2011

sil birşey olmaz

ata350 · 25 Şubat 2011

Googlebot'un ? içeren URL'leri taramasını engellemek için (daha açık belirtmek gerekirse, etki alanı adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'leri) taramasını engellemek için):

User-agent: Googlebot
Disallow: /*?

Bunun hakkında örnek verirmisin ?

ertunc_58 · 27 Şubat 2011

index.php?
gibi linkler için

Eif · 27 Şubat 2011

yararlı paylaşım :harika:

Ayrıca robots.txt den bahsetmişken mutlaka robots.txt ye sitemap urlsi eklemek gerekir.

En alta

Sitemap: http://siteadresi/sitemap.xml

Bu şekilde arama motorları sitemap adresini otomatik algılayıp, siteyi daha kolay tarayacaklar.

ertunc_58 · 27 Şubat 2011

bilgilendirme için teşekkürler elif

Maxer35 · 3 Mart 2011

teşekkürler verdiğiniz bilgilerle robots.txt oluşturdum.

mbugrad · 10 Aralık 2012

merhaba daha önceden başkası tarafından kayıt edilmiş bir domaini satın aldım, domain bir süre park ta kalmış ve google dizininde şuan ww8 . domainim . com şeklinde bir indexlenmiş sayfası var. bu sayfayı robots txt ile nasıl kaldırabilirim ;??? webmaster tools dan ur kaldırma isteği ancak www . domainim . com /kaldırmak-istediğim-sayfa seklinde verilebiliyor. Dolayısıyla ww8 . yı belirtemiyorum orada

Robots.txt dosyasını kullanarak sayfaları engelleme veya kaldırma

0

0

0

0

0

0

0

0

0

0

0

0