İyinet'e Hoşgeldiniz!

Türkiye'nin En Eski Webmaster Forum'una Hemen Kayıt Olun!

Kayıt Ol!

Robots.txt Analizi ve Hataları Tespit Etme

Webdoktorz

0
İyinet Üyesi
Katılım
24 Temmuz 2008
Mesajlar
309
Reaction score
5
Arama motoru botlarının (örümceklerin) sitenizin içeriğini sağlıklı bir şekilde indexlemesi için gereken Robots.txt dosyasının analizini yapmak artık mümkün. Robots.txt dosyasında yapacağınız bir karakterlik bir hata bile sitenizin yanlış şekilde indexlenmesi yada indexlenmemesine sebep olabilir. Bu yüzden siteniz için oluşturduğunuz Robots.txt dosyasını analiz edip, hatalı ise hatalarını tespit edebilirsiniz.


trans.gif

Check URL kısmına robots.txt dosyanızın bulunduğu dizin linkini yada direk olarak site adresinizi yazabilirsiniz. Ve isterseniz User Agents kısmına hangi arama motoru botlarının (örümceklerinin) standartlarında analiz etmesi için manual giriş yapabilirsiniz. Tavsiyem User Agents kısmına dokunmamanız.
Ve aşağıda Friendfeed.com 'un robots.txt dosyası analizi


Friendfeed'in Robots.txt dosyası analiz sonucu; Robots.txt dosyası hatasız gözüküyor. Başarılı.
Robots.txt analiz servisine BURADAN ulaşabilirsiniz.


KAYNAK: Seohocasi.com
YAZAN: Can Talaylı
 

Wishmaster

0
İyinet Üyesi
Katılım
16 Eylül 2005
Mesajlar
322
Reaction score
0
Konum
Kocaeli
Güzel yalnız bende
User-agent: ia_archiver
Disallow: /

User-agent: duggmirror
Disallow: /
bu satırlarda hata verdi. Seo açısından bunlar allow olması mı gereklidir. Birde
Disallow: /*.php$


Bu arada paylaşım için teşekkürler +REP
 

Alexis

0
İyinet Üyesi
Katılım
24 Ekim 2005
Mesajlar
678
Reaction score
5
Kod:
Disallow: /*.php$

Bu kodda asterix karakteri geçersiz, * karakterini arama botunu ifade ederken kullanabiliyoruz ( User-agent: * ) ama url ifade ederken kullanamıyoruz. $ karakterindeb emin değilim ama o kod sanki .htaccess i andırdı bana.
 

uggur

0
İyinet Üyesi
Katılım
3 Şubat 2008
Mesajlar
153
Reaction score
3
Konum
İzmir
*.php$ tarzı kullanımlar, belirli bir türdeki dosya formatlarını engellemek için kullanılır.

Örneğin aşağıdaki kod php ve gif olan dosyaların indexlenmesini önleyecektir.

Kod:
Disallow: /*.php$
Disallow: /*.gif$
 

Alexis

0
İyinet Üyesi
Katılım
24 Ekim 2005
Mesajlar
678
Reaction score
5
Bu tür bir kullanım ile ilgili bir RFC veya protokol gösterebilir misiniz ?

*.php$ tarzı kullanımlar, belirli bir türdeki dosya formatlarını engellemek için kullanılır.

Örneğin aşağıdaki kod php ve gif olan dosyaların indexlenmesini önleyecektir.

Kod:
Disallow: /*.php$
Disallow: /*.gif$

Daha önce bununla ilgili bulduğum tek şey http://www.robotstxt.org/robotstxt.html sayfasındaki aşağıdaki ifade, bizi ilgilendiren kısımları koyu yaptım:

Note also that globbing and regular expression are not supported in either the User-agent or Disallow lines. The '*' in the User-agent field is a special value meaning "any robot". Specifically, you cannot have lines like "User-agent: *bot*", "Disallow: /tmp/*" or "Disallow: *.gif".


Google ye bakıyoruz 1 tane kullanmış, ama robots.txt deki yazıda Disallow'da kullanılmaz diyor, Allow için birşey demiyor, ancak test aracı ona da jatalı diyor:
http://www.google.com/robots.txt

Kod:
Allow: /toolkit/*.html
 

netster

0
İyinet Üyesi
Katılım
7 Eylül 2004
Mesajlar
445
Reaction score
24
Konum
Ankara
Test aracı 94 standartlarına göre kontrol ediyor. Yani zorunlu olmayan nonstandart komutları hata olarak görüyor aslında hatalı değildir. Bazı botlar bu tip özel satırları kabul ettiği gibi bazılarıda nonstandart satırları görmezden geliyor.

Mesela arama motoru botları Disallow: *.gif satırını gördüğü zaman site içerisinde kullanılan .gif resimleri es geçiyor.
 

uggur

0
İyinet Üyesi
Katılım
3 Şubat 2008
Mesajlar
153
Reaction score
3
Konum
İzmir
* gibi parametreleri tüm botlar desteklemiyor netster'in dediği gibi. Bu yüzden zaman zaman farklı botlara farklı tanımlama yapmak gerekebiliyor. Konu hakkında google yardım sayfasına göz gezdirebilirsiniz. İlgili bölümü buraya aktarayım:

--
Belirli bir dosya türündeki dosyaları (örneğin, .gif) engellemek için şunları kullanın:

User-agent: Googlebot
Disallow: /*.gif$

URL sonu eşlemesini belirtmek için $ karakterini kullanın. Örneğin, .xls ile biten tüm URL'leri engellemek için:

User-agent: Googlebot
Disallow: /*.xls$

---

Bu yapıyı şurada kullanıyorum http://www.mynak.com/robots.txt , aynı şekilde google sonuçlarını inceleyebilirsiniz.

Not: Düzeltiyorum, dosya formatından çok adres sonu eşleşmesi yapmak için $ kullanılıyor. Ama bunu benzer bi şekilde örneğin .php ile bitenleri (.png, .exe vb) engellemek içinde kullanılabilir.
 

Türkiye’nin ilk webmaster forum sitesi iyinet.com'da forum üyeleri tarafından yapılan tüm paylaşımlardan; Türk Ceza Kanunu’nun 20. Maddesinin, 5651 Sayılı Kanununun 4. maddesinin 2. fıkrasına göre, paylaşım yapan üyeler sorumludur.

Üst