İyinet'e Hoşgeldiniz!

Türkiye'nin En Eski Webmaster Forum'una Hemen Kayıt Olun!

Kayıt Ol!

Sayfa kalitesini değerlendirmede matematiksel bir model

Eif

0
İyinet Üyesi
Katılım
26 Ocak 2005
Mesajlar
7,944
Reaction score
249
Bir önceki yazımda SEO ile ilgili eskimiş bilgilerden kurtulmak açısından kalite kavramı ile tanışmanızı önermiştim. Bu yazı sayfa kalitesini ölçmek için kullanılan yöntemler ve kalite kavramını anlamaya, hiç bilmeyenler için de bu kavrama giriş yapmaya yardımcı olacaktır. Araştırma BloomReach teknoloji müdürü Ashutosh Garg tarafından yapılmış ve tarafından konu ile ilgili bu yazı yayınlanmıştır. BloomReach'den önce kendisi Google şirketinde dört yıldan fazla çalışmıştır (IBM araştırma bölümünde) Ashutosh aynı zamanda bilgisayar eğitimi konusunda ders kitabının yazarıdır ve 30'dan fazla bilimsel makaleleri vardır.

Bu yazıda, sayfa kalitesi kavramına arama motoru ve kullanıcı açısından bakış açısı ele alınmıştır.

Sayfa kalitesi çok geniş bir kavramdır, ama belirli bir algoritma sayfayı nokta tabanlı değerlendirmeyi esas alan belli koşullara bağlıdır. Bu makalede herhangi bir ayrıntılı algortma yer almamaktadır. Sayfanın kalitesini değerlendirmek ve adaptasyon için koşullarını belirlemek için gerekli yapı ele alınmıştır.

Sayfanın kalitesi neden çok önemli bir faktördür:

1. Arama motoru: Arama motoru bu sinyali sayfayı değerlendirerek, o sayfanın kullanıcının sorgusu ile alakalı olup olmadığını belirlemek için kullanır. Buna ek olarak, sayısal puan uygulayarak, diğer sayfalara göre bir sayfanın göreceli olarak daha iyi olup olmadığına karar verebilirsiniz.

2. Reklam hedefleme: Kullanıcıya için herhangi bir reklam gösterilirken, reklam ağı programı sayfada gösterilen reklamların kullanıcının sorgusuna gerçekten uygun olup olmadığını belirleyebilir.

3. Algılama: Sayfanın kalitesi hiç sorgu yoksa bile belirlenebilir ve bu sayfanın son kullanıcıya gerçekten önerilip önerilmeyeceğine karar verilebilir.

Bu makalede sayfa kalitesinin değerlendirilmesinde yer alan çeşitli algoritmalara yer verilmiştir. Algoritmaların birinci grubu yapılan sorguda puanlamaya dayanarak belgenin değerlendirilmesi temeline dayanır:

Bilgiye yönelik değerlendirme: Bu değerlendirme yapılan sorguya en uygun sonuçlar arasında değerlendirmeyi temel alır. Bu şüphesiz sayfanın kalitesini belirlemede uygulanabilir en mühim değerlendirmedir. Bu algoritma çeşitli arama motorları tarafından uygulanmıştır.

Q = {q1, q2, q3} ele alınan bu sorguda üç kelime ve P sayfası vardır puanlama yapılması için aşağıdaki adımlar uygulanır:

1. Sayfanın her bölümü için göreceli bir ağırlık kavramı: Standart bir web sayfası çeşitli bölümlere ayrılabilir. örneğin (H1,H2,H3) başlıklar, metnin kendisi, kalın yazılar, küçük yazılar (daha küçük karakterler), sayfanın üst kısmında yer alan metin, bağlantılar, şablonlar, resimlerdeki yazılar, sayfa adresindeki yazılar vb. Uygulamaya bağlı olarak, sayfanın farklı unsurlarına farklı bir ağırlık belirlenebilir. İlk önce kullanıcının sayfaya nasıl ulaşacağını ve ilk izlenimini anlamak gerekir. Arama yapan kullanıcı başlık ve snippeti okuyarak sayfaya ulaşacaktır. Sayfanın üst kısmında yer alan metni okuyan kullanıcıda sayfa ile ilgili ilk izlenim oluşacaktır.

2. Sorguya bağlı özellikler oluşturma: Sorgu n-gramlara ayrılır (bigram 2 kelime uzunluğunda ifade içerir) Daha sonra her bir n-grama belirli bir ağırlık atanır. Örneğin; sorgu "canon dijital kamera" (dijital kamera "Canon") olsun. Bu sorguda "canon" önemli bir unigram sayılır (marka içerdiğinden dolayı) "canon dijital" (dijital canon) kötü bir öbektir, "dijital kamera" ise iyidir. Geleneksel olarak ağırlık kullanmada TF-IDF (Term Frequency and Inverse Document Frequency) isimli formül kullanılır. TF-IDF hesaplamak için terim seçerken dikkatli olmak gerekir. Ağırlık belirlemede bu terimler metinde geçenlere uygun olamlıdır.

3. TF-IDF hesaplamasında belgenin kalitesi: Sitedeki tüm sayfalardan oluşan belge herhangi bir sorgulamaya uygun olacaktır. Ama çok büyük bir sayfa ile başa çıkmak istenmeyen bir durumdur. Bunun dışında sayfaya gelen ziyaretçilerin hangi platformu kullandıklarını belirlemek gerekli olacaktır. Ziyaretçiler daha fazla akıllı telefon (smart phone) kullanıyorlarsa belgenin ideal uzunluğu 500 kelime altı, tablet kullanıyorlarsa 1000 kelime altı, dizüstü bilgisayarlar için 3000 kelime altı olacaktır. Sayfanın uzunluğuna göre bir puanlama sistemi kullanmak önerilir. Bu konuda çok sayıda doküman bulabilirsiniz.

4. Belgeyi değerlendirmede basit bir sistem aşağıdaki gibi olabilir.

Ekli dosyayı görüntüle 4723

P sayfası di alanları ve wi ağırlığı içerir, Q sorgusu ise qk kelimelerinden oluşur. Sayfanın uzunluğu L, ifadelerin sayısı Nq, f ise f - belgenin uzunluğuna bağlı normalleşme fonksiyonu öğesi.

Hangi sayfa "canon dijital kamera" sorusu için en yüksek puanı alır?

Ekli dosyayı görüntüle 4724

Her iki sayfa da dijital kamera "Canon" içeriklidir, aşağıdaki tabloya göre en yüksek puanlama nasıl yapılabilir?

Ekli dosyayı görüntüle 4725

Yararlılık değerlendirmesi: Sayfa ile kullanıcıların etkileşimine dayanan bir değerlendirmedir ve belirli sayfanın kullanıcılar tarafından ne kadar sıklıkla yararlı bulunduğunu yansıtır.

Çoğu web sayfası için başarıyı belirleme faktörleri vardır. (ayrıca geri dönüşüm olarak da bilinir) E-ticaret sitelerindebu geri dönüşüm bir ürün veya hizmet satın alma olarak tanımlanır. Potansiyel müşterileri çekmeyi hedefleyen siteler için form doldurtma olarak tanımlanabilir. Ağ siteleri için bu, görüntüleme, sayfa veya video izleme gibi etkileşimler olabilir. Herhangi bir sorgu için bir geri dönüşüm oranı hesağlanabilir ve bu oran puanlamada doğrudan olarak kullanılabilir.

Bu durumda ortaya çıkabilen problem veri yetesizliğidir. E-ticaret sitesi dönüşüm oranı sadece % 0.5 olabilir. Bu ortalama olarak bir sorgudan gelen her 200 hit için bir dönüşüm var demektir. Düşük frekanslı sorgular bu tür bir hesaplamayı imkansız kılmaktadırlar. Böyle bir sorun birkaç yöntemle çözülebilir:

1. Sorguların toplamına göre oranlama: Kesin değil soyut sorguya göre hesaplama yapılır. [canon dijital kamera] sorgusu için şu şekilde özetlenebilir.

3 kelimeden oluşan sorgu
marka ismini içeren sorgu
sayfa adında tüm kelimeleri içeren sorgu

2. Artık 3 kelimeden oluşan, marka ismi içeren ve sayfa adında tüm kelimeleri içeren sorguların geri dönüşüm oranının ne olduğu söylenebilir. Böyle bir genellemenin çok geniş veya dar olabileceğini görüyoruz. Mevcut verilerin hacmine bağlı olarak soyutlama düzeyi seçilebilir.

3. "Gereksiz hitler" alternatif olarak kullanılabilir. Geri dönüşüm oranı yüzde 0.5 ise "gereksiz hit" oranı genellikle yüzde 20 ile 80 arasındadır. Bu sayfa kalitesinin ziyaretçi beklentilerinin altında olduğuna bir işarettir. Burada dikkatli olmak gerekir, çünkü "gereksiz hit" göstergesi geri dönüşüm oranını her zaman yeterli düzeyde yansıtmayacaktır.

Sayfa kalitesini belirlemede sorgudan bağımsız hesaplama örneklerine aşağıdakiler gösterilebilir:

Davranışsal puanlama: Sayfanın kullanıcılar tarafından nasıl algılandığı kalitesinin belirlenmesinde önemli bir göstergedir. Bu özellik kullanıcının davranışları analiz edilerek ölçülebilir. Geleneksel olarak aşağıdaki faktörler kullanılır:

1. Geri dönüşümlerin puanlamaya tabi tutulması - Sorgulardan bağımsız olarak geri dönüşüm oranı hesaplanır.

2. "Gereksiz hitler" göstergesi - Sorgulardan bağımsız olarak sayfada bulunan gereksiz hitlerin sayısı dikkate alınır.

3. Sayfa gösterimi - Site ziyaret edildikten sonra görüntülenen sayfa sayısı, ilk sayfadan sonra kaç sayfanın görüntülenmesi.

4. Bu sayfaya geri gelen ziyaretçi sayısı - Bu sayfayı tekrar ziyaret eden ziyaretçilerin sayısı.

5. Kaç kullanıcının sayfayı ziyaret ettikten sonra sepetine ürün eklediği.

6. Sayfada geçirilen ortalama zaman.

Davranışını karakterize eden sinyalleri izole ederek analiz etmek doğru değil. Benzer diğer sayfalara göre analiz edilmelidir. Örneğin, satıcının internet sitesinde, bir ürün ya da diğer benzer sayfalara göre kullanıcının davranışını karşılaştırabilirsiniz.

Puanlama için basit bir yol:

Ekli dosyayı görüntüle 4726

fi sayısı karakteristik bir değerdir ("gereksiz hit" gibi), mfi - tüm benzer sayfalarda fi ortalama değeri, wi ağırlık endeksidir.

Daha sofistike bir yöntem siteyi terkedip sorguda yer alan başka bir sonuç sayfasını tercih eden kullanıcıların sayısını belirleme yöntemidir.

Sayfanın itibarı: Sayfa sıralaması diğer sayfalara kıyasla belirli sayfanın popülerliğini belirleyen bir yöntemdir. Orijinal sayfadan hareket ettikçe belirli sayfaya ulaşabilme mesafesi o sayfanın bilinirliğiini etkileyen bir faktördür.

Sayfada kullanılan dilin kalitesi: İçerik için bir dil modeli inşa edilebilir ve dil modeli açısından ziyaretçilerin beğenisine göre sayfa değerlendirilebilir. Dil modeli inşası için bazı kaynaklar:

http://dl.acm.org/citation.cfm?id=383970

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.76.1126

http://dl.acm.org/citation.cfm?id=243206

Tüm değerlendirmeler hesaplama sonrası kombine edilmelidir.

Değerlendirmenin aşağıdakileri içerdiğini varsayalım:

IR (bilgi alma değerlendirilmesi)
B (davranışsal değerlendirme)
R (sayfa itibar puanı ya da sıralaması)
LM (dil modeli skoru)

Bu değerlendirmeleri birleştirmek için bir yöntem:

Ekli dosyayı görüntüle 4727

Her değerlendirme için belirli ağırlık ölçüsü atanabilir. Örneğin yeni bir site için davranışsal değerlendirme yapmak ilk başta imkansız olacaktır, bu değerlendirmeye atanan ağırlık da daha az olarak belirlenmelidir.

Kaynak: Stonetemple.com
 

Türkiye’nin ilk webmaster forum sitesi iyinet.com'da forum üyeleri tarafından yapılan tüm paylaşımlardan; Türk Ceza Kanunu’nun 20. Maddesinin, 5651 Sayılı Kanununun 4. maddesinin 2. fıkrasına göre, paylaşım yapan üyeler sorumludur.

Üst