Bilim / Teknoloji

İşte Google’ın formülü!

İnternette yer alan ve sayısı milyonlara varan web siteleri arasından sıyrılmak ve arama listelerinde ilk sıralara yükselmenin yolu Google'ın PageRank adını verdiği formülle sağlan&

09 Kasım 2008 02:00

İnternette yer alan ve sayısı milyonlara varan web siteleri arasından sıyrılmak ve arama listelerinde ilk sıralara yükselmenin yolu Google'ın PageRank adını verdiği formülle sağlanıyor.

Bir kullanıcı, adresini bilmediği bir web sitesine genelde Google’da arama yaparken, sonuçlar arasında rastlarsa gidiyor. İnternetin ve Google’ın kuralları hem çok katı hem de Darwin’in kuramını çağrıştırıyor. Peki, birbirine benzer yüzlerce site varken hangisinin yukarıda hangisinin aşağıda olduğunu kim belirliyor? Bu sorunun yanıtı, Google’ın kurucuları Larry Page ve Sergey Brin tarafından “PageRank” (sayfa sıralama) formülü adıyla yanıtlıyor. Bu formülü bilen, anlayan ve kullanan, internete hükmediyor. Doğru dürüst kullanamayansa cezasını çekiyor. Peki, PageRank nasıl işliyor ve bir web sitesi hangi durumda arama listelerinin zirvesine yerleşiyor?

PageRank: İşte formülün içyüzü

PageRank sisteminin ardında çok basit ve dürüst bir yaklaşım yatıyor.

1. Her web sitesi için, o siteye bağlantı veren bir grup başka web sitesi vardır.

2. Bu web sitelerinin de her birinin kendi PageRank değeri bulunur.

3. B sayfasından A sayfasına verilen bir bağlantı, B’nin A’ya destek oyu sayılır.

4. Ek olarak, A sayfasına oy veren B sayfasının PageRank’i de değerlendirmeye katılır. B’nin sıralama değeri ne kadar yüksekse o kadar iyidir.

5. B sayfasında kaç adet bağlantı verildiği de önemlidir. B’deki toplam bağlantıların sayısı ne kadar azsa, bu A’nın PageRank’ini o kadar olumlu yönde etkiler.

6. Tüm PageRank’lerin toplamı, web’deki tüm dokümanların toplam sayısına eşittir. PageRank, bir belgenin tüm internetteki ağırlığı ile ilgilidir.

Unutmayın ki, PageRank değeri web siteleri için değil, her bir web sayfası için hesaplanıyor. Bu yüzden, bir web sunucusunda yer alan bir makalenin anasayfanınkinden daha yüksek bir değere sahip olması mümkün.

Bunu bir formüle dönüştürdüğünüzde, PageRank şu şekilde görünüyor: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/ C(Tn))

Bu da şu şekilde okunabilir: A sayfasının sayfa sıralaması, T1’den Tn’e kadar giden sayfaların sayfa sıralaması değerinin, bu sayfalardaki bağlantı sayısına bölünmesiyle elde edilir. Buna, daha sonraki işlemlerde büyük rol oynayan bir de handikap faktörü ekleniyor.

PageRank ilkesini biraz daha anlaşılır kılmak için, tüm WWW’nin sadece dört sayfadan oluştuğunu farz edelim. Bunlar da A, B, C ve D isimli web siteleri olsun. Hepsinin de başlangıçtaki sayfa sıralaması değerlerinin 1 olduğunu varsayalım. Sayfa sıralama değerlerinin toplamı, internette yer alan toplam sayfa sayısını, yani 4’ü verecektir. İlk örneğimiz için, B, C ve D’ye A’dan birer bağlantı verilmiş olsun. Bundan başka hiçbir bağlantı bulunmasın. Handikap faktörünü şimdilik hesaba katmayacağımız için formülümüz şu hali alıyor: PR(A) = 1/1 + 1/1 + 1/1

Böylelikle, A’nın PageRank’i 3 ediyor. Biraz daha karmaşık olan, aşağıdaki grafiğe bir göz atalım. A sayfası B’ye ve C’ye bağlantı veriyor. B, sadece A’ya bağlantı veriyor. C ise A, B ve D’ye. D’nin tek bağlantısı ise B sayfasına. Bu durumda, A’nın formülü aşağıdaki gibi olacaktır:

PR(A) = 1/1 + 1/3 Çünkü B’den gelen bağlantı 1 sayılmıştır. C’de ise üç bağlantı bulunduğundan, oradan gelen bağlantı 0,33 değerindedir. Böylelikle toplam değer 1,33 olur. B içinse aşağıdaki kural geçerlidir:

PR (B) = 1/2 + 1/3 + 1/1 Bu da yaklaşık 1,83 eder. C ise şu şekilde hesaplanır:

PR (C) = ½ Bu yüzden de değeri 0,5’tir. D’nin değeri ise:

PR (D) = 1/3 Yani yuvarlak hesap 0,33’tür. Toplamda, yine tüm sayfaların sayısını elde etmemiz gerekiyor:

1,33 + 1,83 + 0,5 + 0,33 = 3,99 Kayıp olan 0,01, yuvarlamanın sonucu. Ancak bu hesaplamada bir şey daha eksik: O da her bir web sitesinin PageRank değerinin formülde yer almayışı. Bir kez daha B örneğine bakalım. Bu formülde, sayfa sıralamalarını 1 almak yerine, önceki basamakta elde ettiğimiz değerleri kullanırsak:

PR (B) = 1/2 + 1/3 + 1/1 Yerine

PR (B) = 1,33/2 + 0,5/3 + 0,33/1 Formülünü elde ederiz ve sonuç da yuvarlanmış olarak 1,62 eder. Doğal olarak, B’nin sayfa sıralamasının yeniden hesaplanması

A, C ve D’nin değerini değiştirecektir. D’nin değeri yeniden hesaplanınca, B’ninki de tekrar hesaplanmak zorunda olacaktır. Bu yüzden, Google PageRank değerlerini tekrar tekrar toplayarak, yaklaşık olarak hesaplıyor.

Arama motoru, bir hesaplama döngüsünün sonucunu bir sonraki adımda kullanıyor. Page ile Brin’in açıklamasına göre, kaydedilmiş milyarlarca sayfanın PageRank’ini hesaplamak için döngünün yaklaşık 100 kez tekrarlanması yetiyor.

Handikap faktörü

Kullanıcıyı da hesaba katınca Google’ın varsayımına göre PageRank, web’de dolaşan birinin sırf bağlantıları tıklayarak belli bir siteye ulaşma olasılığını temsil ediyor. Ama bu kişinin sonsuza dek bağlantı tıklamayacağını düşünürsek, formüle bir diğer faktörün eklenmesi gerekiyor. Bu, sörfçünün bağlantıları izlemekten bıkması olasılığını simüle ediyor. Handikap, sayfadaki her bir bağlantı başına toplam oy sayısıyla hesaplanıyor. Sergey Brin ile Larry Page bu faktörü 0,85 olarak alıyorlar. Bu faktörün Google gerçekliğinde de aşağı yukarı bu civarda olduğu düşünülebilir.

Gerçek PageRank ise yukarıdaki örnektekinin tersine, 0 ile 1 arasında bir olasılık değeri olarak belirleniyor. Küçük yüzdelik değerler ise web sayfasının PageRank’inde söz sahibi oluyor. Örneğin 0.01 değerine sahip bir sitede, bağlantıları kazayla ya da rastgele tıklayan bir kullanıcının bu siteye düşme ihtimali yüzde bir.

Bununla birlikte, geriye çözülmemiş bir gizem kalıyor. Eğer PageRank 0 ile 1 arasında bir değer olarak hesaplanıyorsa Google araç çubuğundaki (http://toolbar.google. com) PageRank değeri neden 1 ile 10 arasında değişiyor? Yanıt: Çünkü Google bu değerleri dönüştürüyor. Bu dönüştürme işleminin ne şekilde gerçekleştiği tam olarak bilinmese de, birçok uzman işlemin lineer değil logaritmik olduğu görüşünde. Bir başka deyişle, araç çubuğunda PageRank’in 1’den 2’ye geçişi, 9’dan en iyi puan olan 10’a geçişten çok daha kolay.

Filtre: PageRank kâr etmeyince

PageRank formülü sayesinde Google interneti büyük bir başarıyla elden geçiriyor. Yine de bu başarının da açıklarından faydalananlar var. Web sitesi kullanıcıları bu mekanizmayı çabucak kavrayıp, sitelerinin arama motorunda yükselmesini sağlamaya başladılar. Google bunu engellemek için çeşitli yöntemlere başvuruyor. Bu yüzden de, PageRank, bir sitenin Google arama sonuçlarında alacağı yeri belirleyen faktörlerden sadece biri.

Bununla birlikte, PageRank çoğu zaman para yerine geçiyor. “Sen bana PR’i 4 olan iki sayfadan bağlantı ver, ben sana PR’i 5 olan bir sayfadan bağlantı vereyim,” tarzı safça tekliflere rastlanıyor. Halbuki sıradan bir bağlantı değişiminin hiçbir faydası yok. Örneğin, bir araba kıyaslama sitesinden bir köpek bakımı sitesine verilen bağlantı, okura hiçbir katkısı bulunmadığı için hesaba katılmıyor ve Google için bir şey ifade etmiyor. Google, birbirine bağlantı veren sitelerin aynı kategoride olup olmadığını denetliyor. Diyelim ki bir bağlantı değişim sitesinden e-posta aldınız. İlk işiniz, sayfanın sizinkiyle aynı çizgide olup olmadığına bakmak olmalı. Eğer öyleyse bu takasa değer. Evet, tekrar Google arama algoritmasına dönecek olursak, PageRank buzdağının sadece görünen kısmı. Yüzeyin altındaysa sayısız filtre ve değerlendirme işlemi yatıyor.