Hallo, Gast
Du musst dich registrieren bevor du auf unserer Seite Beiträge schreiben kannst.

Benutzername
  

Passwort
  





Durchsuche Foren



(Erweiterte Suche)

Foren-Statistiken
» Mitglieder: 1
» Neuestes Mitglied: pattex
» Foren-Themen: 6.051
» Foren-Beiträge: 57.363

Komplettstatistiken

Aktive Themen
Bye bye WBB, Hallo MyBB
Forum: Ankündigungen vom Netboard Team
Letzter Beitrag: KingGO
23.04.2020, 17:48
» Antworten: 3
» Ansichten: 30.897
xProg.de - Willkommen - Z...
Forum: Links zu eurer Homepage
Letzter Beitrag: cHAp
31.10.2018, 18:14
» Antworten: 0
» Ansichten: 14.532
Fotoabzüge, Preisvergleic...
Forum: Grafik, Foto und Webdesign
Letzter Beitrag: marco75
28.10.2015, 17:01
» Antworten: 0
» Ansichten: 9.608
Anbieter Vergleich,Preisv...
Forum: Grafik, Foto und Webdesign
Letzter Beitrag: marco89
20.10.2015, 15:45
» Antworten: 0
» Ansichten: 6.118
Preisvergleich
Forum: Webseiten: Verwalten und Betreuen
Letzter Beitrag: Marco89
29.09.2015, 17:21
» Antworten: 0
» Ansichten: 9.909
Assoziationskette
Forum: Laberecke
Letzter Beitrag: MüCa
05.02.2015, 04:46
» Antworten: 3.894
» Ansichten: 4.452.696
Drastische Mittel gegen F...
Forum: Ankündigungen vom Netboard Team
Letzter Beitrag: cHAp
04.09.2013, 22:28
» Antworten: 7
» Ansichten: 58.755
Bares Geld Verdienen! Att...
Forum: Job Börse
Letzter Beitrag: cHAp
08.08.2013, 23:39
» Antworten: 0
» Ansichten: 30.442
Simple Machines Community...
Forum: Communitysysteme
Letzter Beitrag: cHAp
08.08.2013, 20:32
» Antworten: 1
» Ansichten: 55.007
Externe Verlinkungen
Forum: Wünsche, Kritik und Fragen
Letzter Beitrag: NetHunter
19.04.2013, 18:09
» Antworten: 4
» Ansichten: 50.555

 
  Der Einfluss der Anzahl der Seiten auf den PageRank
Geschrieben von: SunSonic - 30.09.2002, 02:18 - Forum: Grundlagen - Keine Antworten

Der Einfluss der Anzahl der Seiten auf den PageRank

Da der aufaddierte PageRank aller Seiten des Webs gleich der Anzahl der Seiten ist, folgt unmittelbar, dass eine zusätzliche Seite den aufaddierten PageRank des Webs um eins erhöht. Wesentlich interessanter als die Auswirkungen zusätzlicher Seiten auf den aufaddierten PageRank des gesamten Webs sind die Auswirkungen auf den PageRank der Seiten einer konkreten Site.

[Bild: bsp_anzahl_seiten_1.gif]
Um die konkreten Auswirkungen zusätzlicher Seiten zu veranschaulichen, betrachten wir zunächst eine hierarchisch strukturierte Beispielsite bestehend aus den drei Seiten A, B und C, der auf der unteren Ebene eine zusätzliche Seite D hinzugefügt wird. Die Site hat keine ausgehenden Links. Auf Seite A verlinkt eine externe Seite X mit einem PageRank von 10 durch ihren einzigen ausgehenden Link. Bei einem Dämpfungsfaktor d in Höhe von 0.75 ergeben sich vor dem Hinzufügen von Seite D die folgenden Gleichungen für den PageRank der einzelnen Seiten:

PR(A) = 0.25 + 0.75 (10 + PR(B) + PR©)
PR(B) = PR© = 0.25 + 0.75 (PR(A) / 2)

Die Lösung des Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 260/14
PR(B) = 101/14
PR© = 101/14

Nach dem Hinzufügen von Seite D lauten die Gleichungen für die PageRank-Berechnung folgendermaßen:

PR(A) = 0.25 + 0.75 (10 + PR(B) + PR© + PR(D))
PR(B) = PR© = PR(D) = 0.25 + 0.75 (PR(A) / 3)

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 266/14
PR(B) = 70/14
PR© = 70/14
PR(D) = 70/14

Da unsere Beispielsite keine ausgehenden Links aufweist, steigt der aufaddierte PageRank aller Seiten nach dem Hinzfügen von Seite D erwartungsgemäß um genau 1 von 33 auf 34. Ferner steigt der PageRank von Seite A marginal an. Der PageRank der Seiten B und C jedoch sinkt um ein beträchtliches Maß.



Die Reduzierung des PageRanks durch zustätzliche Seiten
Bei dem Hinzufügen zusätzlicher Seiten zu einer Website mit strikt hierarchischer Struktur sind die Auswirkungen auf den PageRank der bereits bestehenden Seiten uneinheitlich. Welche Auswirkungen das hinzufügen von Seiten zu Sites mit anderer Struktur hat, soll wiederum anhand eines Beispiels erläutert werden.

[Bild: bsp_anzahl_seiten_2.gif]
Betrachtet wird jetzt eine Website, deren Seiten A, B und C untereinander im Kreis verlinken und der eine zusätzliche Seite D hinzugefügt wird, die sich in die bestehende Linkstruktur einpasst. Die Site hat ebenfalls keine ausgehenden Links. Auf Seite A verlinkt wiederum eine externe Seite X mit einem PaeRank von 10 durch ihren einzigen ausgehenden Link. Bei einem Dämpfungsfaktor d in Höhe von 0.75 ergeben sich vor dem Hinzufügen von Seite D die folgenden Gleichungen für den PageRank der einzelnen Seiten:

PR(A) = 0.25 + 0.75 (10 + PR©)
PR(B) = 0.25 + 0.75 × PR(A)
PR© = 0.25 + 0.75 × PR(B)

Die Lösung des Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 517/37 = 13.97
PR(B) = 397/37 = 10.73
PR© = 307/37 = 8.30

Nach dem Hinzufügen von Seite D lauten die Gleichungen für die PageRank-Berechnung folgendermaßen:

PR(A) = 0.25 + 0.75 (10 + PR(D))
PR(B) = 0.25 + 0.75 × PR(A)
PR© = 0.25 + 0.75 × PR(B)
PR(D) = 0.25 + 0.75 × PR©

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 419/35 = 11.97
PR(B) = 323/35 = 9.23
PR© = 251/35 = 7.17
PR(D) = 197/35 = 5.63

Wiederum steigt der aufaddierte PageRank aller Seiten nach dem Hinzfügen von Seite D um genau 1 von 33 auf 34. Jetzt allerdings verlieren alle bereits vorher existierenden Seiten an PageRank. Dieser Effekt zeigt sich stets um so eher, je gleichmäßiger der PageRank auf die einzelnen Seiten einer Site verteilt werden.

Damit wird auch deutlich, dass der PageRank-Algorithmus grundsätzlich kleinere Websites bevorzugt. Dies ist allerdings dadurch zu relativieren, dass Sites mit mehr Content dies ausgleichen können, indem andere Seitenbetreiber um so eher auf sie verlinken.

Es ist allerdings auch möglich, durch zusätzliche Seiten den PageRank bereits existierender Seiten zu steigern. Hierbei ist jedoch darauf zu achten, dass auf die zusätzlichen Seiten möglichst wenig PageRank verteilt wird.


Die Distribution von PageRank





PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Der Effekt ausgehender Links
Geschrieben von: SunSonic - 30.09.2002, 02:05 - Forum: Computerecke - Keine Antworten

Der Effekt ausgehender Links

Da das PageRank-Verfahren die Link-Struktur des gesamten Webs abbildet, ist es unausweichlich, dass wenn eingehende Links einen Einfluss auf den PageRank haben, das gleiche auch für ausgehende Links gilt. Zur Darstellung der Effekte ausgehender Links soll wieder ein kleines Beispiel dienen.

[Bild: bsp_ausgehende_links.gif]
Betrachtet wird ein Web aus zwei Websites, die jeweils zwei Seiten beinhalten. Die eine Site besteht aus den Seiten A und B, die andere aus den Seiten C und D. Die beiden Seiten einer jeden Site verlinken sich jeweils gegeneinander. Es wird unmittelbar deutlich, dass jede der Seiten einen ursprünglichen PageRank von 1 inne hat. Nun wird Seite A ein externer Link auf Seite C hinzugefügt. Für den PageRank der einzelnen Seiten ergeben sich bei einem angenommenen Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:

PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR© = 0.25 + 0.75 PR(D) + 0.375 PR(A)
PR(D) = 0.25 + 0.75 PR©

Die Lösung dieses Gleichungssystems ergibt die folgenden Werte:

PR(A) = 14/23
PR(B) = 11/23

und somit einen aufsummierten PageRank von 25/23 für die erste Site,

PR© = 35/23
PR(D) = 32/23

und damit einen aufsummierten PageRank von 67/23 für die zweite Site. Der aufsummierte PageRank beider Sites in Höhe von 92/23 = 4 bleibt also erhalten. Das Hinzufügen von Links hat also keinen Einfluss auf den aufsummierten PageRank des Webs. Ferner ist damit der Gewinn der verlinkten Site genauso groß wie der Verlust der anderen.



Der tatsächliche Effekt ausgehender Links
Wie bereits gezeigt, ist der Gewinn eines geschlossenen Systems auf das ein zusätzlicher Link gesetzt wird, gegeben durch

(d / (1-d)) × (PR(X) / C(X)),

wobei X die verlinkende Seite, PR(X) deren PageRank und C(X) die Anzahl der ausgehenden Links von Seite X ist. Dieser Wert beschreibt damit auch den PageRank-Verlust, der einem vormals geschlossenen System daraus entsteht, dass einer Seite X innerhalb dieses Systems ein ausgehender Link hinzugefügt wird.

Bedingung für die angegebene Formel ist, dass die verlinkte Site nicht etwa direkt wieder auf die verlinkende Site zurückverlinkt, da die verlinkende Site wieder einen Teil des verlorenen PageRanks zurückgewinnen würde. Solange eine Rückverlinkung sich über eine gar nicht so große Anzahl von Webseiten erstreckt, ist dieser Effekt jedoch durch die Wirkungsweise des Dämpfungsfaktors zu vernachlässigen. Ferner Bedingung für die Gültigkeit der Formel ist, dass die verlinkende Site nicht bereits vorher ausgehende Links besitzt. Sollte dies jedoch der Fall sein, vermindert sich die Höhe des Verlustes der betrachteten Site, und gleichzeitig haben die bereits verlinkten Webseiten einen entsprechenden Verminderung des PageRank hinzunehmen.

Selbst wenn für eine tatsächlich existierende Website die PageRank-Werte der einzelnen Webseiten bekannt wären, könnte allerdings dennoch nicht ohne weiteres im Vorhinein ermittelt werden, wie sehr das Hinzufügen eines externen Links den PageRank der einzelnen Seiten vermindert, da die oben genannten Formel den Status nach der Verlinkung betrachtet.



Intuitive Begründung für den Effekt ausgehender Links
Intuitiv lässt sich der Verlust von PageRank für die eigenen Seiten damit erklären, dass der Zufalls-Surfer aus dem Random Surfer Modell durch das Hinzufügen eines externen Links mit einer geringeren Wahrscheinlichkeit einen Link auf eine der internen Seiten verfolgt. Damit sinkt in der Folge auch die Wahrscheinlichkeit, mit der sich der Surfer auf einer derjenigen Seiten aufhält, die wiederum auf diejenige Seite verlinken, der der externe Link hinzugefügt wurde, womit auch deren PageRank sinken muss.

Es bleibt letztlich festzuhalten, dass ausgehende externe Links den aufsummierten PageRank aller Webseiten einer Website und gegebenenfalls auch den PageRank jeder einzelnen Seite einer Site vermindern. Da jedoch die Verlinkung zwischen Websites gerade die Grundlage des PageRank-Verfahrens darstellt und für sein Funktionieren unabdingbar ist, besteht durchaus die Möglichkeit, dass ausgehende Links an einer anderen Stelle innerhalb der Bewertung von Webseiten durch die Suchmaschine Google positiven Einfluss nehmen. Schließlich machen gerade auch relevante ausgehende Links die Qualität einer Website aus, und Webmaster, die Links auf andere Websites setzen, beziehen gewissermaßen deren Content in das eigene Web-Angebot mit ein.



Dangling Links
Ein nicht ganz unwichtiger Aspekt ausgehender Links ist das Fehlen ausgehender Links. Sobald einzelne Webseiten keine ausgehenden Links aufweisen, versickert der PageRank gewissermaßen an diesen Stellen. Lawrence Page und Sergey Brin bezeichnen Verweise auf derartige Seiten als "Dangling Links".

[Bild: bsp_dangling_links.gif]
Die Auswirkungen von Dangling Links sollen anhand eines kleinen Beispiels veranschaulicht werden. Wir betrachten eine Website die aus aus den drei Seiten A, B und C besteht. Die Seiten A und B verlinken sich gegenseitig. Seite A verlinkt zudem auf Seite C, die ihrerseits jedoch keine ausgehenden Links aufweist. Für den PageRank der einzelnen Seiten ergeben sich bei einem angenommenen Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:

PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR© = 0.25 + 0.375 PR(A)

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 14/23
PR(B) = 11/23
PR© = 11/23

Damit beträgt der aufaddierte PageRank aller Seiten 36/23, also nur etwas mehr als die Hälfte dessen, was zu erwarten gewesen wäre, wenn Seite C auf eine der beiden Seiten A oder B verlinkt hätte. Die Anzahl von Dangling Links ist nach Angaben von Page und Brin nicht unbeträchtlich - und sei es, weil zahlreiche verlinkte Seiten von Google nicht indexiert sind, etwa weil die Indexierung per robots.txt verhindert wird. Hier ist zusätzlich zu berücksichtigen, dass Google mittlerweile auch andere Dokumenten-Typen als HTML wie zum Beispiel PDF oder Word Dateien indexiert, die keine wirklichen ausgehenden Links haben. Dangling Links könnten also nicht unbeträchtliche Folgen für das PageRank-Verfahren haben.

[Bild: bsp_dangling_links_2.gif]
Um die negativen Effekte von Dangling Links auszuschalten, werden diese Angaben von Page und Brin zufolge vor der PageRank-Berechnung aus der Datenbank unter Anpassung der jeweiligen Anzahl von ausgehenden Links entfernt bis alle PageRank-Werte berechnet sind. Bei der Entfernung von Dangling Links handelt es sich um einen iterativen Vorgang, da das Entfernen wiederum neue Dangling Links erzeugen kann, wie aus unserer einfachen Abbildung ersichtlich. Nachdem die eigentliche PageRank-Berechnung abgeschlossen ist, wird auch den Dangling Links PageRank - auf der Basis der PageRank-Werte der auf sie verweisenden Seiten und unter Rückgriff auf den PageRank-Algorithmus - zugewiesen. Dies erfordert ebenso viele Iterationen wie bei der Entfernung der Dangling Links. Um bei unserer Abbildung zu bleiben, könnte schließlich Seite C vor Seite B bearbeitet werden. Seite B weist dann im ersten Bearbeitungsdurchlauf bei der Bearbeitung von Seite C noch keinen PageRank auf, womit Seite C wiederum ein PageRank von 0 zugewiesen würde. Erst anschließend erhält Seite B ihren PageRank und im zweiten Bearbeitungsschritt würde Seite C einen tatsächlichen PageRank zugewiesen bekommen.

Für unser ursprüngliches Beispiel hat das Entfernen von Seite C aus der Datenbank zur Folge, dass die Seiten A und B nach Abschluss der Berechnungen jeweils einen PageRank von 1 erhalten. Seite C wird dann im Anschluss ein PageRank in Höhe von 0.25 + 0.375 PR(A) = 0.625 zugewiesen. Damit enspricht der aufaddierte PageRank zwar nicht der Anzahl der Seiten, doch zumindest diejenigen Seiten mit ausgehenden Links nehmen keinen Schaden durch Dangling Links.

Durch die Eliminierung von Dangling Links haben diese also keinen negativen Einfluss auf den PageRank der übrigen Seiten. Und wie bereits erwähnt, sind Verweise auf Dokumententypen, die keine ausgehenden Links aufweisen können, grundsätzlich Dangling Links. Damit wird auch unmittelbar deutlich, dass etwa Links auf PDF-Dokumente den PageRank einer darauf verlinkenden Seite bzw. Site nicht reduzieren können. PDF-Dokumente können also ein sehr gutes Instrument der Suchmaschinenoptimierung für Google sein.


Der Einfluus der Anzahl der Seiten auf den PageRank





PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Der Effekt eingehender Links
Geschrieben von: SunSonic - 30.09.2002, 01:54 - Forum: Grundlagen - Keine Antworten

Der Effekt eingehender Links

Es wurde bereits gezeigt, dass ein jeder eingehender Link auf ein Webseite deren Pagerank stets erhöht. Bei oberflächlicher Betrachtung des ursprünglichen PageRank-Algorithmus

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

möchte man meinen, ein zusätzlicher eingehender Link erhöht den PageRank der verlinkten Seite um

d × PR(X) / C(X)

wobei PR(X) der PageRank der verlinkenden Seite X und C(X) deren Anzahl ausgehender Links ist. Bei genauerer Betrachtung zeigt sich allerdings, dass eine Webseite, die einen zusätzlichen eingehenden Link erhält, selbst auch auf andere Webseiten verlinken kann. Diese erhalten nunmehr ebenfalls einen höheren PageRank, den sie gegebenfalls wiederum über Links an unsere Seite mit dem zusätzlichen eingehenden Link zurückgeben.

Die einzelnen Effekte zusätzlicher eingehender Links sollen nun anhand eines Beispiels beschrieben werden.

[Bild: bsp_eingehende_links.gif]
Wir betrachten eine kleine Website aus den Seiten A, B, C und D, die im Kreis verlinkt sind und nicht selbst auf andere Webseiten verlinken. Ohne eingehende Links von externen Seiten ergibt sich ganz offensichtlich ein PageRank von 1 für jede der betrachteten Seiten. Wir wählen nunmehr eine Seite X, für die ein PageRank PR(X) von 10 angenommen wird. Seite X verlinkt auf Seite A und sonst auf keine andere Seite. Bei einem willkürlich gewählten Dämpfungsfaktor von 0.5 ergibt sich das folgende Gleichungssystem für den PageRank der einzelnen Seiten unserer Site:

PR(A) = 0.5 + 0.5 (PR(X) + PR(D)) = 5.5 + 0.5 PR(D)
PR(B) = 0.5 + 0.5 PR(A)
PR© = 0.5 + 0.5 PR(B)
PR(D) = 0.5 + 0.5 PR©

Da die Anzahl der ausgehenden Links jeder Seite gleich 1 ist, müssen diese hier nicht berücksichtigt werden. Die Lösung des Gleichungssystems ergibt folgende Werte für den PageRank der einzelnen Seiten:

PR(A) = 19/3 = 6.33
PR(B) = 11/3 = 3.67
PR© = 7/3 = 2.33
PR(D) = 5/3 = 1.67

Der unmittelbare Effekt des zusätzlichen Links auf Seite A in Höhe von

d × PR(X) / C(X) = 0,5 × 10 / 1 = 5

setzt sich also über die Verlinkung der einzelnen Seiten untereinander fort.



Der Einfluss des Dämpfungsfaktors
Der Grad der Weitergabe von PageRank ist vor allem auch abhängig von der Höhe des Dämpfungsfaktors d. Wird für diesen beispielsweise ein Wert von 0.75 angenommen, ergibt sich für das obige Beispiel das folgende Gleichungssystem:

PR(A) = 0.25 + 0.75 (PR(X) + PR(D)) = 7.75 + 0.75 PR(D)
PR(B) = 0.25 + 0.75 PR(A)
PR© = 0.25 + 0.75 PR(B)
PR(D) = 0.25 + 0.75 PR©

Die Lösung dieses Gleichungssystems ergibt folgende Werte für den PageRank der einzelnen Seiten:

PR(A) = 419/35 = 11.97
PR(B) = 323/35 = 9.23
PR© = 251/35 = 7.17
PR(D) = 197/35 = 5.63

Es zeigt sich zunächst ein wesentlich höherer unmittelbarer Effekt des zusätzlichen eingehenden Links auf den PageRank von Seite A in Höhe von

d × PR(X) / C(X) = 0.75 × 10 / 1 = 7.5

Dieser Effekt setzt sich nun aber noch verstärkt durch die interne Verlinkung der Seiten fort, so dass der PageRank von Seite A bei einem Dämpfungsfaktor von 0.75 beinahe doppelt so hoch ist wie bei einem Dämpfungsfaktor von 0.5. Ist der PageRank von Seite A bei einem Dämpfungsfaktor von 0.5 noch beinahe viermal größer als der Pagerank von Seite D, so ist er bei einem Dämpfungsfaktor von 0.75 nur noch etwas mehr als doppelt so groß. Je höher der Dämpfungsfaktor ist, um so stärker ist einerseits der Effekt auf den PageRank der den Link erhaltenden Seite und um so gleichmäßiger verteilt sich andererseits der PageRank auf die anderen Seiten der Site.



Der tatsächliche Effekt eingehender Links
Die Summe der PageRank-Werte aller Seiten bei einem Dämpfungsfaktor von 0.5 beträgt in unserem Beispiel

PR(A) + PR(B) + PR© + PR(D) = 14

Dadurch, dass eine Seite mit einem PageRank von 10 mit ihrem einzigen Link auf eine Seite der Beispiel-Site verlinkt, erhöht sich also deren aufaddierter PageRank um 10. (Vor Erhalt des Links hatte jede Seite einen PageRank von 1.) Bei einem PageRank von 0.75 beträgt die Summe der PageRank-Werte

PR(A) + PR(B) + PR© + PR(D) = 34

Der aufaddierte PageRank erhöht sich also um 30. Es zeigt sich, dass sich die Summe des PageRanks stets um

(d / (1-d)) × (PR(X) / C(X))

erhöht, wenn X die verlinkende Seite, PR(X) deren PageRank und C(X) die Anzahl der ausgehenden Links von Seite X ist. Dieser Wert ist allerdings daran gebunden, dass die Verlinkung in ein geschlossenes Sytem von Webseiten, also etwa eine Website ohne ausgehenden Link erfolgt. Sofern von der Website Links auf andere, externe Webseiten gesetzt sind, verringert sich der Faktor entsprechend.

Die Begründung für den oben angegebenen Wert liefert uns Raph Levien und sie bezieht sich auf das Random Surfer Modell. Die Länge eines Surf-Vorgangs des Zufalls-Surfers ist eine Exponentialverteilung mit einem Mittel von (d/(1-d)). Wenn also der Zufalls-Surfer einen Link auf ein geschlossenes System von Webseiten verfolgt, besucht er im Schnitt genau (d/(1-d)) Seiten innerhalb dieses geschlossenen Systems. Und genau so viel mehr PageRank der ursprünglich verlinkenden Seite - gewichtet nach der Anzahl der ausgehenden Links - muss damit an das geschlossene System übertragen werden.

Lawrence Page und Sergey Brin geben regelmäßig einen Dämpfungsfaktor von 0.85 für die tatsächliche PageRank-Berechnung an. Damit ergibt sich ein Faktor für die Erhöhung des aufaddierten PageRanks einer geschlossenen Site durch einen zusätzlichen eingehenden Link von Seite X in Höhe von

(0.85 / 0.15) × (PR(X) / C(X)) = 5.67 × (PR(X) / C(X))

Eingehende Links haben also einen weitaus größeren Effekt auf den PageRank als man bei oberflächlicher Betrachtung annehmen mag.



Die PageRank-1 Regel
Viele Nutzer der Google Toolbar stellen fest, dass oftmals Seiten mit einem bestimmten Toolbar-PageRank eine darauf verlinkende Seite mit einem Toolbar-PageRank aufweisen, der um den Wert 1 höher ist als der der verlinkten Seite. Diese Beobachtung dient vielfach dazu, den hier präsentierten PageRank-Algorithmus in Frage zu stellen. Dagegen soll an dieser Stelle gezeigt werden, dass die Beobachtung vollkommen im Einklang mit dem hier präsentierten PageRank-Algorithmus steht.

Zuallererst stützt die PageRank-1 Regel das grundlegende Konzept des PageRank-Verfahrens. Webseiten sind genau dann bedeutsam, wenn andere bedeutsame Webseiten auf sie verweisen. Es ist nicht erforderlich, dass eine Website viele eingehenden Links erhält, um einen hohen PageRank zu bekommen. Ein einzelner Link von einer Website mit einem hohen PageRank reicht hierzu aus.

Dafür, dass die PageRank-1 Regel auch mit dem hier präsentierten PageRank-Algorithmus in Einklang steht, sind mehrere Faktoren verantwortlich. Zunächst ist Toolbar-PageRank eine logarithmisch skalierte Version des tatsächlichen PageRank. Wenn der PageRank einer verlinkenden Seite im Sinne der Toolbar um eins höher ist als derjenige der verlinkten Seite, so kann ihr tatsächlicher PageRank immer mindestens um einen Faktor höher sein, der der Basis des für die Skalierung eingesetzten Logarithmus entspricht. Ist also die Basis des Logarithmus gleich 6, und der Toolbar-PageRank der verlinkenden Seite gleich 5, so kann der tatsächliche PageRank der verlinkten Seite immer mindestens 6 Mal kleiner sein, damit diese in jedem Fall noch einen Toolbar-PageRank von 4 erreicht.

Der Basis des Logarithmus wirkt nun die Anzahl der ausgehenden Links auf der verlinkenden Seite entgegen, da deren PageRank praktisch unter allen verlinkten Seiten aufgeteilt wird. Es wurde allerdings oben auf dieser Seite bereits gezeigt, dass der über einen Link an eine Seite weitergegebene PageRank weitaus größer sein kann, als der im Algorithmus erscheinenden Term d(PR(Ti)/C(Ti)) vermuten lässt. Dies hängt damit zusammen, dass intern in der Regel weitere Seiten auf die von außen verlinkte Seite verlinken und somit weiteren PageRank auf diese Seite verteilen. Gehen wir nun etwa davon aus, dass die logarithmische Basis für die Skalierung 6 beträgt und weiterhin bei einem hohen Dämpfungsfaktor das doppelte des nach ausgehenden Links gewichteten PageRank der verlinkenden Seite auf die verlinkte Seite übertragen wird, so könnte die verlinkende Seite mindestens 12 ausgehende Links haben, damit die verlinkte Seite immer noch einen Toolbar-PageRank aufweist, der maximal um 1 kleiner ist als derjenige der verlinkenden Seite.

Eine Zahl von 12 ausgehenden Links erscheint an dieser Stelle zugegebenermaßen sehr gering. Allerdings ist es in aller Regel so, dass wenn eine Webseite von außen verlinkt wird, dies nicht nur von einer einzelnen Seite geschieht, und der betrachteten Seite somit noch weiterer PageRank übertragen wird. Falls sich Beispiele finden, bei der eine Seite durch einen einzigen externen Link ein PageRank übertragen wird, der der PageRank-1 Regel entspricht, und die verlinkende Seite eine hohe Zahl ausgehender Links hat, so ist dies vor allem ein Indiz dafür, dass der PageRank der verlinkenden Seite sich im oberen Bereich ihres Toolbar-PageRank-Wertes befindet. Schließlich könnte die verlinkende Seite aus unserem Beispiel eine "hohe" 5 und die verlinkte Seite eine "tiefe" 4 sein. In diesem Falle könnte die verlinkende Seite bis zu 72 ausgehende Links aufweisen. Diese Zahl würde sich weiter erhöhen, wenn wir von einer größeren logarithmischen Basis für die Skalierung des Toolbar-PageRanks ausgehen.



Der Effekt ausgehender Links




PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Die Implementierung des PageRank in die Suchmaschine Google
Geschrieben von: SunSonic - 30.09.2002, 01:38 - Forum: Grundlagen - Keine Antworten

Die Implementierung des PageRank in die Suchmaschine Google

Für die Implementierung des PageRank ist von zentraler Bedeutung, auf welche Art und Weise der PageRank in die generelle Bewertung von Webseiten durch die Suchmaschine Google einfließt. Das Verfahren wurde von Lawrence Page und Sergey Brin mehrfach in ihren Veröffentlichungen beschrieben. Ursprünglich basierte die Seitenbewertung durch Google auf drei Faktoren:
Seitenspezifische Faktoren
Ankertext eingehender Links
PageRank
Zu den seitenspezifischen Faktoren zählen neben den konkreten Textinhalten etwa auch der Inhalt des Title-Tags und die URL einer Seite. Es ist mehr als wahrscheinlich, dass seit der Veröffentlichung dieser Punkte weitere Faktoren hinzugekommen sind. Dies soll an dieser Stelle jedoch nicht interessieren.

Bei Suchanfragen wird aus den seitenspezifischen Faktoren und den Ankertexten eingehender Links für den Suchbegriff eine nach Position und Grad der Hervorhebung gewichteter IR-Wert berechnet. Die Bewertung für die Relevanz einer Webseite für eine konkrete Suchanfrage wird nun mit dem PageRank als Indikator für die ganz allgemeine Bedeutsamkeit der Webseite kombiniert. Dieses Kombinieren erfolgt in multiplikativer Form. Dass hier kein additives Verfahren eingesetzt wird ist unmittelbar einleuchtend, da ansonsten Seiten mit einem sehr hohen PageRank auch auf Suchanfragen hin gefunden werden könnten, obwohl sie in keinerlei Zusammenhang zum gesuchten Begriff stehen.

Insbesondere bei aus mehreren Begriffen bestehenden Suchanfragen zeigt sich ein deutlich größerer Einfluss der inhaltsspezifischen Bewertungskomponenten. Der Einfluss des PageRank hingegen wird eher bei unspezifischen, aus lediglich einem Suchbegriff bestehenden Anfragen deutlich. Gerade für Mehr-Begriffs-Anfragen ist es möglich, mit den klassischen Mitteln der Suchmaschinen-Optimierung Listungen vor Seiten zu erlangen, die einen weitaus höheren PageRank-Wert inne haben.

Bei der Optimierung für Suchbegriffe, für die in den Suchmaschinen ein großer Wettbewerb herrscht, ist ein hoher PageRank-Wert unerlässlich für eine hohe Suchmaschinen-Position, selbst wenn die Seite selbst den klassischen Kriterien der Suchmaschinen-Optimierung folgt. Dies liegt darin begründet, dass die Wertung des zusätzlichen Vorkommens eines Suchbegriffs innerhalb eines Dokuments sowie in den Ankertexten von eingehenden Links mit der Häufigkeit des Vorkommens abnimmt, um Spam durch oftmalige Keyword-Wiederholungen zu vermeiden. Damit sind die Möglichkeiten zur Seitenoptimierung im klassischen Sinne beschränkt, und bei hohem Wettbewerb in Suchmaschinen für einen Suchbegriff wird der PageRank zum ausschlaggenden Faktor.



Die PageRank Anzeige der Google Toolbar
Einen großen Bekanntheitsgrad erlangte der PageRank durch seine Anzeige in der Google Toolbar. Die Google Toolbar ist ein Browser-Plug-In für den Microsoft Internet Explorer, das von der Google Website herunter geladen werden kann und zahlreiche Erleichterungen für die Google-Suche bereithält.


[Bild: bsp_toolbar.gif]
Die Google Toolbar zeigt den PageRank einer Seite auf einer Skala von 0 bis 10 an. Zunächst ist der PageRank an der Breite des grünen Balkens in der Anzeige ersichtlich. Fährt der Benutzer mit der Maus über die Anzeige, gibt die Toolbar darüberhinaus den Wert des Toolbar-PageRank an.

Vorsicht: Die PageRank-Anzeige zählt zu den "Advanced Features" der Google Toolbar. Sobald diese "Advanced Features" aktiviert sind, sammelt Google über die Toolbar Daten über das Benutzerverhalten. Außerdem führt die Toolbar selbstständig Updates durch, ohne dass der Benutzer über das Herunterladen der neuen Version informiert wird. Dies bedeutet letztlich, dass Google Zugriff auf die Festplatte des Benutzers hat.

Der tatsächliche PageRank, der für eine Seite theoretisch maximal einen Wert von dN+(1-d) annehmen kann, wobei N die Anzahl aller Seiten des Webs ist und d üblicherweise auf 0.85 gesetzt wird, muss für die Anzeige in der Google Toolbar skaliert werden. Es wird im Allgemeinen davon ausgegangen, dass die Skalierung nicht linear sondern logarithmisch erfolgt. Bei einem Dämpfungsfaktor von 0.85 und einem damit verbundenen minimalen PageRank von 0.15 sowie einer angenommenen logarithmischen Basis von 6 ergäbe sich das folgende Bild für die Skalierung:


Toolbar-PageRank ------ Tatsächlicher PageRank
0/10 ---------------------- 0.15 - 0.9
1/10 ---------------------- 0.9 - 5.4
2/10 ---------------------- 5.4 - 32.4
3/10 ---------------------- 32.4 - 194.4
4/10 ---------------------- 194.4 - 1,166.4
5/10 ---------------------- 1,166.4 - 6,998.4
6/10 ---------------------- 6,998.4 - 41,990.4
7/10 ---------------------- 41,990.4 - 251,942.4
8/10 ---------------------- 251,942.4 - 1,511,654.4
9/10 ---------------------- 1,511,654.4 - 9,069,926.4
10/10 --------------------- 9,069,926.4 - 0.85 × N + 0.15


Ob tatsächlich eine mathematisch strikte logarithmische Skalierung erfolgt ist natürlich ungewiss. Wahrscheinlich erfolgt eine manuelle Skalierung, die einem logarithmischen Schema folgt, damit Google die volle Kontrolle darüber behält, wie viele Seiten einen bestimmten Toolbar-PageRank inne haben. Diesem Schema dürfte allerdings eine logarithmische Basis von 6 bis 7 zu Grunde liegen, was sich etwa ansatzweise aus der Anzahl der von Google angezeigten eingehenden Links mit einem Toolbar-PageRank größer 4 für Seiten mit einem sehr hohen Toolbar-Pagerank herleiten lässt.



Die Datenkommunikation der Toolbar

Auch Webmaster, die aufgrund von Sicherheitsbedenken die Google Toolbar oder auch den Internet Explorer nicht dauerhaft nutzen möchten, haben eine Möglichkeit zum Einblick in die PageRank-Werte ihrer Seiten. Google übermittelt den PageRank in einfachen Textdateien an die Toolbar. Früher geschah dies per XML. Der Wechsel zu Textdateien fand im August 2002 statt.

Die PageRank-Textdateien können direkt von der Domain http://www.google.com abgerufen werden. In ihrer Grundform sehen die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche):

http://www.google.com/search?
client=navclient-auto&
ch=0123456789&
features=Rank&
q=info:http://www.domain.com/

Die PageRank-Dateien bestehen aus einer Zeile. Der PageRank-Wert ist die letzte Ziffer in dieser Zeile.

Die oben in der URL dargestellten Parameter sind unerlässlich für die Anzeige der PageRank-Dateien im Browser. So identifiziert sich mit dem Wert "navclient-auto" für den Parameter "client" die Toolbar; mit dem Parameter "q" wird die abgefragte URL übermittelt. Der Wert "Rank" für den Parameter "features" legt fest, dass die PageRank-Dateien abgerufen werden. Wird dieser Parameter weggelassen, werden auch weiterhin XML-Dateien übermittelt. Der Parameter "ch" wiederum übergibt eine Prüfsumme für die URL, wobei sich diese Prüfsumme im Zeitablauf für einzelne URLs lediglich bei Updates der Toolbar ändern kann.

Um die Prüfsummen einzelner URLs herauszufinden ist es damit erforderlich, die Toolbar zumindest einmal zu installieren. Hierbei wird dann vielerorts der Einsatz von Packet Sniffern, lokalen Proxies und ähnlichem empfohlen, um die Kommunikation zwischen Toolbar und Google aufzuzeichnen. Dies ist allerdings nicht zwingend erforderlich, da die PageRank-Dateien vom Internet Explorer gecached werden und somit die Prüfsummen im Ordner Temporary Internet Files eingesehen werden können. Die PageRank-Dateien können hiermit dann auch z.B. in anderen Browsern als dem Internet Explorer angezeigt werden, ohne dass Googles 36-Jahres-Cookies akzeptiert werden müssen.

Da die PageRank-Dateien im Browser-Cache gespeichert werden und somit offen einsehbar sind, und sofern eine Abfrage nicht automatisiert erfolgt, sollte dies keine Verletzung von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent an Google. Es ist:

Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4.10)

Hierbei ist 1.1.60-deleon eine Toolbar-Version, die sich natürlich ändern kann, und OS das Betriebssystem des jeweils eingesetzten Rechners. Google kann also nachprüfen, ob eine direkte Anfrage über den Browser erfolgt, sofern kein Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert wird.

Beim Blick in den Cache des IE wird man in der Regel feststellen, dass die PageRank-Dateien nicht von der Domain http://www.google.com, sondern von IPs wie z.B. 216.239.33.102 abgerufen werden. Ebenso enthalten die URLs häufig einen weiteren Parameter "failedip" mit Werten wie z.B. "216.239.35.102;1111". Die IPs sind jeweils einem der derzeit sieben sich im Einsatz befindlichen Rechenzentren Googles zugeordnet. Wozu der Parameter "failedip" tatsächlich genutzt wird, ist unklar. Hintergrund der unmittelbaren Abfrage der PageRank-Dateien bei einzelnen IPs ist wohl der Versuch, die PageRank-Anzeige insbesondere in den Zeiten des "Google Dance" besser zu steuern.



Die PageRank Anzeige der Google Directory

Denjenigen, denen der Abruf der PageRank-Dateien zu kompliziert ist, bleibt schließlich mit der Google Directory (directory.google.com) noch eine eingeschränkte Möglichkeit, etwas über den PageRank ihrer Site zu erfahren.

[Bild: bsp_directory.gif]
Bei der Google Directory handelt es sich um einen Dump des Open Directory Projects (dmoz.org), der neben den Seiteneinträgen ähnlich der Google Toolbar den skalierten PageRank für die in das ODP eingetragene Seite in Balkenform anzeigt. Allerdings erfolgt die PageRank-Anzeige in der Google-Directory auf einer Skala von 1 bis 7. Der exakte Wert wird nicht angezeigt, kann aber über die zweigeteilte Balkengrafik bzw. die Breite von deren Einzelgrafiken bestimmt werden, falls der Betrachter sich beim einfachen Augenschein unsicher ist.

Durch den Vergleich des Toolbar-PageRanks mit dem Directory-PageRank kann vom tatsächlichem PageRank von Seiten, die in das ODP eingetragen sind, ein etwas genauerer Eindruck gewonnen werden. Dieser Zusammenhang wurde zuerst von Chris Raimondi (http://www.searchnerd.com/pagerank) aufgezeigt.



[Bild: bsp_directory_toolbar.gif]
Insbesondere für Seiten mit einem Toolbar-PageRank von 5 oder 6 ergibt sich hier die Möglichkeit der Einschätzung, ob sich die Seite eher am unteren oder am oberen Ende eines Bereichs der Toolbar-Skalierung befindet. Es sei an dieser Stelle angemerkt, dass für die Darstellung des Vergleichs der beiden PageRank-Anzeigen der Toolbar-PageRank von 0 nicht berücksichtigt wurde. Dass dies sinnvoll ist, kann anhand von Seiten mit einem Directory-PageRank von 3 nachvollzogen werden. Hier ist allerdings zu berücksichtigen, dass zur Überprüfung eine Seite der Google Directory mit einem Toolbar-PageRank von maximal 4 ausgewählt werden sollte, da sich sonst in der Regel keine von dort verlinkten Seiten mit einem Toolbar-PageRank von 3 finden lassen.



Der Effekt eingehender Links




PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Der PageRank-Algorithmus
Geschrieben von: SunSonic - 30.09.2002, 01:17 - Forum: Grundlagen - Keine Antworten

Der PageRank-Algorithmus

Der ursprüngliche PageRank-Algorithmus wurde von Lawrence Page und Sergey Brin mehrfach beschrieben. Er hat die folgende Form:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Hierbei ist:

PR(A) der PageRank einer Seite A,
PR(Ti) der PageRank der Seiten Ti, von denen ein Link auf die Seite A zeigt,
C(Ti) die Gesamtanzahl der Links auf Seite Ti und
d ein Dämpfungsfaktor (Damping Factor),
wobei 0 <= d <= 1 ist.
Das PageRank-Verfahren bewertet damit grundsätzlich nicht Websites in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt.

Der PageRank der Seiten Ti, die auf eine Seite A verlinken, fließt nicht gleichmäßig in den PageRank von Seite A ein. Der PageRank einer Seiten T wird stets anhand der Anzahl C(T) der von Seite T ausgehenden Links gewichtet. Das bedeutet, dass je mehr ausgehende Links eine Seite T hat, umso weniger PageRank gibt sie an Seite A weiter.

Der anhand der Anzahl an ausgehenden Links gewichtete PageRank der Seiten Ti wird nun addiert. Dies hat zur Folge, dass jeder zusätzliche eingehende Link für eine Seite A stets den PageRank dieser Seite A erhöht.

Schließlich wird die Summe der gewichteten PageRanks der Seiten Ti mit dem Dämpfungsfaktor d, der stets zwischen 0 und 1 liegt multipliziert. Hierdurch wird das Ausmaß der Weitergabe des PageRanks von einer Seite auf einer andere verringert.



Das Random Surfer Modell
Lawrence Page und Sergey Brin bieten in ihren Veröffentlichungen eine sehr einfache, intuitive Rechtfertigung des PageRank-Algorithmus an. Sie betrachten PageRank-Verfahren als ein Modell zur Abbildung von Benutzer-Verhalten. Hierzu führen sie einen Zufalls-Surfer an, der von einer Webseite zur nächsten jeweils beliebige Links verfolgt, ohne dabei auf Inhalte zu achten.

Der Zufalls-Surfer befindet sich mit einer bestimmten Wahrscheinlichkeit auf einer Website, die sich aus deren PageRank herleiten lässt. Die Wahrscheinlichkeit, dass der Zufalls-Surfer nun einen bestimmten Link verfolgt, ergibt sich dann einzig und allein daraus, aus wievielen Links er die Auswahl hat. Aus diesem Grunde fließt der PageRank einer verlinkenden Seite stets nach der Anzahl Ihrer ausgehenden Links gewichtet in die PageRank Berechnung einer verlinkten Seite ein.

Die Wahrscheinlichkeit, dass der Zufalls-Surfer auf eine Seite gelangt, ist also die Summe der Wahrscheinlichkeiten, mit der er von einer verlinkenden Seite den entsprechenden Link verfolgt. Nun wird allerdings die Wahrscheinlichkeit, mit der der Zufalls-Surfer auf eine Seite gelangt, um den Faktor d gedämpft. Dies hat im Rahmen des Random Surfer Modells den Hintergrund, dass der Zufalls-Surfer nicht unendlich viele Links verfolgt. Nach einer bestimmten Zeit wird er gelangweilt und ruft eine beliebige andere Webseite auf.

Die Wahrscheinlichkeit, mit der der Zufalls-Surfer die Verfolgung von Links nicht abbricht und somit weiterklickt, wird durch den Dämpfungsfaktor d angegeben, der abhängig von der Höhe der Wahrscheinlichkeit einen Wert von 0 bis 1 annimmt. Je höher d ist, um so wahrscheinlicher ist es, dass der Zufalls-Surfer Links verfolgt. Da der Zufalls-Surfer nach dem Abbruch der Link-Verfolgung eine beliebige Seite aufruft, geht die Wahrscheinlichkeit mit er er dies tut, mit dem Wert (1-d) als Konstante in die Berechnung des PageRanks einer jeden Seite ein.



Abweichende Formulierung des PageRank-Algorithmus
Lawrence Page und Sergey Brin bieten in ihren Veröffentlichungen zwei unterschiedliche Versionen des PageRank-Algorithmus an. In dieser zweiten Version bestimmt sich der PageRank einer Seite A wie folgt:

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Hierbei ist N die Anzahl aller Seiten des Webs. Diese zweite Version des PageRank-Algorithmus unterscheidet sich allerdings nicht grundlegend von der ersten. In der zweiten Version beschreibt der PageRank einer Seite im Sinne des Random Surfer Modells lediglich die tatsächliche Wahrscheinlichkeit, mit der der Zufalls-Surfer nach dem Verfolgen vieler Links eine Seite erreichen wird. Dieser Algorithmus bildet damit eine Wahrscheinlichkeitsverteilung über alle Seiten des Webs ab. Die Summe aller PageRank-Werte des Webs ist damit bei dieser Version des Algorithmus gleich 1.

In der oben genannten, ersten Version erfolgt eine Gewichtung der Wahrscheinlichkeit des Besuchs einer Seite nach der Anzahl der Seiten des Webs. Demnach ist der PageRank in dieser Version im Grunde der Erwartungswert für den Besuch des Zufalls-Surfers auf einer Seite, wenn er hierfür Anläufe in genau der Höhe der Anzahl der Seiten des Webs nimmt. Bestünde das Web also aus 100 Seiten, und eine Seite hat einen PageRank von 2, so würde der Zufalls-Surfer sie bei 100 "Surfgängen" im Mittel zweimal erreichen.

Wie bereits erwähnt, unterscheiden sich die beiden Versionen des Algorithmus sich nicht grundlegend. Letztlich muss der PageRank einer Seite aus der Algorithmus-Version 2 lediglich mit der Anzahl der Webseiten multipliziert werden, um zum PageRank der Algorithmus-Version 1 zu gelangen. Selbst Page und Brin ist in Ihrer wohl bekanntesten Veröffentlichung "The Anatomy of a Large-Scale Hypertextual Web Search Engine" der Fehler unterlaufen, die erste Version des PageRank-Algorithmus als Wahrscheinlichkeitsverteilung zu charakterisieren, bei der die Summe der PageRank-Werte aller Seiten gleich eins sei.

Im Folgenden wird für die weiteren Betrachtungen der oben zuerst genannte Algorithmus verwandt. Dies hat den einfachen Hintergrund, dass Berechnungen hiermit wesentlich einfacher sind, da die Größe des Webs vollkommen außer Acht gelassen werden kann.



Die Eigenschaften des PageRank
Die Eigenschaften des PageRank sollen jetzt anhand eines Beispieles veranschaulicht werden.

[Bild: bsp1.gif]

Hierzu wird ein kleines 3-Seiten-Web aus den Seiten A, B und C betrachtet, wobei Seite A sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt lediglich auf Seite C und Seite C wiederum verlinkt auf Seite A. Der Dämfungsfaktor d wird Angaben von Lawrence Page und Sergey Brin zufolge für tatsächliche Berechnungen üblicherweise auf 0.85 gesetzt. Der Einfachheit halber wird d an dieser Stelle ein Wert von 0.5 zugewiesen, wobei die Höhe von d zwar Auswirkungen auf den PageRank hat, das hier zu erläuternde Prinzip jedoch nicht beeinflusst. Es ergeben sich die folgenden Gleichungen für den PageRank der einzelnen Seiten:

PR(A) = 0.5 + 0.5 PR©
PR(B) = 0.5 + 0.5 (PR(A) / 2)
PR© = 0.5 + 0.5 (PR(A) / 2 + PR(B))

Dieses Gleichungssystem lässt sich sehr einfach für den PageRank der einzelnen Seiten lösen. Es ergeben sich die folgenden Werte:

PR(A) = 14/13 = 1.07692308
PR(B) = 10/13 = 0.76923077
PR© = 15/13 = 1.15384615

Es zeigt sich, dass die Summe der PageRanks aller Seiten gleich drei und somit gleich der Anzahl der Seiten ist. Dies ist keine spezifisches Ergebnis für unser Beispiel, da der PageRank Algorithmus einen Erwartungswert für den Besuch von Seiten bei Anläufen in Höhe der Anzahl der Seiten darstellt.

Für ein kleines 3-Seiten-Beispiel lässt sich ein Gleichungssystem unproblematisch lösen. Das tatsächliche WWW besteht jedoch mittlerweile aus mehreren Milliarden Webseiten, so dass die Lösung eines entsprechenden Gleichungssystems nicht mehr möglich ist.



Die iterative Berechnung des PageRank

Aufgrund der Größe des Webs erfolgt in der Praxis der Suchmaschine Google eine näherungsweise, iterative Berechnung des PageRank. Dies bedeutet, dass zunächst jeder Seite ein PageRank zugewiesen wird, und anschließend der PageRank aller Seiten in mehreren Berechnungsrunden ermittelt wird. Diese näherungsweise Berechung soll wiederum anhand unseres kleinen Beispiels demonstriert werden, wobei als Ausganswert für den PageRank einer jeden Seite zunächst 1 angenommen wird.


Iteration PR(A) PR(B) PR©
0 1 1 1
1 1 0.75 1.125
2 1.0625 0.765625 1.1484375
3 1.07421875 0.76855469 1.15283203
4 1.07641602 0.76910400 1.15365601
5 1.07682800 0.76920700 1.15381050
6 1.07690525 0.76922631 1.15383947
7 1.07691973 0.76922993 1.15384490
8 1.07692245 0.76923061 1.15384592
9 1.07692296 0.76923074 1.15384611
10 1.07692305 0.76923076 1.15384615
11 1.07692307 0.76923077 1.15384615
12 1.07692308 0.76923077 1.15384615


Es zeigt sich, dass sich in unserem Beispiel bereits nach sehr wenigen Iterationen eine sehr gute Näherung an die tatsächlichen Werte ergibt. Für die Berechnung des PageRanks für das komplette WWW werden von Lawrence Page und Sergey Brin ca. 100 Iterationen als hinreichend genannt.

Entscheidend ist, dass die Summe der PageRanks aller Seiten nach der Durchführung der iterativen Berechnung gegen die Anzahl aller Seiten konvergiert. Der durchschnittliche PageRank aller Seiten geht mithin gegen 1. Jede Seite hat einen minimalen PageRank von (1-d). Der theoretisch maximale PageRank einer Seite beträgt dN+(1-d), wobei N die Anzahl aller Webseiten ist. Dieser theoretische Wert käme zustande, wenn sämtliche Webseiten ausschließlich auf eine Seite verlinken, und auch diese wiederum ausschließlich auf sich selbst verlinkt.



Die Implementierung des PageRank





PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Überblick über das PageRank-Verfahren der Suchmaschine Google
Geschrieben von: SunSonic - 30.09.2002, 01:09 - Forum: Grundlagen - Keine Antworten

Überblick über das PageRank-Verfahren der Suchmaschine Google

Im Verlauf der letzten Jahre hat sich Google weltweit zur bedeutendsten Suchmaschine entwickelt. Maßgebend verantworlich hierfür war neben einer hohen Performance und einer großen Benutzerfreundlichkeit vor allem die anderen Suchmaschinen teilweise weit überlegene Qualität der Suchergebnisse. Diese Qualität der Suchergebnisse beruht ganz wesentlich auf dem PageRank-Verfahren.

An dieser Stelle soll ein möglichst breiter Überblick über alle Aspekte des PageRank-Verfahrens wiedergegeben werden. Unser Überblick stützt sich dabei im Kern auf Veröffentlichungen der Google-Gründer Lawrence Page und Sergey Brin aus ihrer Zeit als Graduiertenstudenten an der Stanford University.

Vielerorts wird angeführt, dass seit den Forschungsarbeiten am PageRank-Verfahren vor allem angesichts der Dynamik des Internets zu viel Zeit vergangen ist, als dass die veröffentlichten Dokumente immer noch für die Bewertungsmethodik der Suchmaschine Google maßgebend sind. Es soll auch nicht bezweifelt werden, dass im Verlauf der letzten Jahre mit großer Wahrscheinlichkeit zahlreiche Änderungen, Anpassungen und Modifikationen am ursprünglichen PageRank-Algorithmus stattgefunden haben. Allerdings war gerade das PageRank-Verfahren ein wichtiger Faktor für den Erfolg der Suchmaschine Google, womit zumindest das Konzept des PageRank-Verfahrens immer noch grundlegend sein sollte.



Das PageRank-Konzept
Im Zuge der Entwicklung des World Wide Webs wurden verschiedene Verfahren zur Bewertung von Webseiten mit dem Ziel der Relevanzbeurteilung durch Suchmaschinen entwickelt. Ein aus unmittelbar einleuchtenden Gründen auch heute immer noch von praktisch allen Suchmaschinen genutzter Maßstab ist das Vorkommen eines Suchbegriffs in den Inhalten einer Webseite. Dieses Vorkommen wird nach den verschiedensten Kriterien wie etwa der relativen Häufigkeit des Vorkommens (der sog. Keyword-Dichte), den Stellen des Vorkommens des Suchbegriffs oder auch der Exponiertheit des Suchbegriffs im Dokument gewichtet.

Aus der Absicht, Suchmaschinen resistent gegen Webseiten zu machen, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden (Doorway Pages), entstand das Konzept der Link-Popularität. Dabei fließt die Anzahl der eingehenden Links für ein Dokument als ein grundsätzliches Kriterium für die Bedeutung einer Webseite in die Relevanzbeurteilung ein. Diesem Ansatz liegt zu Grunde, dass ein Dokument um so wichtiger ist, je häufiger es von anderen verlinkt wird. Hierdurch wird weitestgehend verhindert, dass automatisch generierte "suchmaschinenoptimierte" Webseiten ohne jeglich Einbindung in das WWW oben in den Suchmaschinenergebnissen erscheinen. Es zeigte sich allerdings, dass auch das Konzept der Link-Popularität schnell von Webmastern antizipiert werden konnte, indem sie von ebenso unbedeutenden, automatisch generierten Seiten eingehende Links für Doorway Pages schufen.

Im Gegensatz zum Konzept der Link-Popularität nutzt das PageRank-Konzept nicht einfach die absolute Anzahl eingehender Links für die Beurteilung der Bedeutung einer Webseite. Die Argumentation der Google-Gründer gegen das Konzept der einfachen Link-Popularität war, dass ein Dokument zwar bedeutsam ist, wenn es von vielen anderen verlinkt wird, nicht jedes verlinkende Dokument ist jedoch gleichwertig. Vielmehr sollte einem Dokument - völlig unabhängig von seinen Inhalten - ein hoher Rang zugewiesen werden, wenn es von anderen bedeutenden Dokumenten verlinkt wird.

Die Bedeutsamkeit eines Dokuments bestimmt sich im Rahmen des PageRank-Konzepts also aus der Bedeutsamkeit der darauf verlinkenden Dokumente. Deren Rang wiederum bestimmt sich ebenfalls aus dem Rang verlinkender Dokumente. Die Bedeutsamkeit eines Dokuments definiert sich stets rekursiv aus der Bedeutsamkeit anderer Dokumente. Da - wenn auch über viele hintereinanderfolgende Links hinweg - der Rang eines jeden Dokuments eine Auswirkung auf den Rang eines jeden anderen hat, beruht das PageRank-Konzept letztlich auf der Linkstruktur des gesamten Webs. Obwohl diese ganzheitliche Betrachtung des WWW es nicht vermuten lässt, gelang es Page und Brin das PageRank-Konzept mittels eines relativ trivialen Algorithmus umzusetzen.


Der PageRank-Algorithmus



PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Google Dance - Das Index-Update der Suchmaschine Google
Geschrieben von: SunSonic - 30.09.2002, 01:06 - Forum: Laberecke - Antworten (4)

Google Dance - Das Index-Update der Suchmaschine Google

Die Bezeichnung "Google Dance" ist eine vielerorts anzutreffende Umschreibung des Verhaltens der Suchmaschine Google im Laufe eines Index-Updates. Das Index-Update erfolgt im Schnitt einmal pro Monat und zeigt sich vor allem dadurch, dass Google's kompletter Cache indexierter Seiten diese zum Stand des letzten Spiderns widerspiegelt und dass sich deutliche Veränderungen in den Suchergebnissen feststellen lassen. Dabei erfolgt das Update jedoch nicht im Sinne eines Umschaltens von einem alten Index auf einen neuen. Vielmehr erstreckt sich das Update über mehrere Tage, wobei sich Resultate aus dem alten und dem neuen Index auf http://www.google.com stets abwechseln. Zunächst erscheinen Ergebnisse aus dem neuen Index nur sporadisch. Später tauchen sie immer häufiger auf. Google "tanzt".

Der jeweilige Beginn der Index-Updates vergangener Monate wurde von Brett Tabke, dem Administrator der WebmasterWorld, übersichtlich zusammengestellt. Der letzte Google Dance ist gerade abgeschlossen. Er verlief in der Zeit vom 26.09.2002 bis zum 29.09.2002. Der nächste Google Dance wird voraussichtlich gegen Ende Oktober stattfinden. Über seinen Verlauf wird dann wiederum an dieser Stelle berichtet. Vor allem aber soll hier beschrieben werden, weshalb Google tanzt.



Die technischen Hintergründe des Google Dance
Die Suchmaschine Google liefert Suchergebnisse von mehr als 10.000 Servern, bei denen es sich um schlichte Linux-PCs handelt, die Google in erster Linie aus Kostengründen einsetzt. Ein Index-Update kann dabei natürlich nicht auf allen Servern gleichzeitig erfolgen. Der neue Index muss sukzessive auf den einzelnen Servern aufgespielt werden.

Es herrscht weithin die Vorstellung, dass Google während des Google Dance in irgendeiner Form intern steuert, ob auf eine Suchanfrage hin ein Server mit neuem oder ein Server mit altem Index antwortet. Da jedoch Google einen inversen Index nutzt, wäre die sehr kompliziert. Wie später gezeigt wird, findet auch tatsächlich keine derartige Steuerung innerhalb des Systems statt. Vielmehr liegt die Ursache für den Google Dance in Google's Nutzung des Domain Name Systems (DNS).



Google Dance und DNS
Es ist nicht nur Google's Index auf viele tausend Server verteilt, diese Server befinden sich zudem in derzeit sieben Rechenzentren. Sie liegen hauptsächtlich in den USA (z.B in Santa Clara, Kalifornien und Herndon, Virginia), im Juni 2002 ging allerdings Google's erstes eurpäisches Rechenzentrum in Zürich (Schweiz) online. Es ist für die Zukunft mit weiteren - eventuell über den Globus verstreuten - Rechenzentren zu rechnen.

Nun wäre es theoretisch denkbar, dass sämtliche Suchanfragen zentral erfasst und dann an die einzelnen Rechenzentren verteilt werden. Dies ist allerdings offensichtlich ineffizient. Jedes Rechenzentrum hat vielmehr eigene IP-Adressen - also eigene numerische Adressen innerhalb des Internets - und die Art und Weise, wie auf diese IP-Adressen zugegriffen wird, regelt das Domain Name System.

Das DNS funktioniert grundsätzlich folgendermaßen: Datentransfers erfolgen im Internet immer nur zwischen IP-Adressen. Informationen darüber, welche Domain zu welcher IP-Adresse auflöst, halten die Name Server des DNS bereit. Gibt ein Nutzer eine Domain in seinen Browser ein, ermittelt der lokal konfigurierte Name Server die dazugehörige IP-Adresse, indem er den für die jeweilige Domain zuständigen Name Server kontaktiert. (Dabei ist das DNS hierarchisch strukturiert. Eine Wiedergabe des exakten Vorgangs würde an dieser Stelle jedoch zu weit führen.) Diese IP-Adresse wird dann im lokal konfigurierten Name Server gecached, damit nicht bei jeder Verbindung wiederum eine Anfrage über das DNS erfolgen muss.

Für jede Domain wird dabei festgelegt, wie lange sie im Cache eines Name Servers verbleiben darf. Dieser Wert ist die Time To Live (TTL) einer Domain. Sobald die TTL abgelaufen ist, muss ein Name Server die IP-Adresse wiederum über das DNS beim zuständigen Name Server anfordern. Oft wird die TTL auf einen oder mehrere Tage festgelegt. Im Falle der Domain http://www.google.com ist die Time To Live jedoch mit 5 Minuten wesentlich kürzer. Damit dürfen Name Server die IP-Adresse der Domain http://www.google.com nur fünf Minuten cachen und müssen sie dann wieder beim zuständigen Name Server Google's anfordern.

Google's Name Server gibt bei Anfragen die IP-Adresse von nur einem Rechenzentrum zurück. Suchanfragen an Google werden also an ständig wechselde Rechenzentren gerichtet. Die Verteilung der Name-Server-Einträge dürfte dabei einerseits auf der Auslastung der einzelnen Rechenzentren basieren. Damit würde Google eine grobe Form des Load Balancing über das DNS durchführen. Andererseits lassen Tests für unterschiedliche Name Server darauf schließen, dass die geographische Lage eines Name Servers Einfluss darauf hat, welche IP-Adressen er relativ häufiger erhält. Auf diese Weise können die Datenübertragungsstrecken reduziert werden. Die DNS-Einträge für http://www.google.com können hier am Beispiel eines ausgewählten Name Servers verfolgt werden.

Der Zusammenhang zwischen Rechenzentren, DNS und Google Dance ist einfach: Im Zuge des Google Dance erhalten nicht alle Rechenzentren gleichzeitig den neuen Index. Es wird vielmehr in einem Rechenzentrum nach dem anderen der neue Index auf den Servern aufgespielt. Stellt ein Benutzer während des Google Dance eine Suchanfrage an Google, so kann er zu einem Zeitpunkt noch das Ergebnis von einem Rechenzentrum erhalten, das noch den alten Index nutzt, und bereits nach wenigen Minuten erhält er das Ergebnis auf die selbe Suchanfrage hin von einem Rechenzentrum, das den neuen Index nutzt. Für ihn hat sich das Update scheinbar binnen weniger Minuten und auf einen Schlag vollzogen. Dieser Vorgang kann sich natürlich auch umkehren, so dass Google scheinbar laufend zwischen dem alten und dem neuen Index wechselt.



IP-Adressen und Domains der einzelnen Rechenzentren
Der Verlauf des Google Dance könnte grundsätzlich durch Suchanfragen bei den IP-Adressen der jeweiligen Rechenzentren erfolgen. In der Regel werden jedoch bei Suchanfragen die IP-Adressen auf http://www.google.com umgelenkt. Google hält allerdings für die einzelnen Rechenzentren eigene Domains bereit, die stets zu den jeweiligen IP-Adressen auflösen. Diese Domains und ihre entsprechenden IP-Adresses können der folgenden Auflistung entnommen werden.

Domain IP-Adresse
www-ex.google.com 216.239.33.100
www-sj.google.com 216.239.35.100
www-va.google.com 216.239.37.100
www-dc.google.com 216.239.39.100
www-ab.google.com 216.239.51.100
www-in.google.com 216.239.53.100
www-zu.google.com 216.239.55.100

Neben den Domains der Form www-xx.google.com existieren zusätzlich entsprechende Domains www-xx2.google.com. Die jeweilige IP-Adresse einer Domain der Form www-xx2.google.com endet auf .101 anstatt auf .100. Über die beiden Domains bzw. IP-Adressen eines jeden Rechenzentrums wird stets der gleiche Index angesprochen.

Beobachter des Google Dance vermuten oft, dass das Index-Update abgeschlossen ist, sobald sie den neuen Index auf http://www.google.com entdecken bzw. wenn sie den alten Index für eine gewisse Zeit nicht mehr auf http://www.google.com sehen können. Letztlich ist das Update jedoch erst abgeschlossen, wenn keine der oben aufgelisteten Domains mehr Resultate aus dem alten Index aufweist.

Das Update eines jeweiligen Rechenzentrums erfolgt scheinbar von einem Moment auf den anderen. Sobald ein Rechenzentrum einmal den neuen Index präsentiert, werden von dort keine Ergebnisse aus dem alten Index mehr geliefert. Dies ist lediglich so zu erklären, dass Google's Index mehrfach redundant in einem Rechenzentrum vorgehalten wird. Zunächst wird nur ein Teil (eventuell die Hälfte) aller Server eines Rechenzentrums mit dem neuen Index versehen. Für diesen Zeitraum wird bei Suchanfragen nur der andere Teil der Server angesprochen. Ist das Update des einen Teils der Server abgeschlossen, wird bei Suchanfragen nur dieser Teil der Server angesprochen, während der andere Teil der Server den neuen Index erhält. Für den Benutzer vollzieht sich dass Update eines Rechenzentrums dann zu genau einem Zeitpunkt.

Anzumerken bleibt letztlich, dass der Zugriff auf die einzelnen Rechenzentren generell über das DNS gesteuert wird, zum Teil jedoch auch Suchanfragen gezielt weitergeleitet werden. Dies ist allerdings leicht zu erkennen: Wenn bei einer Suche auf einer der oben aufgelisteten Domains der Link zu Google's Cache des Suchergebnisses nicht auf die der Domain entsprechenden IP-Adresse verweist, ist die Suchanfrage weitergeleitet. Sobald das passiert, verhindert Google - aus welchen Gründen auch immer - den Zugriff auf ein bestimmtes Rechenzentrum.



Die Google Dance Testdomains www2 und www3
Der Beginn eines Google Dance kann stets anhand der beiden Testdomains www2.google.com und www3.google.com beobachtet werden. Den beiden Domains ist im Zeitablauf relativ fix jeweils eine (oft die gleiche) IP-Adresse zugeordnet. Vor Beginn des Google Dance wird zumindest einer der beiden Domains über das DNS die IP-Adresse desjenigen Rechenzentrums zugewiesen, dessen Server den neuen Index zuerst erhalten.

Der monatliche Aufbau eines komplett neuen Index ist mit vielen Risiken verbunden. Schließlich muss Google in kürzester Zeit einige Milliarden Dokumente spidern und anschließend viele TeraByte Daten verarbeiten. Damit sind Tests eines neuen Index unumgänglich. Natürlich benötigen nicht die Google-Mitarbeiter selbst die Domains www2.google.com und www3.google.com zu Testzwecken. Sie haben sicherlich die verschiedensten Möglichkeiten ihren Index zu überprüfen, wobei sie allerdings starken zeitlichen Restriktionen unterworfen sind.

Ein neuer Index wird also vielmehr über Testdomains einer interessierten Öffentlichkeit zugänglich gemacht, die sich in den verschiedensten Foren intensiv über die jeweiligen Index-Updates austauscht. Dieser Austausch kann dann von Google-Mitarbeitern verfolgt werden. Dabei bleibt das Update der allgemeinen Öffenlichkeit zunächst weitestgehend verborgen, da Google's Name Server vor Beginn des Updates in der Regel so eingestellt wird, dass http://www.google.com nicht mehr zu der IP-Adresse desjenigen Rechenzentrums auflöst, das den neuen Index zuerst erhält.

Sobald auch der gar nicht so kleinen Gruppe von Testnutzern keine groben Fehlfunktionen durch das Index-Update auffallen, wird Google's Name Server wieder so eingestellt, dass http://www.google.com auch wieder auf die IP-Adresse desjenigen Rechenzentrums aufgelöst wird, dass den neuen Index zuerst erhalten hat, und der Google Dance beginnt. Sollten sich beim Test des neuen Index durch die Nutzer allerdings gravierende Fehlfunktionen zeigen, besteht grundsätzlich die Möglichkeit, das Update der anderen Rechenzentren erst gar nicht einzuleiten. Die Domain http://www.google.com würde nicht auf die IP-Adresse des Rechenzentrums mit dem fehlerhaften Index auflösen und die Fehlfunktionen blieben der breiten Öffentlichkeit verborgen. In diesem Falle könnte der Index neu aufgebaut oder aber gegebenenfalls das Web neu gespidert werden.

Die Suchergebnisse die sich vor Beginn des eigentlichen Google Dance auf www2.google.com bzw. www3.google.com zeigen, werden bei einem reibungslosen Update zu einem späteren Zeitpunkt also stets auch auf http://www.google.com erscheinen. Dabei können sich allerdings immer noch geringfügige Fluktuationen ergeben. Zum einen gleicht der Index des einen Rechenzentrums nie exakt dem eines anderen. Dies lässt sich oft sehr leicht an der Anzahl der Suchergebnisse für beliebige Suchanfragen bei den weiter oben aufgelisteten Domains der einzelnen Rechenzentren ablesen. Zum anderen wird oft vermutet, dass die iterative PageRank-Berechnung beim ersten Aufspielen eines neuen Index nicht komplett abgeschlossen ist, so dass zunächst lediglich vorläufige Werte in die Rankings eingehen.



Die neuen PageRank-Werte im Laufe des Google Dance
Natürlich sind Positionsveränderungen der eigenen Seiten nach Beginn des Google Dance das wichtigste für jeden Webmaster. Daneben interessieren sich die meisten jedoch auch für die Entwicklung der PageRank-Werte ihrer Seiten. Bei der Abfrage der PageRank-Werte über die Google Toolbar kontaktiert diese jedoch in der Regel das Rechenzentrum, welches gerade im DNS-Eintrag für http://www.google.com festgelegt ist. Somit werden gerade zu Beginn des Google Dance meist die alten PageRank-Werte angezeigt.

Für dieses Problem existiert allerdings eine Lösung. Google übermittelt den PageRank in einfachen Textdateien an die Toolbar. Früher geschah dies per XML. Der Wechsel zu Textdateien fand im August 2002 statt. Die PageRank-Dateien können direkt von der Domain http://www.google.com abgerufen werden. In ihrer Grundform sehen die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche):

http://www.google.com/search?
client=navclient-auto&
ch=0123456789&
features=Rank&
q=info:http://www.domain.com/

Die PageRank-Dateien bestehen aus einer Zeile. Der PageRank-Wert ist die letzte Ziffer in dieser Zeile.

Die oben in der URL dargestellten Parameter sind unerlässlich für die Anzeige der PageRank-Dateien im Browser. So identifiziert sich mit dem Wert "navclient-auto" für den Parameter "client" die Toolbar. Mit dem Parameter "q" wird die abgefragte URL übermittelt. Der Wert "Rank" für den Parameter "features" legt fest, dass die PageRank-Dateien abgerufen werden. Wird dieser Parameter weggelassen, werden auch weiterhin XML-Dateien übermittelt. Der Parameter "ch" wiederum übergibt eine Prüfsumme für die URL, wobei sich diese Prüfsumme im Zeitablauf für einzelne URLs lediglich bei Updates der Toolbar ändern kann.

Die von der Toolbar abgerufenen PageRank-Dateien werden vom Internet Explorer gecached. Ihre jeweilige URL sowie die entsprechende Prüfsumme kann also im Ordner Temporary Internet Files eingesehen werden. Damit können die PageRank-Dateien direkt im Browser betrachtet werden. Da die PageRank-Dateien im Browser-Cache gespeichert werden und somit offen einsehbar sind und die Abfrage nicht automatisiert erfolgt, sollte ein direkter Einblick keine Verletzung von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent an Google. Es ist:

Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4.10)

Hierbei ist 1.1.60-deleon eine Toolbar-Version, die sich natürlich ändern kann, und OS das Betriebssystem des jeweils eingesetzten Rechners. Google kann also nachprüfen, ob eine direkte Anfrage über den Browser erfolgt, sofern kein Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert wird.

Nun aber dazu, wie die neuen PageRank-Werte in Erfahrung zu bringen sind: Beim Blick in den Cache des IE wird man in der Regel feststellen, dass die PageRank-Dateien nicht von der Domain http://www.google.com, sondern von IP-Adressen wie z.B. 216.239.33.102 abgerufen werden. Ebenso enthalten die URLs häufig einen weiteren Parameter "failedip" mit Werten wie z.B. "216.239.35.102;1111", dessen Bedeutung nicht ganz klar ist. Es ist allerdings recht einfach, an die neuen PageRank-Werte zu gelangen: In der URL sind lediglich die IP-Adressen so zu modifizieren, dass Anfragen an ein Rechenzentrum gerichtet werden, dass bereits das Index-Update erhalten hat. Die erforderlichen Informationen hierzu finden sich weiter oben.







Google und PageRank sind geschützte Marken der Google Inc., Mountain View CA, USA.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter dance.efactory.de gesetzt wird.


  NoSelfReply Hack weg
Geschrieben von: pattex - 28.09.2002, 15:39 - Forum: net-board.net Archiv - Keine Antworten

Da es nur zu Problemen kam durch den Hack ist er nun weg. Zum Beispiel konnte in Gast nicht 2 mal schreiben (ich meine 2 verschiedene) ausserdem ist eminem ja weg und da hier fast nur moderatoren sind die sowieso doppelt posten dürfen (Big Grin) bringt der hack nichts.

Smile


  win2k
Geschrieben von: MasterP - 28.09.2002, 15:10 - Forum: Computerecke - Antworten (1)

Ich habe mir jetzt meher Arbeitsspeicher und win2k drauf gemacht!Bis jetzt is alles super! Es waren jede menge gute Treiber dabei! Außer für ErazorIII weden nicht mehr meine Treiber die ich hatte unterstützt! Habe jetzt von einer NVidia Riva TNT2 die Treiber die Funzen aber au gut!
Aber ansonten is win2k echt super ich kann es nur weiter empfelen!


  Riesen Problem Mit Tastatur!
Geschrieben von: pattex - 28.09.2002, 14:59 - Forum: Computerecke - Antworten (8)

Im Forum geht meine Tastatur nicht mehr richtig!

Es ist alles verstellt. Wenn ich sternchen druecken will kommt } und wenn ich klammer auf druecken will kommt *.

Ausserdem ist auch das z mit dem y vertauscht. und ue und so geht auch nicht..

HILFE!!!! AHHHH 8o