Hallo, Gast
Du musst dich registrieren bevor du auf unserer Seite Beiträge schreiben kannst.

Benutzername
  

Passwort
  





Durchsuche Foren



(Erweiterte Suche)

Foren-Statistiken
» Mitglieder: 1
» Neuestes Mitglied: pattex
» Foren-Themen: 6.051
» Foren-Beiträge: 57.363

Komplettstatistiken

Aktive Themen
Bye bye WBB, Hallo MyBB
Forum: Ankündigungen vom Netboard Team
Letzter Beitrag: KingGO
23.04.2020, 17:48
» Antworten: 3
» Ansichten: 30.897
xProg.de - Willkommen - Z...
Forum: Links zu eurer Homepage
Letzter Beitrag: cHAp
31.10.2018, 18:14
» Antworten: 0
» Ansichten: 14.533
Fotoabzüge, Preisvergleic...
Forum: Grafik, Foto und Webdesign
Letzter Beitrag: marco75
28.10.2015, 17:01
» Antworten: 0
» Ansichten: 9.608
Anbieter Vergleich,Preisv...
Forum: Grafik, Foto und Webdesign
Letzter Beitrag: marco89
20.10.2015, 15:45
» Antworten: 0
» Ansichten: 6.118
Preisvergleich
Forum: Webseiten: Verwalten und Betreuen
Letzter Beitrag: Marco89
29.09.2015, 17:21
» Antworten: 0
» Ansichten: 9.909
Assoziationskette
Forum: Laberecke
Letzter Beitrag: MüCa
05.02.2015, 04:46
» Antworten: 3.894
» Ansichten: 4.452.860
Drastische Mittel gegen F...
Forum: Ankündigungen vom Netboard Team
Letzter Beitrag: cHAp
04.09.2013, 22:28
» Antworten: 7
» Ansichten: 58.755
Bares Geld Verdienen! Att...
Forum: Job Börse
Letzter Beitrag: cHAp
08.08.2013, 23:39
» Antworten: 0
» Ansichten: 30.442
Simple Machines Community...
Forum: Communitysysteme
Letzter Beitrag: cHAp
08.08.2013, 20:32
» Antworten: 1
» Ansichten: 55.007
Externe Verlinkungen
Forum: Wünsche, Kritik und Fragen
Letzter Beitrag: NetHunter
19.04.2013, 18:09
» Antworten: 4
» Ansichten: 50.557

 
  Hitman 2 Demo!
Geschrieben von: screenyfs - 04.10.2002, 17:18 - Forum: net-board.net Archiv - Antworten (27)

Es gibt jetzt auch eine Hitman 2 Demo! Runterladen könnt ihr den 48,3 MB großen Download hier: http://gamingnewz.de/index.php?seite=dow...id=13&sid=

Ich setze es auch nochmal in die Database und kopiere es in Downloads


  Willkommen Beast-Hunter
Geschrieben von: pattex - 03.10.2002, 11:31 - Forum: net-board.net Archiv - Antworten (3)

Willkommen,
ich hoffe es gefällt dir hier.

Wenn du fragen oder Probleme hast dann frage mich oder das restliche Team Big Grin

Smile


  Fehlerfrei!
Geschrieben von: pattex - 02.10.2002, 20:53 - Forum: net-board.net Archiv - Antworten (4)

Endlich habe ich alle Fehler die es im Forum gab beseitigt. Hier mal (wen es interessiert) die Lösung der Probleme und wo ich fragen musste:

Portal - Keine Boxen erstellen
- Eigentlich war es keine große Sache. Ein Template war falsch und da hat der in der Datenbank nicht reingeschrieben auf welcher seite die box ist. Dadurch wurde sie nicht angezeigt. Habe ich heute rausgefunden Big Grin
Fragen musste ich bei mywbb wo ich nach anfänglichen anstrenungen zum schluss keine richtige Antwort hatte. Erst mit dem Titel "Keine Hilfe mehr?" bekam ich Antworten aber keine die zum Thema passten.

Portal - Database error
- Ich muss das Portal nochmal über das alte installieren. Die Kategorien werden noch eingerichtet. Ich hoffe auch das ihr die Links wieder eintragt. Und mir bitte sagt welche Kategorien es gab. Danke!
Habe auch gefragt bei mywbb (sogar beim programmierer der Portals) keine Antwort. Die einzige war neu installieren.

Fehler in faq - Oben an der Seite
- Eigentlich nur ein kleiner Fehler in einem Template. Durch einen Fehler von meiner Seite habe ich nicht gemerkt das der Template für das andere Design richtig war aber für dieses hier (die sind getrennt) war es halt fehlerhaft.
Fragen musste ich: mywbb (keine antwort, ausser das es ein Fehler in einem Template sein könnte, wbb-help (man konnte sehen wie der Beitrag immer weiter nach unten rutschte), woltlab support Forum (wofür ich Geld bezahlt habe!) keine Antwort, und heute um 20:00Uhr habe ich bei wbb-fan gefragt (ein kleines board über woltlab mit nur 8 leuten gleichzeitig online) und habe um 21:00Uhr die Antwort gehabt! Ohne lange Fragen oder blöde kommentare. Hut ab!

Also das Forum müsste wieder ohne Fehler laufen. Habe auch gleich den Promotion Button oben repariert und nen Strich dran gemacht Big Grin

Viel Spaß


  Portal neu installiert!
Geschrieben von: pattex - 01.10.2002, 12:19 - Forum: net-board.net Archiv - Keine Antworten

Eben gerade wurde das Portal neu installiert. Einstellungen werden heute oder morgen gemacht. Partnerseiten und so.

Die Database geht wieder und ich hoffe boxen kann ich auch wieder einfügen.

Es gab keine Probleme während der Installation! Smile

Damit wären viele Probleme gelöst und ich kann mich in ruhe an das Problem mit der FAQ machen


  Wichtige Umfrage
Geschrieben von: pattex - 30.09.2002, 18:05 - Forum: Umfragen - Antworten (4)

Was sollte ich tun?

1. Auf Portal 3.0 umstellen (Vorgänger) und dadurch die Database verlieren?

2. Die Final drauf spielen und hoffen das der fehler in der faq verschwindet.

3. gar nichts einfach abwarten was passiert.

Bitte stimmt ab. danke


  Internet disconnectet
Geschrieben von: screenyfs - 30.09.2002, 11:02 - Forum: Computerecke - Keine Antworten

Wenn ich im Internet bin disconnect sich dauernd T-online. Ich habe im Moment win 98 drauf. Weiß jemand wie man das ändern kann? Allein während ich diesen Beitrag geschrieben habe hat sich T-online einmal disconnectet

btw Die automatische Abwahl hab ich ausgestellt


  Google tanzt...
Geschrieben von: SunSonic - 30.09.2002, 04:01 - Forum: Grundlagen - Antworten (4)

INHALT:

1. Google tanzt...

2. Überblick über das PageRank-Verfahren der Suchmaschine Google

3. Der PageRank-Algorithmus

4. Die Implementierung des PageRank in die Suchmaschine Google

5. Der Effekt eingehender Links

6. Der Effekt ausgehender Links

7. Der Einfluss der Anzahl der Seiten auf den PageRank

8. Die Distribution von PageRank im Rahmen der Suchmaschinenoptmierung

9. Der Yahoo-Bonus und seine Auswirkungen auf die Suchmaschinen-Optimierung

10. Weitere Einflussfaktoren im Rahmen des PageRank-Verfahrens

Quelle:
eFactory
Internet-Agentur KG

Rather Str. 56
40476 Düsseldorf

Postfach 10 23 01
40014 Düsseldorf

Fon: 0211 - 5143160
Fax: 0211 - 5143178

Google Dance - Das Index-Update der Suchmaschine Google

Die Bezeichnung "Google Dance" ist eine vielerorts anzutreffende Umschreibung des Verhaltens der Suchmaschine Google im Laufe eines Index-Updates. Das Index-Update erfolgt im Schnitt einmal pro Monat und zeigt sich vor allem dadurch, dass Google's kompletter Cache indexierter Seiten diese zum Stand des letzten Spiderns widerspiegelt und dass sich deutliche Veränderungen in den Suchergebnissen feststellen lassen. Dabei erfolgt das Update jedoch nicht im Sinne eines Umschaltens von einem alten Index auf einen neuen. Vielmehr erstreckt sich das Update über mehrere Tage, wobei sich Resultate aus dem alten und dem neuen Index auf http://www.google.com stets abwechseln. Zunächst erscheinen Ergebnisse aus dem neuen Index nur sporadisch. Später tauchen sie immer häufiger auf. Google "tanzt".

Der jeweilige Beginn der Index-Updates vergangener Monate wurde von Brett Tabke, dem Administrator der WebmasterWorld, übersichtlich zusammengestellt. Der letzte Google Dance ist gerade abgeschlossen. Er verlief in der Zeit vom 26.09.2002 bis zum 29.09.2002. Der nächste Google Dance wird voraussichtlich gegen Ende Oktober stattfinden. Über seinen Verlauf wird dann wiederum an dieser Stelle berichtet. Vor allem aber soll hier beschrieben werden, weshalb Google tanzt.



Die technischen Hintergründe des Google Dance
Die Suchmaschine Google liefert Suchergebnisse von mehr als 10.000 Servern, bei denen es sich um schlichte Linux-PCs handelt, die Google in erster Linie aus Kostengründen einsetzt. Ein Index-Update kann dabei natürlich nicht auf allen Servern gleichzeitig erfolgen. Der neue Index muss sukzessive auf den einzelnen Servern aufgespielt werden.

Es herrscht weithin die Vorstellung, dass Google während des Google Dance in irgendeiner Form intern steuert, ob auf eine Suchanfrage hin ein Server mit neuem oder ein Server mit altem Index antwortet. Da jedoch Google einen inversen Index nutzt, wäre die sehr kompliziert. Wie später gezeigt wird, findet auch tatsächlich keine derartige Steuerung innerhalb des Systems statt. Vielmehr liegt die Ursache für den Google Dance in Google's Nutzung des Domain Name Systems (DNS).



Google Dance und DNS
Es ist nicht nur Google's Index auf viele tausend Server verteilt, diese Server befinden sich zudem in derzeit sieben Rechenzentren. Sie liegen hauptsächtlich in den USA (z.B in Santa Clara, Kalifornien und Herndon, Virginia), im Juni 2002 ging allerdings Google's erstes eurpäisches Rechenzentrum in Zürich (Schweiz) online. Es ist für die Zukunft mit weiteren - eventuell über den Globus verstreuten - Rechenzentren zu rechnen.

Nun wäre es theoretisch denkbar, dass sämtliche Suchanfragen zentral erfasst und dann an die einzelnen Rechenzentren verteilt werden. Dies ist allerdings offensichtlich ineffizient. Jedes Rechenzentrum hat vielmehr eigene IP-Adressen - also eigene numerische Adressen innerhalb des Internets - und die Art und Weise, wie auf diese IP-Adressen zugegriffen wird, regelt das Domain Name System.

Das DNS funktioniert grundsätzlich folgendermaßen: Datentransfers erfolgen im Internet immer nur zwischen IP-Adressen. Informationen darüber, welche Domain zu welcher IP-Adresse auflöst, halten die Name Server des DNS bereit. Gibt ein Nutzer eine Domain in seinen Browser ein, ermittelt der lokal konfigurierte Name Server die dazugehörige IP-Adresse, indem er den für die jeweilige Domain zuständigen Name Server kontaktiert. (Dabei ist das DNS hierarchisch strukturiert. Eine Wiedergabe des exakten Vorgangs würde an dieser Stelle jedoch zu weit führen.) Diese IP-Adresse wird dann im lokal konfigurierten Name Server gecached, damit nicht bei jeder Verbindung wiederum eine Anfrage über das DNS erfolgen muss.

Für jede Domain wird dabei festgelegt, wie lange sie im Cache eines Name Servers verbleiben darf. Dieser Wert ist die Time To Live (TTL) einer Domain. Sobald die TTL abgelaufen ist, muss ein Name Server die IP-Adresse wiederum über das DNS beim zuständigen Name Server anfordern. Oft wird die TTL auf einen oder mehrere Tage festgelegt. Im Falle der Domain http://www.google.com ist die Time To Live jedoch mit 5 Minuten wesentlich kürzer. Damit dürfen Name Server die IP-Adresse der Domain http://www.google.com nur fünf Minuten cachen und müssen sie dann wieder beim zuständigen Name Server Google's anfordern.

Google's Name Server gibt bei Anfragen die IP-Adresse von nur einem Rechenzentrum zurück. Suchanfragen an Google werden also an ständig wechselde Rechenzentren gerichtet. Die Verteilung der Name-Server-Einträge dürfte dabei einerseits auf der Auslastung der einzelnen Rechenzentren basieren. Damit würde Google eine grobe Form des Load Balancing über das DNS durchführen. Andererseits lassen Tests für unterschiedliche Name Server darauf schließen, dass die geographische Lage eines Name Servers Einfluss darauf hat, welche IP-Adressen er relativ häufiger erhält. Auf diese Weise können die Datenübertragungsstrecken reduziert werden. Die DNS-Einträge für http://www.google.com können hier am Beispiel eines ausgewählten Name Servers verfolgt werden.

Der Zusammenhang zwischen Rechenzentren, DNS und Google Dance ist einfach: Im Zuge des Google Dance erhalten nicht alle Rechenzentren gleichzeitig den neuen Index. Es wird vielmehr in einem Rechenzentrum nach dem anderen der neue Index auf den Servern aufgespielt. Stellt ein Benutzer während des Google Dance eine Suchanfrage an Google, so kann er zu einem Zeitpunkt noch das Ergebnis von einem Rechenzentrum erhalten, das noch den alten Index nutzt, und bereits nach wenigen Minuten erhält er das Ergebnis auf die selbe Suchanfrage hin von einem Rechenzentrum, das den neuen Index nutzt. Für ihn hat sich das Update scheinbar binnen weniger Minuten und auf einen Schlag vollzogen. Dieser Vorgang kann sich natürlich auch umkehren, so dass Google scheinbar laufend zwischen dem alten und dem neuen Index wechselt.



IP-Adressen und Domains der einzelnen Rechenzentren
Der Verlauf des Google Dance könnte grundsätzlich durch Suchanfragen bei den IP-Adressen der jeweiligen Rechenzentren erfolgen. In der Regel werden jedoch bei Suchanfragen die IP-Adressen auf http://www.google.com umgelenkt. Google hält allerdings für die einzelnen Rechenzentren eigene Domains bereit, die stets zu den jeweiligen IP-Adressen auflösen. Diese Domains und ihre entsprechenden IP-Adresses können der folgenden Auflistung entnommen werden.

Domain IP-Adresse
www-ex.google.com 216.239.33.100
www-sj.google.com 216.239.35.100
www-va.google.com 216.239.37.100
www-dc.google.com 216.239.39.100
www-ab.google.com 216.239.51.100
www-in.google.com 216.239.53.100
www-zu.google.com 216.239.55.100

Neben den Domains der Form www-xx.google.com existieren zusätzlich entsprechende Domains www-xx2.google.com. Die jeweilige IP-Adresse einer Domain der Form www-xx2.google.com endet auf .101 anstatt auf .100. Über die beiden Domains bzw. IP-Adressen eines jeden Rechenzentrums wird stets der gleiche Index angesprochen.

Beobachter des Google Dance vermuten oft, dass das Index-Update abgeschlossen ist, sobald sie den neuen Index auf http://www.google.com entdecken bzw. wenn sie den alten Index für eine gewisse Zeit nicht mehr auf http://www.google.com sehen können. Letztlich ist das Update jedoch erst abgeschlossen, wenn keine der oben aufgelisteten Domains mehr Resultate aus dem alten Index aufweist.

Das Update eines jeweiligen Rechenzentrums erfolgt scheinbar von einem Moment auf den anderen. Sobald ein Rechenzentrum einmal den neuen Index präsentiert, werden von dort keine Ergebnisse aus dem alten Index mehr geliefert. Dies ist lediglich so zu erklären, dass Google's Index mehrfach redundant in einem Rechenzentrum vorgehalten wird. Zunächst wird nur ein Teil (eventuell die Hälfte) aller Server eines Rechenzentrums mit dem neuen Index versehen. Für diesen Zeitraum wird bei Suchanfragen nur der andere Teil der Server angesprochen. Ist das Update des einen Teils der Server abgeschlossen, wird bei Suchanfragen nur dieser Teil der Server angesprochen, während der andere Teil der Server den neuen Index erhält. Für den Benutzer vollzieht sich dass Update eines Rechenzentrums dann zu genau einem Zeitpunkt.

Anzumerken bleibt letztlich, dass der Zugriff auf die einzelnen Rechenzentren generell über das DNS gesteuert wird, zum Teil jedoch auch Suchanfragen gezielt weitergeleitet werden. Dies ist allerdings leicht zu erkennen: Wenn bei einer Suche auf einer der oben aufgelisteten Domains der Link zu Google's Cache des Suchergebnisses nicht auf die der Domain entsprechenden IP-Adresse verweist, ist die Suchanfrage weitergeleitet. Sobald das passiert, verhindert Google - aus welchen Gründen auch immer - den Zugriff auf ein bestimmtes Rechenzentrum.



Die Google Dance Testdomains www2 und www3
Der Beginn eines Google Dance kann stets anhand der beiden Testdomains www2.google.com und www3.google.com beobachtet werden. Den beiden Domains ist im Zeitablauf relativ fix jeweils eine (oft die gleiche) IP-Adresse zugeordnet. Vor Beginn des Google Dance wird zumindest einer der beiden Domains über das DNS die IP-Adresse desjenigen Rechenzentrums zugewiesen, dessen Server den neuen Index zuerst erhalten.

Der monatliche Aufbau eines komplett neuen Index ist mit vielen Risiken verbunden. Schließlich muss Google in kürzester Zeit einige Milliarden Dokumente spidern und anschließend viele TeraByte Daten verarbeiten. Damit sind Tests eines neuen Index unumgänglich. Natürlich benötigen nicht die Google-Mitarbeiter selbst die Domains www2.google.com und www3.google.com zu Testzwecken. Sie haben sicherlich die verschiedensten Möglichkeiten ihren Index zu überprüfen, wobei sie allerdings starken zeitlichen Restriktionen unterworfen sind.

Ein neuer Index wird also vielmehr über Testdomains einer interessierten Öffentlichkeit zugänglich gemacht, die sich in den verschiedensten Foren intensiv über die jeweiligen Index-Updates austauscht. Dieser Austausch kann dann von Google-Mitarbeitern verfolgt werden. Dabei bleibt das Update der allgemeinen Öffenlichkeit zunächst weitestgehend verborgen, da Google's Name Server vor Beginn des Updates in der Regel so eingestellt wird, dass http://www.google.com nicht mehr zu der IP-Adresse desjenigen Rechenzentrums auflöst, das den neuen Index zuerst erhält.

Sobald auch der gar nicht so kleinen Gruppe von Testnutzern keine groben Fehlfunktionen durch das Index-Update auffallen, wird Google's Name Server wieder so eingestellt, dass http://www.google.com auch wieder auf die IP-Adresse desjenigen Rechenzentrums aufgelöst wird, dass den neuen Index zuerst erhalten hat, und der Google Dance beginnt. Sollten sich beim Test des neuen Index durch die Nutzer allerdings gravierende Fehlfunktionen zeigen, besteht grundsätzlich die Möglichkeit, das Update der anderen Rechenzentren erst gar nicht einzuleiten. Die Domain http://www.google.com würde nicht auf die IP-Adresse des Rechenzentrums mit dem fehlerhaften Index auflösen und die Fehlfunktionen blieben der breiten Öffentlichkeit verborgen. In diesem Falle könnte der Index neu aufgebaut oder aber gegebenenfalls das Web neu gespidert werden.

Die Suchergebnisse die sich vor Beginn des eigentlichen Google Dance auf www2.google.com bzw. www3.google.com zeigen, werden bei einem reibungslosen Update zu einem späteren Zeitpunkt also stets auch auf http://www.google.com erscheinen. Dabei können sich allerdings immer noch geringfügige Fluktuationen ergeben. Zum einen gleicht der Index des einen Rechenzentrums nie exakt dem eines anderen. Dies lässt sich oft sehr leicht an der Anzahl der Suchergebnisse für beliebige Suchanfragen bei den weiter oben aufgelisteten Domains der einzelnen Rechenzentren ablesen. Zum anderen wird oft vermutet, dass die iterative PageRank-Berechnung beim ersten Aufspielen eines neuen Index nicht komplett abgeschlossen ist, so dass zunächst lediglich vorläufige Werte in die Rankings eingehen.



Die neuen PageRank-Werte im Laufe des Google Dance
Natürlich sind Positionsveränderungen der eigenen Seiten nach Beginn des Google Dance das wichtigste für jeden Webmaster. Daneben interessieren sich die meisten jedoch auch für die Entwicklung der PageRank-Werte ihrer Seiten. Bei der Abfrage der PageRank-Werte über die Google Toolbar kontaktiert diese jedoch in der Regel das Rechenzentrum, welches gerade im DNS-Eintrag für http://www.google.com festgelegt ist. Somit werden gerade zu Beginn des Google Dance meist die alten PageRank-Werte angezeigt.

Für dieses Problem existiert allerdings eine Lösung. Google übermittelt den PageRank in einfachen Textdateien an die Toolbar. Früher geschah dies per XML. Der Wechsel zu Textdateien fand im August 2002 statt. Die PageRank-Dateien können direkt von der Domain http://www.google.com abgerufen werden. In ihrer Grundform sehen die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche):

http://www.google.com/search?
client=navclient-auto&
ch=0123456789&
features=Rank&
q=info:http://www.domain.com/

Die PageRank-Dateien bestehen aus einer Zeile. Der PageRank-Wert ist die letzte Ziffer in dieser Zeile.

Die oben in der URL dargestellten Parameter sind unerlässlich für die Anzeige der PageRank-Dateien im Browser. So identifiziert sich mit dem Wert "navclient-auto" für den Parameter "client" die Toolbar. Mit dem Parameter "q" wird die abgefragte URL übermittelt. Der Wert "Rank" für den Parameter "features" legt fest, dass die PageRank-Dateien abgerufen werden. Wird dieser Parameter weggelassen, werden auch weiterhin XML-Dateien übermittelt. Der Parameter "ch" wiederum übergibt eine Prüfsumme für die URL, wobei sich diese Prüfsumme im Zeitablauf für einzelne URLs lediglich bei Updates der Toolbar ändern kann.

Die von der Toolbar abgerufenen PageRank-Dateien werden vom Internet Explorer gecached. Ihre jeweilige URL sowie die entsprechende Prüfsumme kann also im Ordner Temporary Internet Files eingesehen werden. Damit können die PageRank-Dateien direkt im Browser betrachtet werden. Da die PageRank-Dateien im Browser-Cache gespeichert werden und somit offen einsehbar sind und die Abfrage nicht automatisiert erfolgt, sollte ein direkter Einblick keine Verletzung von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent an Google. Es ist:

Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4.10)

Hierbei ist 1.1.60-deleon eine Toolbar-Version, die sich natürlich ändern kann, und OS das Betriebssystem des jeweils eingesetzten Rechners. Google kann also nachprüfen, ob eine direkte Anfrage über den Browser erfolgt, sofern kein Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert wird.

Nun aber dazu, wie die neuen PageRank-Werte in Erfahrung zu bringen sind: Beim Blick in den Cache des IE wird man in der Regel feststellen, dass die PageRank-Dateien nicht von der Domain http://www.google.com, sondern von IP-Adressen wie z.B. 216.239.33.102 abgerufen werden. Ebenso enthalten die URLs häufig einen weiteren Parameter "failedip" mit Werten wie z.B. "216.239.35.102;1111", dessen Bedeutung nicht ganz klar ist. Es ist allerdings recht einfach, an die neuen PageRank-Werte zu gelangen: In der URL sind lediglich die IP-Adressen so zu modifizieren, dass Anfragen an ein Rechenzentrum gerichtet werden, dass bereits das Index-Update erhalten hat. Die erforderlichen Informationen hierzu finden sich weiter oben.







Google und PageRank sind geschützte Marken der Google Inc., Mountain View CA, USA.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter dance.efactory.de gesetzt wird.

©2002 eFactory Internet-Agentur KG - verfasst von Markus Sobek


Siehe auch: Was ist GOOGLE DANCE?

*editiert am 07.03.2003 by xxxx: Habe oben die Links an die neue adresse angepasst*


  Weitere Einflussfaktoren im Rahmen des PageRank-Verfahrens
Geschrieben von: SunSonic - 30.09.2002, 03:46 - Forum: Grundlagen - Keine Antworten

Weitere Einflussfaktoren im Rahmen des PageRank-Verfahrens

Es wurde bereits vielerorts diskutiert, ob für die PageRank-Berechnung seit der Veröffentlichung der wissenschaftlichen Arbeiten durch Lawrence Page und Sergey Brin weitere Kriterien als nur die einfache Link-Struktur des Webs für die Berechnung des PageRanks hinzugezogen wurden. Lawrence Page selbst skizziert in der Patentschrift zum PageRank-Verfahren die folgenden potentiellen Einflussfaktoren:

Die Stärke der Hervorhebung eines Links
Die Position eines Links innerhalb des Dokuments
Die Distanz zwischen Webseiten
Die Bedeutung einer verweisenden Seite
Die Aktualität einer verweisenden Seite
Die Implementierung dieser weiteren Einflussfaktoren würde zunächst auf bessere Annäherung des Random Surfer Modells an tatsächliches Nutzerverhalten abzielen. Mit der Einbeziehung von Hervorhebung und Position eines Links geht man davon aus, das ein Benutzer nicht völlig wahllos klickt, sondern unabhängig vom Ankertext eher die deutlich erkennbaren und unmittelbar sichtbaren Links verfolgt. Mit der Berücksichtigung der anderen Faktoren könnte Google darüber hinaus eine weit größere Flexibilität in der Bestimmung der Bedeutung eines eingehenden Links für eine Webseite erreichen, als durch die bereits erwähnten Methoden.

Ob einzelne dieser Faktoren tatsächlich in das PageRank-Verfahren implementiert sind, ist empirisch kaum zu belegen, und soll deshalb an dieser Stelle auch nicht ausführlich diskutiert werden. Es soll vielmehr erörtert werden, auf welche Art und Weise weitere Einflussfaktoren in den PageRank-Algorithmus implementiert werden könnten und welche Möglichkeiten zur Einflussnahme auf den PageRank seitens Google sich hierdurch ergeben.



Modifizierung des PageRank-Algorithmus
Um weitere Faktoren in das PageRank-Verfahren einfliessen zu lassen, ist der ursprüngliche PageRank-Algorithmus wiederum zu modifizieren. Da wir davon ausgehen müssen, dass für die PageRank-Berechnung weiterhin zahlreiche Iterationen durchgeführt werden, ist hierbei allerdings zu berücksichtigen, dass im Sinne einer möglichst schnellen PageRank-Berechnung für die Einbeziehung weiterer Faktoren zusätzliche Datenbank-Zugriffe im Laufe der Iterationen weitestgehend vermieden werden sollten. Aus diesem Grunde bietet sich der folgende, modifizierte PageRank-Algorithmus an:

PR(A) = (1-d) + d (PR(T1)×L(T1,A) + ... + PR(Tn)×L(Tn,A))

Hier bei stellt L(Ti,A) eine Bewertung des Links, der von der Seite Ti auf die Seite A zeigt, dar. L(Ti,A) tritt damit an die Stelle der Gewichtung des PageRanks von Seite Ti nach der Anzahl deren ausgehender Links durch den Faktor 1/C(Ti). Der Wert L(Ti,A) würde sich aus mehreren einzelnen Faktoren zusammensetzen, die jedoch nur einmal ermittelt werden müssten und dann vor der eigentlichen PageRank-Berechnung in einen einzigen Wert einfließen. Hierdurch vergrößert sich die Anzahl der Datenbankzugriffe nicht, wobei allerdings angemerkt werden muss, dass durch die hier vorgeschlagene Modifikation des PageRank-Algorithmus im Laufe jeder Iteration bei der Bestimmung jedes einzelnen PageRanks ein Zugriff auf eine wesentlich größere Datenbank zu erfolgen hat, als im Falle des ursprünglichen PageRank-Algorithmus, da nun nicht mehr nur die Bewertung von Seiten (anhand der Anzahl ihrer ausgehenden Links) sondern die Bewertung jedes einzelnen Links in die Berechnung einfließt.



Unterschiedliche Bewertung von Links innerhalb einzelner Seiten
Zwei wesentliche von Lawrence Page in der Patentschrift zum PageRank-Verfahren genannte Bewertungskriterien für Links sind deren Grad der Hervorhebung und Position innerhalb eines Dokuments. Es handelt es sich hierbei also um Kriterien, die im Rahmen des Random Surfer Modells einzig die Wahrscheinlichkeit widerspiegeln, mit der der Zufalls-Surfer einen bestimmten Link auf einer Website in Relation zu einem anderen Link auf dieser Website verfolgt. Im ursprünglichen PageRank-Algorithmus entspricht diese Wahrscheinlichkeit dem Term (1/C(Ti)), wobei die Wahrscheinlichkeiten für das Verfolgen von Links von einer Seite dabei jeweils gleich waren.

Eine Zuweisung unterschiedlicher Wahrscheinlichkeiten für das Verfolgen von Links könnte beispielhaft etwa folgendermaßen erfolgen:

[Bild: bsp_weitere.gif]
Wir betrachten ein Web aus den drei Seiten A, B und C. Jede der Seiten verlinkt jeweils auf jede andere. Links werden nach zwei Bewertungskriterien X und Y gewichtet. X stellt die Hervorhebung eines Links dar. X ist gleich 1, sofern der Links nicht hervorgehoben und gleich 2, sofern der Link etwa fett oder kursiv hervorgehoben ist. Y stellt die Position eines Links im Dokument dar. Y ist gleich 1, sofern der Link in der unteren Hälfte des Dokuments und gleich 3, sofern der Link in der oberen Hälfte des Dokuments erscheint. Nehmen wir einen multiplikativen Zusammenhang zwischen X und Y an, werden die Links aus unserem Beispielweb wie folgt bewertet:

X(A,B) × Y(A,B) = 1 × 3 = 3
X(A,C) × Y(A,C) = 1 × 1 = 1
X(B,A) × Y(B,A) = 2 × 3 = 6
X(B,C) × Y(B,C) = 2 × 1 = 2
X(C,A) × Y(C,A) = 2 × 3 = 6
X(C,B) × Y(C,B) = 2 × 1 = 2

Zur Ermittlung der einzelnen Faktoren L sind schließlich die Bewertungen der Links nicht mehr allein nach der Anzahl der ausgehenden Links zu gewichten. Vielmehr erfolgt eine Gewichtung nach der wiederum bewerteten Anzahl der ausgehenden Links. Hierdurch ergeben sich die folgenden Gewichtungsquotienten Z(Ti) für die einzelnen Seiten Ti:

Z(A) = X(A,B) × Y(A,B) + X(A,C) × Y(A,C) = 4
Z(B) = X(B,A) × Y(B,A) + X(B,C) × Y(B,C) = 8
Z© = X(C,A) × Y(C,A) + X(C,B) × Y(C,B) = 8

Die einzelnen Bewertungsfaktoren L(T1,T2) für einen Link von Seite T1 nach Seite T2 ergeben sich damit als

L(T1,T2) = X(T1,T2) × Y(T1,T2) / Z(T1)

und haben in unserem Beispiel die folgenden Werte:

L(A,B) = 0.75
L(A,C) = 0.25
L(B,A) = 0.75
L(B,C) = 0.25
L(C,A) = 0.75
L(C,B) = 0.25

Bei einem Dämpfungsfaktor d in Höhe von 0.5 ergeben sich damit die folgenden Gleichungen für die PageRank-Berechnung:

PR(A) = 0.5 + 0.5 (0.75 PR(B) + O.75 PR©)
PR(B) = 0.5 + 0.5 (0.75 PR(A) + 0.25 PR©)
PR© = 0.5 + 0.5 (0.25 PR(A) + 0.25 PR(B))

Aus der Lösung dieses Gleichungssystems folgen als PageRank-Werte für die einzelnen Seiten:

PR(A) = 819/693
PR(B) = 721/693
PR© = 539/693

Zuallererst sehen wir, dass Seite A den höchsten PageRank erhält. Dies ist darin begründet, dass Seite A sowohl von Seite B als auch von Seite C den jeweils stärker bewerteten Link erhält.

Es zeigt sich ferner, dass auch hier bei der Bewertung der einzelnen Links die Summe der PageRank-Werte aller Seiten mit 2079/693 gleich 3 und damit gleich der Anzahl der Seiten ist. Somit können die mittels des derart modifizierten PageRank-Algorithmus ermittelten Werte ohne weitere Normalisierung in die allgemeine Bewertung von Webseiten durch Google einfließen.



Unterschiedliche Bewertung von Links nach Eigenschaften der verweisenden Seite

Neben der unterschiedlichen Bewertung von Links innerhalb einer Seite führt Lawrence Page in der Patentschrift zum PageRank-Verfahren an, dass Links auch nach Kriterien gewichtet werden können, denen eine Bewertung der verweisenden Seite zu Grunde liegt. Dies scheint auf den ersten Blick überflüssig, da es bereits der Grundgedanke des PageRank-Konzepts ist, dass Links einen um so größeren Einfluss haben, je bedeutender die verlinkende Seite ist. Page und Brin erkannten allerdings sehr früh, dass ihr Algorithmus anfällig gegen das "künstliche Aufblähen" des PageRank einzelner Seiten ist.

Eine Beinflussung des PageRank kann in erster Linie dadurch erfolgen, dass Webmaster eine Vielzahl von Webseiten generieren, deren Links den PageRank so distribuieren, dass einzelne Seiten im System eine besondere Bedeutung erlangen. Diese Seiten können dann einen hohen PageRank inne haben, ohne dass von anderen Websites mit hoher Relevanz auf sie verlinkt wird. Hierdurch wird nicht nur das Konzept des PageRank unterwandert, sondern insbesondere auch der Suchmaschinenindex mit einer Vielzahl von Webseiten überflutet, die lediglich zum Zwecke der Beeinflussung des PageRank geschaffen wurden.

Als ein Mittel der Verhinderung dieser Form der Beinflussung zeigt Lawrence Page in seiner Patentschrift die Bewertung von Links anhand der Distanz zwischen verlinkender und verlinkter Seite auf. Hintergrund ist, dass je größer die Distanz zwischen zwei Seiten ist, um so geringer ist die Wahrscheinlichkeit, dass ein und die selbe Person beide Seiten kontrolliert. Kriterium der Distanz zwischen Seiten kann etwa sein, ob Sie auf der selben Domain liegen oder nicht. Damit würden interne Links weniger gewichtet als externe. Aber auch jedes andere Kriterium der Distanz käme laut Page in Frage, also etwa ob Seiten sich auf dem selben Webserver befinden. Letztlich sei auch gerade die Verlinkung durch Websites aus unterschiedlichen geographischen Regionen ein deutliches Indiz für die Relevanz einer Seite.

Als weiteres Indiz für die Bedeutung einer Seite nennt Page die Aktualität der verlinkenden Seite. Die Informationen einer Seite sind mit viel geringerer Wahrscheinlichkeit veraltet, je mehr kürzlich modifizierte Seiten auf sie verlinken. Dagegen bevorzugt das eigentliche PageRank-Verfahren wie auch jedes Verfahren der Messung der Link-Popularität eher ältere Dokumente, die erst im Laufe ihrer Existenz eine Vielzahl eingehender Links erhalten haben und mit einer geringeren Wahrscheinlichkeit als neue Dokumente kürzlich verändert wurden. Grundsätzlich könnten aktuelle Dokumente mittels der bereits erwähnten Gewichtung des Faktors (1-d) besser bewertet werden. Hierdurch erhielten sowohl die aktuellen Dokumente selbst als auch diejenigen Dokumente auf die sie verlinken einen höheren PageRank. Die Aktualität einer Seite ist allerdings nicht zwingend ein Indiz für die Qualität der auf Ihr präsentierten Informationen. Daher ist es unbedingt ratsam, wie von Page vorgeschlagen, nicht die Aktualität einer Seite selbst zu bewerten, sondern vielmehr die Aktualität ihrer eingehenden Links.

Schließlich nennt Page als Kriterium für die Bedeutung eines Links noch die grundsätzliche Bedeutung der verlinkenden Seite. Als Beispiel wird in der Patentschrift zum PageRank Verfahren der Link von der Root-Seite einer Domain genannt. Hier könnte allerdings letztlich seitens Google ganz willkürlich auf das PageRank-Verfahren Einfluss genommen werden.

Um die Bewertung verlinkender Seiten in den PageRank-Algorithnmus aufzunehmen, muss der Bewertungsfaktor aus unserem modifizierten PageRank-Algorithmus nunmehr aus mehreren Einzelfaktoren bestehen. Für einen Link von Seite Ti nach Seite A könnte er wie folgt notiert werden:

L(Ti,A) = K(Ti,A) × K1(Ti) × ... × Km(Ti)

Hierbei stellt K(Ti,A) die weiter oben vorgestellte Bewertung der einzelnen Links innerhalb einer Seite dar. Dazu erfolgt eine Bewertung der Seite Ti nach m Kriterien, die durch die Faktoren Kj(Ti) repräsentiert werden. Für eine Implementierung dieser Modifikationen muss im Falle der Bewertung von Seiten nun nicht mehr nur der PageRank-Algorithmus abgeändert werden, sondern auch das PageRank-Berechnungsverfahren. Dies soll wieder anhand eines Beispiels demonstriert werden.

Wir betrachten das 3-Seiten-Web aus den Seiten A, B und C, wobei Seite A sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt auf Seite C und Seite C wiederum verlinkt auf Seite A. Alle ausgehenden Links einer Seite werden jeweils als gleichwertig betrachtet. Es erfolgt eine Bewertung der Links nach genau einem seitenspezifischen Kriterium. Ein Link von Seite C sei viermal bedeutender als ein Link von anderen Seiten. Nach entsprechender Gewichtung nach der Anzahl der Seiten ergibt sich das folgende Bild für unsere Bewertungsfaktoren:

K(A) = 0.5
K(B) = 0.5
K© = 2

Bei einem Dämpfungsfaktor d in Höhe von 0.5 ergeben sich die folgenden Gleichungen für die Berechnung der PageRank-Werte der einzelnen Seiten:

PR(A) = 0.5 + 0.5 × 2 PR©
PR(B) = 0.5 + 0.5 × 0.5 × 0.5 PR(A)
PR© = 0.5 + 0.5 (0.5 PR(B) + 0.5 × 0.5 PR(A))

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte für die einzelnen Seiten:

PR(A) = 4/3
PR(B) = 2/3
PR© = 5/6

Es zeigt sich also, dass die Summe der PageRank-Werte nicht mehr gleich der Anzahl der Seiten ist. Dies liegt darin begründet, dass die erfolgte Gewichtung der Seitenbewertung nach der Anzahl der Seiten nicht korrekt war. Zur Ermittlung der korrekten Gewichtung müsste allerdings vorab die Linkstruktur des Webs antizipiert werden, was im Falle des WWW jedoch nicht möglich ist. Aus diesem Grunde ist bei der Bewertung von Links nach seitenspezifischen Faktoren der ermittelte PageRank zu normalisieren, damit kein unbegründet hoher oder geringer Einfluss des PageRank innerhalb der Gesamtbewertung von Seiten entsteht. Bei der iterativen PageRank-Berechnung hätte die Normalisierung nach jeder Iteration zu erfolgen, um unerwünschte Effekte zu minimieren.

Im Falle eines sehr kleinen Webs zeigen sich Verzerrungen des PageRank durch die Bewertungen von Links nach seitenspezifischen Kriterien sehr deutlich. Im Falle des tatsächlichen WWW dürften sich diese Verzerrungen weitestgehend ausgleichen. Es wäre allerdings zu befürchten, dass etwa die Bewertung der Distanz zwischen verlinkenden Webseiten durchaus zu Verzerrungen führen kann, da stark verlinkte Seiten sicherlich überdurchschnittlich dazu tendieren, aus unterschiedlichen geographischen Regionen verlinkt zu werden. Hier besteht allerdings die Möglichkeit zur Antizipation durch Erfahrungswerte aus vorangegangenen Berechnungszyklen, so dass die Normalisierung immer nur minimal sein müsste. Eine Einbeziehung zusätzlicher Bewertungskriterien in das PageRank-Verfahren ist in jedem Falle möglich, dabei allerdings mit einem erhöhten Rechenaufwand verbunden.








PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Der Yahoo-Bonus und seine Auswirkungen auf die Suchmaschinen-Optimierung
Geschrieben von: SunSonic - 30.09.2002, 03:41 - Forum: Grundlagen - Keine Antworten

Der Yahoo-Bonus und seine Auswirkungen auf die Suchmaschinen-Optimierung

Vielfach wird angenommen, das einige Websites von Google eine spezielle PageRank-Bewertung erhalten, die einen manuellen Eingriff erfordert und sich nicht direkt aus dem ursprünglichen PageRank-Algorithmus ergibt. Zu diesen Websites zählen z.B. die Verzeichnisse Yahoo und Open Directory Project (dmoz.org). Im Rahmen der Suchmaschinen-Optimierung hätte diese Annahme zur Folge, dass ein Eintrag in die genannten Verzeichnisse für den PageRank von besonderer Bedeutung ist.

[Bild: bsp_yahoo_bonus_1.gif]
Ein häufig genannter Ansatz für die besondere Bewertung spezieller Websites ist, dass diesen für die iterative Berechnung des PageRank ein höherer Startwert zugewiesen wird. Diese mögliche Vorgehensweise soll anhand eines sehr einfachen Beispiels überprüft werden. Wir betrachten ein 2-Seiten-Web, bei dem jede der beiden Seiten jeweils ausschließlich auf die andere verlinkt. Der einen Seite wird ein Startwert von 10 zugewiesen, der anderen ein Startwert von 1. Der Dämpfungsfaktor d wird in diesem Beispiel auf 0.1 gesetzt, da bei einem geringen Dämpfungsfaktor der PageRank im Zuge der Iterationen schneller konvergiert. Damit ergeben sich folgende Formeln für die PageRank-Berechnung:

PR(A) = 0.9 + 0.1 PR(B)
PR(B) = 0.9 + 0.1 PR(A)

Die PageRank-Werte ergeben sich im Laufe der Iterationen wie folgt:


Iteration -------- PR (A) -------- PR (B)
0 ---------------- 1 -------------- 10
1 ---------------- 1.9 ------------ 1.09
2 ---------------- 1.009 --------- 1.0009
3 ---------------- 1.00009 ------ 1.000009


Es wird unmittelbar ersichtlich, dass die PageRank-Werte trotz der Vergabe besonderer Startwerte für die Berechnung jeweils gegen 1 konvergieren, so wie es auch ohne die Vergabe spezieller Startwerte zu erwarten gewesen wäre. Bei ausreichend vielen Iterationen hat somit der Startwert keinerlei Auswirkung auf den PageRank. Auswirkungen würden sich lediglich ergeben, wenn nur wenige Iterationen durchgeführt werden. Hier ist allerdings zu bedenken, dass sich etwa in unserem Beispiel die PageRank-Relation zwischen den beiden Seiten direkt nach der ersten Iteration umkehrt. Hierzu sei angemerkt, dass für die rekursive Berechnung jeweils die PageRank-Werte der aktuellen Iteration und nicht etwa der vorherigen genutzt wurden. Wären die Werte der vorherigen Iteration genutzt worden, würde die PageRank-Relation alterieren.



Modifikation des PageRank-Algorithmus
Dass eine Zuweisung spezieller Startwerte ohne Auswirkungen bleibt, bedeutet jedoch nicht, dass Websites nicht durch einen Eingriff in den PageRank-Algorithmus bevorzugt werden können. So beschreibt Lawrence Page bereits in seiner Patentschrift zum PageRank-Verfahren (United States Patent 6,285,999) die Möglichkeit für die besondere Bewertung spezieller Webseiten. Der Ausgangspunkt für seine Überlegungen ist, dass der Zufalls-Surfer aus dem Random Surfer Modell zwar mit einer starr festgelegten Wahrscheinlichkeit aufhört, Links zu verfolgen, dann aber im Gegensatz zum ursprünglichen PageRank-Algorithmus nicht mehr mit der gleichen Wahrscheinlichkeit eine Webseite für einen erneuten Start seines Surf-Vorgangs auswählt. Es entspricht schließlich dem normalen Verhalten eines Internet-Nutzers, dass er als Ausgangspunkt mit einer höheren Wahrscheinlichkeit etwa eines der genannten Verzeichnisse Yahoo oder ODP wählt.

Damit die besondere Bewertung einzelner Webseiten in dieser Form in den ursprünglichen PageRank Algorithmus einfließen kann, muss er um einen weiteren Erwartungswert erweitert werden. Die entsprechende Formel hat dann folgendes Aussehen:

PR(A) = E(A) (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Hierbei ist (1-d) jetzt die Wahrscheinlichkeit, mit der der Zufalls-Surfer das Weiterverfolgen von Links abbricht und
E(A) die nach der Anzahl der Webseiten gewichtete Wahrscheinlichkeit, mit der der Zufalls-Surfer die Seite A danach aufruft. Bei E handelt es sich dabei wiederum um einen Erwartungswert, dessen Durchschnitt über alle Seiten gleich 1 ist, damit der Durchschnitt der PageRank-Werte weiterhin gegen 1 konvergiert und nicht etwa durch die besondere Bewertung spezieller Seiten schwankt und somit der PageRank einen unregelmäßigen Einfluss auf die Gesamtbewertung von Seiten einnimmt.

[Bild: bsp_yahoo_bonus_2.gif]
In unserem Beispiel liege nach dem Abbruch des Surfvorgangs durch den Zufalls-Surfer die Wahrscheinlichkeit für den Aufruf von Seite A bei 10% und die Wahrscheinlichkeit für den Aufruf von Seite B bei 90%. Damit ist bei einem 2-Seiten-Web E(A)=0.2 und E(B)=1.8. Für die Ermittlung der PageRank Werte der beiden Seiten ergeben sich bei einem Dämpfungsfaktor d=0.5 hierdurch die folgenden Gleichungen:

PR(A) = 0.2 × 0.5 + 0.5 × PR(B)
PR(B) = 1.8 × 0.5 + 0.5 × PR(A)

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 11/15
PR(B) = 19/15

Die Summe der beiden PageRank-Werte liegt weiterhin bei 2. Die höhere Wahrscheinlichkeit für das Aufrufen von Seite B nach dem Abbruch spiegelt sich in ihrem höheren PageRank-Wert wider. Die gleichmäßige Verlinkung der beiden Seiten untereinander vermindert jedoch ganz deutlich die Auswirkung der höheren Aufrufwahrscheinlichkeit auf den PageRank.

Es ist also möglich, eine besondere Gewichtung einzelner Seiten in den PageRank-Algorithmus einfließen zu lassen, ohne dass dessen Charakter grundsätzlich verändert werden müsste. Fraglich bleibt jedoch, nach welchen Kriterien die Gewichtung erfolgen kann. In der Patentschrift zum PageRank-Verfahren nennt Lawrence Page hierzu explizit die Nutzung tatsächlichen Benutzerverhaltens. Daten zum tatsächlichen Nutzerverhalten werden von Google über die Google Toolbar gesammelt. Das besondere hierbei ist, dass nicht einmal allzu große Datenmengen verarbeitet werden müssten, wie dies der Fall wäre, wenn eine Bewertung ausschließlich auf Nutzerverhalten basieren würde. Eine begrenzte Stichprobe wäre durchaus ausreichend, um zumindest die 1.000 oder 10.000 wichtigsten Anlaufstellen im Web zu ermitteln. Der PageRank-Algorithmus wäre dann in der Lage, über die Link-Struktur des Webs die Lücken zu füllen.

Die Ausführungen zum Einfließen tatsächlichen Benutzerverhaltens in das PageRank-Verfahren sind natürlich pure Spekulation. Ob überhaupt eine besondere Gewichtung spezieller Seiten stattfindet, wird letztlich ein Geheimnis der Google-Verantwortlichen bleiben.



Dennoch Zuweisung bestimmter Startwerte?
Obwohl die Zuweisung bestimmter Startwerte für die PageRank-Berechnung bei hinreichend vielen Iterationen wirkungslos für das Ergebnis der Berechnung bleibt, kann eine entsprechende Vorgehensweise durchaus sinnvoll sein.

[Bild: bsp1.gif]
Wir betrachten hierzu unser 3-Seiten-Beispiel aus den Seiten A, B und C, wobei Seite A sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt lediglich auf Seite C und Seite C wiederum verlinkt auf Seite A. Den Dämfungsfaktor d setzen wir in diesem Falle für die Berechnungen auf 0.75. Hierdurch ergeben sich die folgenden Gleichungen für die iterative Berechnung des PageRanks der einzelnen Seiten:

PR(A) = 0.25 + 0.75 PR©
PR(B) = 0.25 + 0.75 (PR(A) / 2)
PR© = 0.25 + 0.75 (PR(A) / 2 + PR(B))

Grundsätzlich muss den einzelnen Seiten kein Startwert vor Beginn der Iterationen zugewiesen werden. Sie haben in diesem Falle einen Wert von 0 und es ergibt sich das folgende Bild:


Iteration ----- PR(A) -------- PR(B) -------- PR©
0 ------------- 0 ------------- 0 ------------- 0
1 --------------0.25 --------- 0.34375 ---- 0.60156
2 --------------0.70117 ---- 0.51294 ---- 0.89764
3 ------------- 0.92323 ---- 0.59621 ---- 1.04337
4 ------------- 1.03253 ---- 0.63720 ---- 1.11510
5 ------------- 1.08632 ---- 0.65737 ---- 1.15040
6 ------------- 1.11280 ---- 0.66730 ---- 1.16777
7 ------------- 1.12583 ---- 0.67219 ---- 1.17633
8 ------------- 1.13224 ---- 0.67459 ---- 1.18054
9 ------------- 1.13540 ---- 0.67578 ---- 1.18261
10 ----------- 1.13696 ---- 0.67636 ----- 1.18363
11 ----------- 1.13772 ---- 0.67665 ----- 1.18413
12 ----------- 1.13810 ---- 0.67679 ----- 1.18438
13 ----------- 1.13828 ---- 0.67686 ----- 1.18450
14 ----------- 1.13837 ---- 0.67689 ----- 1.18456
15 ----------- 1.13842 ---- 0.67691 ----- 1.18459
16 ----------- 1.13844 ---- 0.67692 ----- 1.18460
17 ----------- 1.13845 ---- 0.67692 ----- 1.18461
18 ----------- 1.13846 ---- 0.67692 ----- 1.18461
19 ----------- 1.13846 ---- 0.67692 ----- 1.18461
20 ----------- 1.13846 ---- 0.67692 ----- 1.18461
21 ----------- 1.13846 ---- 0.67692 ----- 1.18461
22 ----------- 1.13846 ---- 0.67692 ----- 1.18462



Bei einer Zuweisung eines Startwertes von 1 ergibt sich das folgende Bild für die Durchführung der Iterationen:


Iteration -------- PR(A) -------- PR(B) -------- PR©
0 ---------------- 1 ------------- 1 -------------- 1
1 ---------------- 1 ------------- 0.625 --------- 1.09375
2 ---------------- 1.07031 ---- 0.65137 ------ 1.13989
3 ---------------- 1.10492 ---- 0.66434 ------ 1.16260
4 ---------------- 1.12195 ---- 0.67073 ------ 1.17378
5 ---------------- 1.13034 ---- 0.67388 ------ 1.17928
6 ---------------- 1.13446 ---- 0.67542 ------ 1.18199
7 ---------------- 1.13649 ---- 0.67618 ------ 1.18332
8 ---------------- 1.13749 ---- 0.67656 ------ 1.18398
9 ---------------- 1.13798 ---- 0.67674 ------ 1.18430
10 -------------- 1.13823 ---- 0.67684 ------ 1.18446
11 -------------- 1.13835 ---- 0.67688 ------ 1.18454
12 -------------- 1.13840 ---- 0.67690 ------ 1.18458
13 -------------- 1.13843 ---- 0.67691 ------ 1.18460
14 -------------- 1.13845 ---- 0.67692 ------ 1.18461
15 -------------- 1.13845 ---- 0.67692 ------ 1.18461
16 -------------- 1.13846 ---- 0.67692 ------ 1.18461
17 -------------- 1.13846 ---- 0.67692 ------ 1.18461
18 -------------- 1.13846 ---- 0.67692 ------ 1.18461
19 -------------- 1.13846 -----0.67692 -------1.18462


Wird nunmehr den Seiten ein initialer PageRank zugewiesen, der der tatsächlichen PageRank-Verteilung etwas mehr entspricht (1.1 für Seite A, 0.7 für Seite B und 1.2 für Seite C), ergibt sich das folgende Bild:


Iteration -------- PR(A) -------- PR(B) -------- PR©
0 ---------------- 1.1 ----------- 0.7 ----------- 1.2
1 ---------------- 1.15 --------- 0.68125 ----- 1.19219
2 ---------------- 1.14414 ---- 0.67905 ----- 1.18834
3 ---------------- 1.14126 ---- 0.67797 ----- 1.18645
4 ---------------- 1.13984 ---- 0.67744 ----- 1.18552
5 ---------------- 1.13914 ---- 0.67718 ----- 1.18506
6 ---------------- 1.13879 ---- 0.67705 ----- 1.18483
7 ---------------- 1.13863 ---- 0.67698 ----- 1.18472
8 ---------------- 1.13854 ---- 0.67695 ----- 1.18467
9 ---------------- 1.13850 ---- 0.67694 ----- 1.18464
10 -------------- 1.13848 ----- 0.67693 ----- 1.18463
11 -------------- 1.13847 ----- 0.67693 ----- 1.18462
12 -------------- 1.13847 ----- 0.67692 ----- 1.18462
13 -------------- 1.13846 ----- 0.67692 ----- 1.18462


Es zeigt sich, dass je näher die zugewiesenen Startwerte der tatsächlichen Verteilung kommen, die PageRank-Werte offenbar um so schneller konvergieren. Damit wären weniger Iterationen für die PageRank-Berechnung erforderlich, was insbesondere angesichts eines stets wachsenden Webs die Lieferung von auf einer aktuelleren Datanbasis gestützten Suchmaschinenergebnissen ermöglichen kann. Ausgangspunkt für eine hinreichend exakte Annahme könnten dabei für Seiten, die bereits den jeweils vorhergegangenen Berechnungszyklus durchlaufen haben, die PageRank-Werte aus diesem vorhergegangenen Berechnungszyklus sein. Neu in den Index aufgenommenen Seiten könnte dann ein initialer PageRank von 1 zugewiesen werden, der sich dann bereits nach der ersten Iteration sehr schnell dem tatsächlichen Zustand angleicht.



Weitere Einflussfaktoren für den PageRank




PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek


  Die Distribution von PageRank im Rahmen der Suchmaschinenoptmierung
Geschrieben von: SunSonic - 30.09.2002, 02:45 - Forum: Grundlagen - Keine Antworten

Die Distribution von PageRank im Rahmen der Suchmaschinenoptmierung

Bislang wurde erörtert, wie durch die Anzahl von ein- und ausgehenden Links sowie durch die Anzahl der Webseiten einer Site der PageRank beinflusst werden kann. An dieser Stelle hingegen soll hauptsächlich besprochen werden, wie mittels der internen Link-Struktur einer Site zum Zwecke der Suchmaschinenoptimierung Einfluss auf den PageRank genommen werden kann.

[Bild: bsp_distribution_1.gif]
In den meisten Fällen sind Websites zumindest bedingt hierarchisch struktieriert. Dabei ist in der Regel die Startseite für den wichtigsten Suchbegriff bzw. die wichtigste Suchphrase optimiert. In unserem Beispiel erhält die optimierte Startseite A einen eingehenden Link von einer Seite X mit einem PageRank von 10 und einem einzigen ausgehenden Link. Die Seiten B und C erhalten einen Link von Seite A und verlinken auch wieder auf diese zurück. Hieraus ergeben sich bei einem angenommenen Dämpfungsfaktor d in Höhe von 0.5 die folgenden Gleichungen für die PageRank-Berechnung:

PR(A) = 0.5 + 0.5 (10 + PR(B) + PR ©)
PR(B) = 0.5 + 0.5 (PR(A) / 2)
PR© = 0.5 + 0.5 (PR(A) / 2)

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 8
PR(B) = 2.5
PR© = 2.5

Nun ist es in der Regel nicht ausreichend, im Rahmen der Suchmaschinenoptimierung lediglich die Startseite für einen Suchbegriff zu optimieren. Es ist vielmehr ratsam, alle Seiten auf die Optimierung für jeweils unterschiedliche Suchbegriffe auszurichten.

[Bild: bsp_distribution_2.gif]
Sobald die Startseite für den optimierten Suchbegriff hinreichend gute Suchmaschinenergebnisse erzielt, die anderen Seiten hingegen noch nicht, empfiehlt gegenenfalls die Linkstruktur entsprechend der folgenden Vorgehensweise bei unserer Beispielsite zu modifizieren. Die hierachisch nachgeordneten Seiten B und C verlinken sich nunmehr gegenseitig, und bei ansonsten gleichen Bedingungen ergibt sich das folgende Gleichungssystem für die PageRank-Berechnung:

PR(A) = 0.5 + 0.5 (10 + PR(B) / 2 + PR© / 2)
PR(B) = 0.5 + 0.5 (PR(A) / 2 + PR© / 2)
PR© = 0.5 + 0.5 (PR(A) / 2 + PR(B) / 2)

Hieraus ergeben sich nun die folgenden PageRank-Werte für die einzelnen Seiten:

PR(A) = 7
PR(B) = 3
PR© = 3

Es zeigt sich, dass die PageRank-Werte für die Seiten B und C steigen, so dass diese wahrscheinlich für die optimierten Suchbegriffe höher in den Suchmaschinenergebnissen erscheinen werden. Andererseits besteht die Möglichkeit, dass die Startseite in den Suchmaschinenergebnissen absinkt.

Grundsätzlich zeigt sich, dass sich im Rahmen der Suchmaschinenoptimierung der PageRank innerhalb einer Seite um so gleichmäßiger verteilt, je stärker die hierarchisch nachrangigen Seiten untereinander verlinkt sind.



Gezielte Distribution von PageRank durch Konzentration der ausgehenden Links
Dass ausgehende Links sich grundsätzlich eher negativ auf den PageRank der Seiten einer Website auswirken, wurde bereits gezeigt. An dieser Stelle soll erörtert werden, wie dieser Effekt durch die gezielte Platzierung der ausgehenden Links minimiert werden kann.

[Bild: bsp_distribution_3.gif]
Betrachtet wird nun eine Beispielsite aus den Seiten A, B, C und D, wobei Seite A auf die anderen Seiten verlinkt, und diese neben einem Link auf Seite A jeweils auch noch einen ausgehenden Link haben. Bei einem angenommen Dämpfungsfaktor d in Höhe von 0.5 ergeben sich die folgenden Gleichungen für die PageRank-Berechnung:

PR(A) = 0.5 + 0.5 (PR(B) / 2 + PR© / 2 + PR(D) / 2)
PR(B) = PR© = PR(D) = 0.5 + 0.5 (PR(A) / 3)

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 1
PR(B) = 2/3
PR© = 2/3
PR(D) = 2/3

[Bild: bsp_distribution_4.gif]
Nunmehr wird die Beispiel-Website so modifiziert, dass bei ansonsten gleichen Voraussetzungen nurmehr Seite D alle ausgehenden Links auf sich vereint und die Seiten B und C keinerlei ausgehenden mehr besitzen. Bei einem Dämpfungsfaktor d in Höhe von 0.5 ergeben sich die folgenden Gleichungen für die PageRank-Berechnung:

PR(A) = 0.5 + 0.5 (PR(B) + PR© + PR(D) / 4)
PR(B) = PR© = PR(D) = 0.5 + 0.5 (PR(A) / 3)

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 17/13
PR(B) = 28/39
PR© = 28/39
PR(D) = 28/39

Es zeigt sich unmittelbar, dass für unsere Beispiel-Website die PageRank-Werte aller vier Seiten erhöhen. Vor dem Hintergrund der Suchmaschinenoptimierung kann es also durchaus ratsam sein, die ausgehenden Links einer Website auf einer einzelnen Seite zu konzentrieren, wobei allerdings durchaus nicht vergessen werden darf, dass dies der Benutzerfreundlichkeit abträglich sein kann.



Linktausch zum Zwecke der Suchmaschinenoptimierung
Viele Webmaster streben zum Zwecke der Suchmaschinenoptimierung den Linkaustausch mit möglichst vielen anderen Websites an, um auf diese Weise ihre Link-Popularität zu erhöhen. Da das Hinzufügen von Links allerdings keinerlei Effekte auf den aufaddierten PageRank innerhalb geschlossener Systeme von Webseiten hat, stellt sich die Frage, in wie fern ein Linkaustausch zwischen Websites überhaupt Auswirkungen auf den PageRank hat.

[Bild: bsp_distribution_5.gif]
Wir betrachten zwei hierarchisch strukturierte Websites aus den Seiten A, B und C bzw. D, E und F. Seite A verlinkt auf die Seiten B und C und diese wiederum verlinken zurück auf Seite A. Da die zweite Site exakt gleich strukturiert ist, ergeben sich für sie die gleichen PageRank-Werte, die deshalb an dieser Stelle nicht berücksichtigt werden müssen. Bei einem Dämpfungsfaktor d in Höhe von 0.5 ergeben sich die folgenden Gleichungen für die PageRank-Berechnung:

PR(A) = 0.5 + 0.5 (PR(B) + PR©)
PR(B) = PR© = 0.5 + 0.5 (PR(A) / 2)

Die Lösung des Gleichungssystems ergibt die folgenden PageRank-Werte für die einzelnen Seiten:

PR(A) = 4/3
PR(B) = 5/6
PR© = 5/6

und analog

PR(D) = 4/3
PR(E) = 5/6
PR(F) = 5/6

[Bild: bsp_distribution_6.gif]
Nunmehr findet für unsere Beispiel-Websites ein Linktausch statt. Seite A verlinkt auf Seite D und umgekehrt. Bei ansonsten gleichen Voraussetzungen mit einem Dämpfungsfaktor d in Höhe von 0.5 ergibt sich jetzt das folgende Gleichungssystem für die Berechnung der PageRank-Werte:

PR(A) = 0.5 + 0.5 (PR(B) + PR© + PR(D) / 3)
PR(B) = PR© = 0.5 + 0.5 (PR(A) / 3)
PR(D) = 0.5 + 0.5 (PR(E) + PR(F) + PR(A) / 3)
PR(E) = PR(F) = 0.5 + 0.5 (PR(D) / 3)

Die Lösung des Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 3/2
PR(B) = 3/4
PR© = 3/4
PR(D) = 3/2
PR(E) = 3/4
PR(F) = 3/4

Es zeigt sich also, dass durch den Linktausch die beiden Seiten A und D profitieren und die hierarchisch nachgeordneten Seiten PageRank einbüßen. Für die Suchmaschinenoptimierung bedeutet dies in erster Linie, dass hier ein genau entgegengesetzter Effekt wie bei der stärkeren internen Verlinkung von hierarchisch nachgeordneten Seiten stattfindet. Der Linktausch bietet sich also insbesondere an, wenn nur mit einer Seite auf einen bestimmten Suchbegriff abgezielt werden soll.

Voraussetzung für die genannten positiven Wirkungen durch einen Linktausch ist in jedem Falle, dass die jeweils verlinkenden Seiten einen ähnlich großen PageRank an die jeweils andere Site weitergeben. Sollte etwa eine Seite einen wesentlich größeren PageRank oder aber wesentlich weniger ausgehende Links haben, so besteht die Möglichkeit, dass alle Seiten ihrer Site an PageRank einbüßen. Ein nicht zu unterschätzender Einflussfaktor ist hier auch die Größe der beiden Sites. Je mehr Seiten eine Website besitzt, um so mehr des PageRanks aus eingehenden Links wird auf andere Seiten der Site verteilt, unabhängig davon, weie viele ausgehende Links die am Linktausch beteiligte Seite hat. Damit profitiert die am Linktausch beteiligte Seite selbst relativ wenig vom Linktausch, und kann an die andere am Linktausch beteiligte Seite nur relativ wenig PageRank zurückgeben. Letzlich sollten die genannten Faktoren stets gegeneinander abgewogen werden, bevor ein Linktausch eingegangen wird.

Abschließend bleibt anzumerken, dass ein Linktausch auch positive Effekte für alle Seiten einer Site haben kann, ohne dass die andere am Linktausch beteiligte Site geschädigt wird. Dies kann der Fall sein, wenn die am Linktausch beteiligte Seite bereits eine bestimmte Anzahl ausgehender Links auf Seiten aufweist, die nicht in direkter oder indirekter Form auf die betrachtete Site zurückverlinken. Mit dem Linktausch geht der betrachteten Site dann weniger PageRank durch die bereits vorher existierenden ausgehenden Links verloren.



Der Yahoo-Bonus






PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Quelle: © eFactory Internet-Agentur Suchmaschinenoptimierung - verfasst von Markus Sobek