Een lid van het DigitalPoint (SEO) Forum, heeft opgemerkt dat een superspammer erin geslaagd is meer dan 5 miljard spam-pagina’s in Google’s index te krijgen.

Kijk zelf maar …
De spammer maakt zéér handig gebruik van het feit dat GoogleBot elk subdomein als nieuwe website bekijkt en zo dus minstens één pagina van elke website (eigenlijk zijn het dus niet-bestaande subdomeinen die naar een script ge-mod-rewrite worden) indexeerd.
Als je bedenkt dat er sinds Google’s Big Daddy update ook websites uit de index kunnen verdwijnen om plaats te maken voor andere websites, moet je je maar eens inbeelden hoeveel legitieme websites er misschien uit google verdwenen om plaats be maken voor één van deze 5 miljard spam-pagina’s.
Niet alleen Google is vatbaar voor deze vorm van auto-generated-pages maar aangezien er geen enkele andere zoekmachine-bot, qua indexatie-snelheid in de buurt komt van GoogeBot is het probleem bij andere zoekmachines dus veel kleiner.
Het is niet écht een nieuw probleem, op 25 augustus 2005 werd op Marketingsfacts.nl al een artikel geplaatst over een Nederlandse spammer die toen al met gelijkaardige technieken aan het spammen was. Ik heb toen gereageerd op dat artikel (onder de naam Bart N.) omdat ik in de logs van Percept.be ook referrers had staan van verschillende, in het artikel genoemde, spamsites.
Het gaat hier om een fundamentele fout in het algoritme, dus enkel de sites bannen zal niet voldoende zijn om deze spammer tegen te houden … hij hoeft maar enkele nieuwe domeinen te registreren en heel het spel kan opnieuw beginnen.
Om nog maar te zwijgen van het feit dat ‘iedereen’ dit nu eigenlijk kan en Google index wel eens 100% spam zou kunnen worden als er niet snel ingegrepen wordt.
Zie de blogpost op Monetize.ca: step by step how to get billions of pages indexed by google
Update @ 14u18 - 18/06/2006:
een reactie van een Googler (op threadwatch.org):
Hey there,
Regarding the “5 billion indexed”…
We have noticed that some site: queries are showing bizarre results and it’s turned out to be tied to a bad data push. We’re fixing it now.
Hoeveel pagina’s het écht zijn kunnen we nooit 100% correct weten maar het zijn er véééééééél en zeggen dat het een ‘bad data push’ is zever want volgens Alexa.com staat de spam-website in de top 2000 van meest bezochte websites op het web. Ik kan je verzekeren dat je niet in deze top 2000 raakt zonder honderdduizenden (eerder miljoenen) unieke bezoekers per maand.
Een spammer slaagt erin gigantisch veel spam-pagina’s in de index te krijgen (als de cijfers ook maar een beetje kloppen en ik zie echt niet in waarom ze niet zouden kloppen) dan is 1/10 tot mogelijk 1/3 van google’s volledige index volgespammed. Nu moeten ze mij écht eens uitleggen hoe ze erin slagen om dit NIET ZELF TE MERKEN.
Update @ 19u34 - 18/06/2006:
De spamresultaten beginnen stukje bij beetje uit de index te verdwijnen maar om na te gaan hoe erg het probleem effectief is/was moet je deze PDF maar eens bekijken. In de PDF kan je zien dat 67 van de top 100 rankings voor de keyphrase ‘pizza sauce recipe’ naar de spamsite leiden.
Update @ 23u58 - 19/06/2006:
De spam-pagina’s worden in grote getalen (en manueel blijkbaar) uit de index gebanned maar gezien de hoeveelheid pagina’s en het grote aantal servers kan het nog wel even duren alvorens de index weer ‘clean’ is, voor zover een zoekmachine index ooit ‘clean’ genoemd kan worden. Dit wil daarom nog niet zeggen dat Google bijna van dit probleem verlost is. Google’s ranking algoritme zal grondig herzien moeten worden om dergelijke fouten in de toekomst onmogelijk te maken.
Een officiële reactie is er nog steeds niet en Google kennende is de kans zelfs groot dat er nooit één komt. De énige (informele) informatie die van Google komt is van Adam Lasnik, die volgens zijn ThreadWatch profiel speciaal in dienst is genomen (in maart 2006) om de communicatie tussen webmasters en Google te verbeteren.
De mainstream media zwijgt, voor zover ik kan zien, in alle talen over deze zaak …
Btw, op het officiële Google Blog stond onlangs nog te lezen ‘Yes, we are still all about search‘, nice Google, very nice. Een maand geleden waren jullie dus nog volledig met Search bezig, maar merken dat er een spammer de laatste 3 weken gigantische hoeveelheden spam jullie index heeft binnengeloodsd dat merken jullie niet ?!
Een laatste update, uiteindelijk bleken het helemaal niet om 5.000.000.000 pagina’s te gaan, het waren er gigantisch veel maar niemand weet het exacte aantal. Het heeft me verbaasd hoe weinig aandacht hier aan gegeven is door de grote media. Misschien is het omdat je SEO-er moet zijn om goed te kunnen volgen wat er net aan de hand was.