Archive for June, 2006

AdSense tracker: Adlogger

Tuesday, June 20th, 2006

Door het groeiende probleem van klikfraude waar de AdSense Publishers onderandere het slachtoffer van zijn, komt de open source gemeenschap met het programma (script), Adlogger waarmee je zelf je AdSense advertenties kan tracken.

Quote vanop adlogger.org:

It’s become a surprisingly powerful program that helps AdSense publishers monitor their accounts with the primary purpose to combat click fraud before it becomes a problem. The last thing anybody wants is to have his or her account banned due to invalid clicks. AdLogger greatly reduces the chance of this happening by giving you advanced monitoring features and automatic disabling of ads for a particular visitor if he is clicking too many.

Adlogger grijpt dus preventief in bij klikfraude vóór je AdSense account door Google op non-actief geplaatst wordt (en je in de meeste gevallen inkomsten verliest).
Zelf gebruik ik het niet want ik publiceer nog geen AdSense advertenties maar voor hen die wel AdSense gebruiken denk ik niet dat dit een overbodige luxe is gezien het stijgende aantal berichten over click fraud.

Google + 5.000.000.000 spam-pagina’s

Sunday, June 18th, 2006

Een lid van het DigitalPoint (SEO) Forum, heeft opgemerkt dat een superspammer erin geslaagd is meer dan 5 miljard spam-pagina’s in Google’s index te krijgen.


Super Google Spam
Kijk zelf maar …

De spammer maakt zéér handig gebruik van het feit dat GoogleBot elk subdomein als nieuwe website bekijkt en zo dus minstens één pagina van elke website (eigenlijk zijn het dus niet-bestaande subdomeinen die naar een script ge-mod-rewrite worden) indexeerd.

Als je bedenkt dat er sinds Google’s Big Daddy update ook websites uit de index kunnen verdwijnen om plaats te maken voor andere websites, moet je je maar eens inbeelden hoeveel legitieme websites er misschien uit google verdwenen om plaats be maken voor één van deze 5 miljard spam-pagina’s.

Niet alleen Google is vatbaar voor deze vorm van auto-generated-pages maar aangezien er geen enkele andere zoekmachine-bot, qua indexatie-snelheid in de buurt komt van GoogeBot is het probleem bij andere zoekmachines dus veel kleiner.

Het is niet écht een nieuw probleem, op 25 augustus 2005 werd op Marketingsfacts.nl al een artikel geplaatst over een Nederlandse spammer die toen al met gelijkaardige technieken aan het spammen was. Ik heb toen gereageerd op dat artikel (onder de naam Bart N.) omdat ik in de logs van Percept.be ook referrers had staan van verschillende, in het artikel genoemde, spamsites.

Het gaat hier om een fundamentele fout in het algoritme, dus enkel de sites bannen zal niet voldoende zijn om deze spammer tegen te houden … hij hoeft maar enkele nieuwe domeinen te registreren en heel het spel kan opnieuw beginnen.
Om nog maar te zwijgen van het feit dat ‘iedereen’ dit nu eigenlijk kan en Google index wel eens 100% spam zou kunnen worden als er niet snel ingegrepen wordt.

Zie de blogpost op Monetize.ca: step by step how to get billions of pages indexed by google

Update @ 14u18 - 18/06/2006:

een reactie van een Googler (op threadwatch.org):

Hey there,

Regarding the “5 billion indexed”…

We have noticed that some site: queries are showing bizarre results and it’s turned out to be tied to a bad data push. We’re fixing it now.

Hoeveel pagina’s het écht zijn kunnen we nooit 100% correct weten maar het zijn er véééééééél en zeggen dat het een ‘bad data push’ is zever want volgens Alexa.com staat de spam-website in de top 2000 van meest bezochte websites op het web. Ik kan je verzekeren dat je niet in deze top 2000 raakt zonder honderdduizenden (eerder miljoenen) unieke bezoekers per maand.

Een spammer slaagt erin gigantisch veel spam-pagina’s in de index te krijgen (als de cijfers ook maar een beetje kloppen en ik zie echt niet in waarom ze niet zouden kloppen) dan is 1/10 tot mogelijk 1/3 van google’s volledige index volgespammed. Nu moeten ze mij écht eens uitleggen hoe ze erin slagen om dit NIET ZELF TE MERKEN.

Update @ 19u34 - 18/06/2006:

De spamresultaten beginnen stukje bij beetje uit de index te verdwijnen maar om na te gaan hoe erg het probleem effectief is/was moet je deze PDF maar eens bekijken. In de PDF kan je zien dat 67 van de top 100 rankings voor de keyphrase ‘pizza sauce recipe’ naar de spamsite leiden.

Update @ 23u58 - 19/06/2006:

De spam-pagina’s worden in grote getalen (en manueel blijkbaar) uit de index gebanned maar gezien de hoeveelheid pagina’s en het grote aantal servers kan het nog wel even duren alvorens de index weer ‘clean’ is, voor zover een zoekmachine index ooit ‘clean’ genoemd kan worden. Dit wil daarom nog niet zeggen dat Google bijna van dit probleem verlost is. Google’s ranking algoritme zal grondig herzien moeten worden om dergelijke fouten in de toekomst onmogelijk te maken.

Een officiële reactie is er nog steeds niet en Google kennende is de kans zelfs groot dat er nooit één komt. De énige (informele) informatie die van Google komt is van Adam Lasnik, die volgens zijn ThreadWatch profiel speciaal in dienst is genomen (in maart 2006) om de communicatie tussen webmasters en Google te verbeteren.

De mainstream media zwijgt, voor zover ik kan zien, in alle talen over deze zaak …

Btw, op het officiële Google Blog stond onlangs nog te lezen ‘Yes, we are still all about search‘, nice Google, very nice. Een maand geleden waren jullie dus nog volledig met Search bezig, maar merken dat er een spammer de laatste 3 weken gigantische hoeveelheden spam jullie index heeft binnengeloodsd dat merken jullie niet ?!

Een laatste update, uiteindelijk bleken het helemaal niet om 5.000.000.000 pagina’s te gaan, het waren er gigantisch veel maar niemand weet het exacte aantal. Het heeft me verbaasd hoe weinig aandacht hier aan gegeven is door de grote media. Misschien is het omdat je SEO-er moet zijn om goed te kunnen volgen wat er net aan de hand was.


FEWEB - recent toegetreden leden: gaybelgium.be

Wednesday, June 14th, 2006

Euh … kan er mij iemand uitleggen waarom gaybelgium.com in de lijst staat van recent toegetreden FEWEB leden (FEWEB = de federatie van WEBONTWIKKELAARS) ?

Misschien omdat het helpen ontwikkelen/ontplooien van homo’s langs het web ook wel ‘webontwikkeling’ is ?

Even serieus … ik heb gaybelgium.com even nagekeken en ik vind geen enkel aanbod van internet diensten?

Google ~ to organise the world’s information (na de Big Daddy Update)

Wednesday, June 14th, 2006

note: deze post is gebaseerd op eigen waarnemingen en informatie die ik uit verklaringen (forum/blogposts) van andere website beheerders heb kunnen halen. Aangezien het om Google’s index gaat, die uit miljarden pagina’s bestaat, is het enorm moeilijk om een juist totaalbeeld te vormen. Indien er dus iemand mijn onderstaande beweringen kan nuanceren of weerleggen, gelieve dat dan ook te doen!

Ik neem aan dat je Google’s mission statement ‘to organise the world’s information‘ al wel eens ergens tegengekomen bent? Wel, sinds de zogenaamde Big Daddy Update mogen ze hun mission statement zwaar wijzigen (to organise the world’s POPULAR information) of schrappen, want hoe Google nu werkt is deze slogan volgens mij absoluut niet meer van toepassing.

Sinds de Big Daddy Update zijn er ontelbare klachten van website beheerders die merken dat soms tot 90% van hun website pagina’s niet meer in de index voorkomen, met als gevolg dat bij velen van hen (maar niet bij allemaal) het aantal bezoekers enorm gedaalt is.

  • Voorbeeld: een website die vroeger 10.000 pagina’s in Google’s index had staan heeft er nu misschien nog maar 1.000 over.

Het mag duidelijk zijn dat je met 1.000 pagina’s niet evenveel bezoekers kan aantrekken als met 10.000.

Google’s nieuwe ‘inzicht’ is blijkbaar dat als een pagina niet genoeg kwalitatieve inkomende links heeft, deze niet noodzakelijk in de index moet komen. Good thinking … alleen vergeten ze blijkbaar dat er dagelijks miljoenen kwalitatieve pagina’s online komen die ook geen kwalitatieve inkomende links hebben en die toch op zijn minst vindbaar zouden moeten zijn voor zeer specifieke zoekopdrachten. Guess again, zoals het nu gaat is het, geen kwalitative inkomende links -> geen plaats in de index. Dus, hoe relevant een pagina ook mag zijn voor jouw specifieke zoekopdracht, geen kwalitatieve inkomende links, geen plaats in de index. Ik ben tot deze conclusie gekomen door een zoekopdracht in te geven voor een 7-woorden-lange-searchphrase waarbij de searchphrase maar op enkele pagina’s op het web te vinden is. Het resultaat, de meest passende pagina is niet te vinden in de index en in de plaats daarvan krijg je een link naar een archief pagina waar de link naar de meest gepaste pagina 1 maal in voorkomt.

Anders gezegd, Google heeft met Big Daddy, de Long Tail van informatie fenomenaal ingekort want het is onmogelijk geworden om via Google een pagina te vinden die nog geen kwalitatieve inkomende links heeft. Door deze wijziging maken ze het daarbij dus enorm moeilijk voor nieuwe pagina’s om inkomende links te krijgen want niemand kan ze vinden. Zien er hier nog mensen een visieuze cirkel: geen bezoekers -> geen kwalitatieve links -> geen plaats in de google index -> geen bezoekers -> … ? Hoe je je eerste bezoekers naar die pagina’s krijgt is duidelijk Google’s probleem niet meer.

De conclusie die ik uit al mijn observaties kan trekken is dat je van nu af aan, je eerste bezoekers niet meer langs Google moet verwachten en dat Googlebot pas op de proppen komt nadat andere websites eerst (doormiddel van links) bewijzen dat je pagina’s het waard zijn om in de index terecht te komen.

Misschien moeten website beheerders van nieuwe websites maar gewoon via Adwords adverteren om die eerste bezoekers binnen te krijgen. Let wel, het zou kunnen dat je via Adsense niet echt krijgt waar je voor betaald.


webdesign 2006

Sunday, June 11th, 2006

We zijn halfweg 2006 en XHTML/CSS is voor degelijke webdesign bedrijven de standaard geworden. Desondanks deze positieve evolutie zie ik nog steeds webdesign fouten die me ongelofelijk dwars blijven zitten. Het is niet omdat voor een website XHTML/CSS gebruikt wordt dat er geen extra rekening gehouden moet met zaken als usability.

Hoe, maar het gebruik van XHTML/CSS vergroot vanzelf toch de usability van een website?! Yup, op sommige vlakken maar er zijn genoeg zaken die je niet oplost door het gebruik van de nieuwe standaarden alleen, enkele voorbeelden:

  • Te laag contrast tussen, tekst, links, achtergrond, …
  • vaste font-size in pixels
  • te kleine font-size (meestal in pixels vastgezet)
  • belangrijke tekst in afbeeldingen (nog nooit van SEO gehoord?)

Ik zie al enkele mensen denken, “3 puntjes is dat alles wat hij kan bedenken?” Wel, die 3 puntjes zijn zéér belangrijk en bepalen hoe snel/of iemand je website kan lezen. Aangezien we in het tijdperk zitten waar niemand tijd heeft, denk ik niet dat dit zaken zijn die je zomaar weg mag wuiven.

Update: Als u op deze pagina terecht kwam op zoek naar een webdesign bureau kan u bij Desk02 webdesign terecht (ik werk daar namelijk).


Google Adwords & klikfraude … een onhoudbare situatie ?

Sunday, June 11th, 2006

Sinds enkele maanden volg ik de website fuckedgoogle.com, een website waar Google iets kritischer gevolgd wordt dan door de mainstream media. Ga gerust naar de website en lees de posts van de voorbije maanden maar eens door (je kan wel een paar uur bezig zijn …) ik begrijp het ook als je niet meer naar hier terugkomt ;)

De, voorlopig anonieme, beheerder van de website zou één van deze dagen met substantieel bewijs komen dat het zogenaamde klikfraude probleem veel groter is dan zoekmachines, en Google in het bijzonder, doen uitschijnen. Als de beheerder van fuckedgoogle.com zijn beweringen van massale klikfraude effectief kan bewijzen én als het nieuws voldoende aandacht krijgt, wat wel zal lukken aangezien het om GOOGLE gaat, kan Google zijn Don’t be evil-motto wel voorgoed vergeten.

Persoonlijk zou ik het enorm spijtig vinden moesten de beweringen correct zijn want Google is zonder twijfel verantwoordelijk voor het grote succes van het web van de laatste 5 jaren.
Maar als de bewijzen er zijn wordt het hoog tijd dat er iets aan gedaan wordt want al bij al is het de kleine internet adverteerder die ervoor opdraait. To be continued als er méér of net géén nieuws is over deze zaak.


Media Morgen … IETS ANDERS

Sunday, June 4th, 2006

Ik ben net gestart met het invullen van de MediaMorgen peiling, die als doel heeft te bepalen tot welke ‘groep’ mediagebruikers je behoort. Interessant dacht ik, tot bleek dat er voor elke vraag maar 4 mogelijkheden zijn en dat de optie ‘iets anders‘ overal ontbreekt. De optie ‘iets anders’ hoeft zelfs geen extra invulveld te hebben, zolang ik maar kan aanduiden dat het antwoord dat ik wil geven er niet tussenstaat.

Dit is gewoon een grote fout en de resultaten van deze peiling zijn zo dus al een pak minder waardevol …

update: een reactie van de VRT waarom er geen ‘iets anders’-optie is, zou mooi zijn … dat is de reden waarom ik er hier over geschreven heb trouwens! Misschien dat er wat meer mensen iets over moeten schrijven? (het kan ook zijn dat ik de enige ben die dit als een probleem ziet natuurlijk, vandaar de weinige reacties …).