Geen zoekresultaten in zoekresultaten … wat zijn tags dan?

April 20th, 2007

Op het Blog van Matt Cutts werd een post geplaatst over hoe je als website beheerder, volgens Google, om dient te gaan met website-zoekresultaten in zoekmachine-zoekresultaten. Volgens Matt Cutts is Google niet te vinden voor het indexeren van pagina’s die het resultaat zijn van een zoekopdracht binnen een website en moet jij er als website beheerder dus maar voor zorgen dat deze website-zoekresultaten niet geïndexeerd raken.

Concreet wil dit zeggen dat Google vindt dat de zoekresultaten-pagina voor een search als ‘webdesign’ op technorati (http://www.technorati.com/search/webdesign) via de robots.txt of via meta tags uit de google-index geweerd moet worden. Allemaal goed en wel maar dat moet er mij toch eens iemand uitleggen wat het verschil is met bijvoorbeeld tag-archieven (http://www.technorati.com/posts/tag/webdesign). Ik heb nog nergens gelezen dat Google het niet voor tags heeft maar een indexeerbare search is niets meer of minder dan een auto-tag.

De resultaten op beide pagina’s zijn niet hetzelfde maar uiteindelijk doet dat er niet toe. Een tag-archief pagina is in essentie een voorgedefinieerde zoekopdracht binnenin een website. Het enige verschil met een standaard search is de manier waarop je als website bezoeker aan de resultaten raakt. Zijnde bij een standaard search dien je het keyword in te geven in een formulier en bij een tag-systeem krijg je links naar de resultaten.

Als je er dus voor zorgt dat je ergens op je website een indexeerbaar overzicht aanbiedt van de keywords die mensen gebruiken bij standaard site-search heb je eigenlijk gewoon een geautomatiseerd tag-archief. Ik versta dat Google aangeeft dat ze liever geen website-zoekresultaten in hun zoekmachine-zoekresultaten hebben maar dit is echt iets waar ze volgens mij, technisch gezien, niets aan kunnen doen.

Update: in de comments op de post van Matt werd het voorbeeld van technorati searches VS technorati tags blijkbaar reeds aangehaald maar daar kwam geen reactie op van Matt.

Plaats de eerste reactie!

Adwords misbruik door (onze) concurrentie

April 11th, 2007

note: mijn excuses aan de mensen die op een lage resolutie surfen en door de relatief brede screenshots een verticale scrollbalk krijgen. Ik heb mijn best gedaan om ze zo smal mogelijk te houden maar als ik ze nog smaller maak gaat dit ten koste van de kwaliteit.

Tijdens een zoektocht op de term ‘Desk02′ op Google zag ik tot mijn verbazing bovenaan bij de gesponsorde koppelingen een advertentie staan die gebruik maakt van onze bedrijfsnaam om bezoekers binnen te lokken (zie screenshots 1 & 2).

Dat er een advertentie verschijnt wanneer er op ‘desk02‘ gezocht wordt, is nog te verstaan maar gebruik maken van onze bedrijfsnaam in de advertentie is een stap te ver! Google werd reeds gecontacteerd en we zijn aan het wachten tot de advertenties geschorst worden (voor de term ‘desk02′ in elke geval).

Na wat zoeken blijkt dat ‘Desk02′ trouwens niet de enige term is waarmee mensen gelokt worden. Andere voorbeelden zijn Joomla (screenshot 3), Drupal (screenshot 4), Oscommerce (screenshot 5), Typo3 (screenshot 6) en wie weet welke nog allemaal.

Screenshot 1: zoekresultaten voor de term ‘desk02′

Screenshot zoekresultaten op google voor de term 'desk02'

Screenshot 2: zoekresultaten voor de term ‘desk02′

Screenshot zoekresultaten op google voor de term 'desk02'

Screenshot 3: zoekresultaten voor de term ‘Joomla’

Screenshot zoekresultaten op google voor de term 'joomla'

Screenshot 4: zoekresultaten voor de term ‘Drupal’

Screenshot zoekresultaten op google voor de term drupal'

Screenshot 5: zoekresultaten voor de term ‘Oscommerce’

Screenshot zoekresultaten op google voor de term 'oscommerce'

Screenshot 6: zoekresultaten voor de term ‘Typo3′

Screenshot zoekresultaten op google voor de term 'typo3'

Moest het nu nog een kwalitatieve concurrent/collega zijn, zouden we het ook niet toelaten maar het zou wel een compliment zijn … wat we in dit geval zo dus niet zien.

10 Reacties

Geen afbeeldingen meer naast AdSense advertenties

December 20th, 2006

Een dik jaar geleden schreef ik hoe afbeeldingen boven/naast AdSense advertenties de CTR konden verhogen. Tot vandaag werd dit toegelaten door Google maar doordat het plaatsen van afbeeldingen naast advertenties, de indruk wekt dat de afbeeldingen en de advertenties gerelateerd zijn heeft Google beslist dit niet meer toe te laten. Zelfs als er een visuele scheiding is, zoals een dun lijntje, wordt het niet meer niet toegelaten. Er moet dus vanaf vandaag een zeer duidelijk visueel verschil bestaan tussen afbeeldingen en de advertenties. Hieronder een voorbeeld (geen effectieve advertentie) van wat niet meer toegelaten is.

Google Ads + Images = nono

Dit gaat een hele hoop publishers én Google een pak inkomsten kosten.
De officiële aankondiging vind je op Google’s AdSense blog: Inside AdSense (EN) en op Google’s AdSense blog: Inside AdSense (NL)

3 Reacties

CMS Awards 2006 - 1ste plaats SEO & 2de plaats OVERALL

November 20th, 2006

Het wordt tijd om de langdurige stilte op mijn blog hier te doorbreken en hoe kan ik dat beter doen dan met een post over de CMS Awards 2006 waar we met Desk02, het webdesign bureau dat ik enkele jaren geleden mee opgestart heb, 2 prijzen gewonnen hebben.

Om het kort te houden, we hebben dus eigen een Content Management Systeem (CMS) ontwikkeld met als doel het beheren van een website zo snel en eenvoudig mogelijk te maken maar met de bijkomende gedachte dat de output (lees code) van het CMS zo dicht mogelijk bij de huidige XHTML/CSS standaarden moet liggen en dat de content, standaard maximaal geoptimaliseerd moet zijn voor een degelijke indexatie en ranking in de zoekmachines.

Sommigen zullen denken … hupsa, nog een CMS erbij en ze hebben geen ongelijk. Er bestaan duizenden content management systemen, zowel open-source als closed source. Waarom dan toch nog met een eigen CMS komen … simpelweg omdat we denken dat we iets positiefs toe te voegen hebben. Er bestaan systemen die zeer makkelijk beheerbaar zijn maar waarvan de structuur zo slecht is dat er, met uitzondering van de homepage misschien, geen enkele pagina geïndexeerd wordt door zoekmachines. Andersom bestaat ook, super-zoekmachine-geoptimaliseerde systemen maar waar je eerst een volledig handboek moet over gelezen hebben alvorens je ermee aan de slag kan.

Wat wij met ons CMS proberen te doen is de complexiteit verminderen, het gebruiksgemak verhogen en dit om uiteindelijk, het belangrijkste, een systeem te bekomen waarmee bedrijven hun internet investeringen ook daadwerkelijk terug verdienen en liefst meer.

Concreet over de CMS Awards dan, we hebben ons ingeschreven met onze eigen website, desk02.be en hebben in de categorie SEO de eerste prijs gekregen van de vakjury. Iets wat ons natuurlijk veel plezier gedaan heeft gezien het feit dat een maximale zoekmachine optimalisatie van het CMS een zeer belangrijk streefdoel is. Daarnaast ontvingen we ook nog de 2de prijs van de vakjury voor de algemeen beste website. In deze categorie werden de punten van alle categorien en alle juryleden samengeteld. Een mooie 2de plaats na de officiële website van de provincie Antwerpen en vóór de website van Brantano.

Voor wie interesse heeft in het CMS, bezoek onze website op desk02.be en vraag een proefperiode aan. We staan trouwens ook open voor partnerships dus laat zeker van je horen indien je interesse hebt.

Zie ook ons persbericht op desk02.be

5 Reacties

Google + 5.000.000.000 spam-pagina’s

June 18th, 2006

Een lid van het DigitalPoint (SEO) Forum, heeft opgemerkt dat een superspammer erin geslaagd is meer dan 5 miljard spam-pagina’s in Google’s index te krijgen.


Super Google Spam
Kijk zelf maar …

De spammer maakt zéér handig gebruik van het feit dat GoogleBot elk subdomein als nieuwe website bekijkt en zo dus minstens één pagina van elke website (eigenlijk zijn het dus niet-bestaande subdomeinen die naar een script ge-mod-rewrite worden) indexeerd.

Als je bedenkt dat er sinds Google’s Big Daddy update ook websites uit de index kunnen verdwijnen om plaats te maken voor andere websites, moet je je maar eens inbeelden hoeveel legitieme websites er misschien uit google verdwenen om plaats be maken voor één van deze 5 miljard spam-pagina’s.

Niet alleen Google is vatbaar voor deze vorm van auto-generated-pages maar aangezien er geen enkele andere zoekmachine-bot, qua indexatie-snelheid in de buurt komt van GoogeBot is het probleem bij andere zoekmachines dus veel kleiner.

Het is niet écht een nieuw probleem, op 25 augustus 2005 werd op Marketingsfacts.nl al een artikel geplaatst over een Nederlandse spammer die toen al met gelijkaardige technieken aan het spammen was. Ik heb toen gereageerd op dat artikel (onder de naam Bart N.) omdat ik in de logs van Percept.be ook referrers had staan van verschillende, in het artikel genoemde, spamsites.

Het gaat hier om een fundamentele fout in het algoritme, dus enkel de sites bannen zal niet voldoende zijn om deze spammer tegen te houden … hij hoeft maar enkele nieuwe domeinen te registreren en heel het spel kan opnieuw beginnen.
Om nog maar te zwijgen van het feit dat ‘iedereen’ dit nu eigenlijk kan en Google index wel eens 100% spam zou kunnen worden als er niet snel ingegrepen wordt.

Zie de blogpost op Monetize.ca: step by step how to get billions of pages indexed by google

Update @ 14u18 - 18/06/2006:

een reactie van een Googler (op threadwatch.org):

Hey there,

Regarding the “5 billion indexed”…

We have noticed that some site: queries are showing bizarre results and it’s turned out to be tied to a bad data push. We’re fixing it now.

Hoeveel pagina’s het écht zijn kunnen we nooit 100% correct weten maar het zijn er véééééééél en zeggen dat het een ‘bad data push’ is zever want volgens Alexa.com staat de spam-website in de top 2000 van meest bezochte websites op het web. Ik kan je verzekeren dat je niet in deze top 2000 raakt zonder honderdduizenden (eerder miljoenen) unieke bezoekers per maand.

Een spammer slaagt erin gigantisch veel spam-pagina’s in de index te krijgen (als de cijfers ook maar een beetje kloppen en ik zie echt niet in waarom ze niet zouden kloppen) dan is 1/10 tot mogelijk 1/3 van google’s volledige index volgespammed. Nu moeten ze mij écht eens uitleggen hoe ze erin slagen om dit NIET ZELF TE MERKEN.

Update @ 19u34 - 18/06/2006:

De spamresultaten beginnen stukje bij beetje uit de index te verdwijnen maar om na te gaan hoe erg het probleem effectief is/was moet je deze PDF maar eens bekijken. In de PDF kan je zien dat 67 van de top 100 rankings voor de keyphrase ‘pizza sauce recipe’ naar de spamsite leiden.

Update @ 23u58 - 19/06/2006:

De spam-pagina’s worden in grote getalen (en manueel blijkbaar) uit de index gebanned maar gezien de hoeveelheid pagina’s en het grote aantal servers kan het nog wel even duren alvorens de index weer ‘clean’ is, voor zover een zoekmachine index ooit ‘clean’ genoemd kan worden. Dit wil daarom nog niet zeggen dat Google bijna van dit probleem verlost is. Google’s ranking algoritme zal grondig herzien moeten worden om dergelijke fouten in de toekomst onmogelijk te maken.

Een officiële reactie is er nog steeds niet en Google kennende is de kans zelfs groot dat er nooit één komt. De énige (informele) informatie die van Google komt is van Adam Lasnik, die volgens zijn ThreadWatch profiel speciaal in dienst is genomen (in maart 2006) om de communicatie tussen webmasters en Google te verbeteren.

De mainstream media zwijgt, voor zover ik kan zien, in alle talen over deze zaak …

Btw, op het officiële Google Blog stond onlangs nog te lezen ‘Yes, we are still all about search‘, nice Google, very nice. Een maand geleden waren jullie dus nog volledig met Search bezig, maar merken dat er een spammer de laatste 3 weken gigantische hoeveelheden spam jullie index heeft binnengeloodsd dat merken jullie niet ?!

Een laatste update, uiteindelijk bleken het helemaal niet om 5.000.000.000 pagina’s te gaan, het waren er gigantisch veel maar niemand weet het exacte aantal. Het heeft me verbaasd hoe weinig aandacht hier aan gegeven is door de grote media. Misschien is het omdat je SEO-er moet zijn om goed te kunnen volgen wat er net aan de hand was.

4 Reacties

Google ~ to organise the world’s information (na de Big Daddy Update)

June 14th, 2006

note: deze post is gebaseerd op eigen waarnemingen en informatie die ik uit verklaringen (forum/blogposts) van andere website beheerders heb kunnen halen. Aangezien het om Google’s index gaat, die uit miljarden pagina’s bestaat, is het enorm moeilijk om een juist totaalbeeld te vormen. Indien er dus iemand mijn onderstaande beweringen kan nuanceren of weerleggen, gelieve dat dan ook te doen!

Ik neem aan dat je Google’s mission statement ‘to organise the world’s information‘ al wel eens ergens tegengekomen bent? Wel, sinds de zogenaamde Big Daddy Update mogen ze hun mission statement zwaar wijzigen (to organise the world’s POPULAR information) of schrappen, want hoe Google nu werkt is deze slogan volgens mij absoluut niet meer van toepassing.

Sinds de Big Daddy Update zijn er ontelbare klachten van website beheerders die merken dat soms tot 90% van hun website pagina’s niet meer in de index voorkomen, met als gevolg dat bij velen van hen (maar niet bij allemaal) het aantal bezoekers enorm gedaalt is.

  • Voorbeeld: een website die vroeger 10.000 pagina’s in Google’s index had staan heeft er nu misschien nog maar 1.000 over.

Het mag duidelijk zijn dat je met 1.000 pagina’s niet evenveel bezoekers kan aantrekken als met 10.000.

Google’s nieuwe ‘inzicht’ is blijkbaar dat als een pagina niet genoeg kwalitatieve inkomende links heeft, deze niet noodzakelijk in de index moet komen. Good thinking … alleen vergeten ze blijkbaar dat er dagelijks miljoenen kwalitatieve pagina’s online komen die ook geen kwalitatieve inkomende links hebben en die toch op zijn minst vindbaar zouden moeten zijn voor zeer specifieke zoekopdrachten. Guess again, zoals het nu gaat is het, geen kwalitative inkomende links -> geen plaats in de index. Dus, hoe relevant een pagina ook mag zijn voor jouw specifieke zoekopdracht, geen kwalitatieve inkomende links, geen plaats in de index. Ik ben tot deze conclusie gekomen door een zoekopdracht in te geven voor een 7-woorden-lange-searchphrase waarbij de searchphrase maar op enkele pagina’s op het web te vinden is. Het resultaat, de meest passende pagina is niet te vinden in de index en in de plaats daarvan krijg je een link naar een archief pagina waar de link naar de meest gepaste pagina 1 maal in voorkomt.

Anders gezegd, Google heeft met Big Daddy, de Long Tail van informatie fenomenaal ingekort want het is onmogelijk geworden om via Google een pagina te vinden die nog geen kwalitatieve inkomende links heeft. Door deze wijziging maken ze het daarbij dus enorm moeilijk voor nieuwe pagina’s om inkomende links te krijgen want niemand kan ze vinden. Zien er hier nog mensen een visieuze cirkel: geen bezoekers -> geen kwalitatieve links -> geen plaats in de google index -> geen bezoekers -> … ? Hoe je je eerste bezoekers naar die pagina’s krijgt is duidelijk Google’s probleem niet meer.

De conclusie die ik uit al mijn observaties kan trekken is dat je van nu af aan, je eerste bezoekers niet meer langs Google moet verwachten en dat Googlebot pas op de proppen komt nadat andere websites eerst (doormiddel van links) bewijzen dat je pagina’s het waard zijn om in de index terecht te komen.

Misschien moeten website beheerders van nieuwe websites maar gewoon via Adwords adverteren om die eerste bezoekers binnen te krijgen. Let wel, het zou kunnen dat je via Adsense niet echt krijgt waar je voor betaald.

10 Reacties

Sitedeals15 update 2

March 29th, 2006

Er zijn nog maar enkele dagen te gaan voor de Sitedeals15 released-wedstrijd en ik raak maar niet op de eerste plaats. Ik sta al meer dan een week op numero 2 maar die extra push ontbreekt blijkbaar nog … al wie nog wat internet-real-estate vrij heeft mag dus gerust (nog) een linkje leggen :)

We gaan de Nederlanders toch niet laten winnen eh mannen ?!!

4 Reacties

Sitedeals updateke

March 16th, 2006

Momenteel staat mijn post ‘Sitedeals15 released‘ op de 2de plaats! Of ik op 1 april de eerste plaats zal hebben is moeilijk te voorspellen maar de kans wordt groter … alvast een woordje van dank aan iedereen die een of meerdere links gelegd heeft! (extra links zijn nog altijd welkom trouwens)

6 Reacties

Google Analytics hindert het laden van websites

March 10th, 2006

Ik kreeg vandaag de vraag of ik een bepaalde website wou nakijken omdat deze zeer traag laadde, gemiddeld een 40-tal seconden per pagina.
Lang heb ik niet naar de oorzaak moeten zoeken, in de statusbalk van mijn browser kreeg ik gedurende heel de tijd de boodschap ‘verbinden met www.google-analytics.com‘ te zien. De javascript code van Google Analytics die vanop google-analytics.com geladen moet worden komt er dus blijkbaar niet zo snel door als zou moeten. Percept.be heeft had er hier ook last van. (ik heb de Google Analytics code tijdelijk verwijderd tot dit probleem opgelost is).

Het is wel normaal dat je af en toe een kleine vertraging van een paar seconden hebt , maar 40 seconden is wel problematisch, zeker gezien het feit dat mensen maximum 10 seconden willen wachten anders klikken ze weg.  (Die 10 seconden komt uit onderzoeken van een paar jaar geleden dus het zou met niet verbazen moest dit ondertussen minder zijn).

Anyway, je moet je maar eens voorstellen hoeveel websites er op slag moeilijk bereikbaar worden omdat een dienst als Google Analytics even hapert. Maarja, je kan er eigenlijk niet over klagen want je betaald er ook niet voor. Google zal het zelf ook wel snel merken want websites die niet of zeer traag laden kunnen ook geen Adsense inkomsten genereren ;)

Hopelijk hebben ze het snel gefixt !

update - sites die ik momenteel moeilijk of niet kan bereiken:

8 Reacties

Google’s Gdrive lekt

March 8th, 2006

Google is van plan om binnen onbepaalde tijd, Gdrive te lanceren. Gdrive wordt een online-storage dienst die je de mogelijkheid moet bieden AL je bestanden online te bewaren zodat je er overal aankan, tenminste overal waar je internet toegang hebt .

Ik moet eerlijk zeggen, het begint al goed. Misschien moeten ze eerst zorgen dat hun eigen data niet uitlekt alvorens andere mensen, lees ‘klanten’, een dienst als deze gaan vertrouwen.

Vroeg of laat zal het er waarschijnlijk wel van komen dat we grote delen van onze data online zullen plaatsen bij bedrijven als Google maar gezien de vele privacy/veiligheidsrisico’s die er momenteel nog zijn zal dat toch niet voor morgen zijn.

via marketingfacts.nl

Plaats de eerste reactie!