05.03.09 | Google Translate Spam

Onderwerpen: Google | Matt Cutts | Spam
Auteur: Bert van Heerde
Reacties: (4) | Reageer
Bookmark dit artikel:

In januari heeft Matt Cutts een blogpost gepubliceerd waar hij webmasters vraagt welke spamproblemen in 2009 aangepakt moeten worden door zijn Google webspam team. Dat er behoorlijk wat werk aan de winkel is voor Matt en de zijnen blijkt uit de meer dan 300 reacties van webmasters. Het is opvallend dat veel webmasters op het weblog klagen over spam die veroorzaakt wordt door misbruik van Google producten. Het meest populair blijkt het spammen van Google Maps. Ook Google Docs blijkt slachtoffer van een legioen spammers.

Sommige spam is lastig aan te pakken, zoals de comment spam in Google Maps. Het doelbewust negatief beoordelen van diensten van concurrenten is moeilijk te stoppen. Het verschil tussen een negatief spambericht en een ‘oprechte’ negatieve beoordeling is lastig te achterhalen met een algoritme. Toch zijn er ook spamproblemen die Google eenvoudig kan stoppen zonder al te veel moeite. Neem bijvoorbeeld het groeiend aantal onzinpagina’s in Google Translate.

Wanneer je in Google zoekt op site:translate.google.com zie je direct het probleem. Meer dan 100.000 resultaten voor Google Translate, terwijl de site zelf slechts een handjevol echte contentpagina’s heeft. Hoe kan het dan dat er zoveel pagina’s in de index van Google staan? Dit komt doordat Googlebot vrolijk alle vertaalresultaten indexeert die vanaf een externe website worden gelinked.

Bekijk bijvoorbeeld deze site. Wanneer je de site bekijkt zie je dat de taalvlaggetjes direct linken naar Google Translate. Hier is in principe niks mis mee, maar het resultaat is meer dan 1000 pagina’s in Google Translate voor deze site. Je kunt het de webmaster van deze site niet kwalijk nemen dat Google deze resultaten opneemt in de index. Daarnaast zie je nog veel meer onzin vertalingen die netjes geïndexeerd worden en totaal niets bijdragen aan de informatievoorziening op het internet.

Google Translate Spam Onschuldig?

Je kunt natuurlijk stellen dat deze duizenden resultaten van Google Translate weinig kwaad kunnen, omdat deze resultaten voor weinig zoektermen in de top 10 terecht zullen komen. Dit valt te betwijfelen wanneer je dit voorbeeld (plaatje) bekijkt, waarin twee resultaten in de top 10 van Google Translate zijn.

Ook is het mogelijk om het secundaire zoekresultaat van Google Translate te kapen. Wanneer je zoekt op ‘translate’ of ‘google translate’, zie je altijd twee resultaten van Google Translate in de top 10. Het tweede resultaat is te kapen door een aantal links vanaf andere website naar een vertaalresultaat te linken. Dit is eerder gebeurd met het geval ‘sarkozy, sarkozy, sarkozy’ (zie plaatjes hieronder) die vanaf slechts een paar pagina’s is gelinked en een tijd lang als secundair resultaat werd getoond. De termen ‘translate’ en ‘google translate’ worden dagelijks duizenden keren gezocht en de kans dat iemand op het secundaire resultaat klikt is dus aanzienlijk.


           google translate zoekresultaten            Links naar Google Translate resultaat

Spammers en lolbroeken kunnen dus een Google Translate Bombing uitvoeren door massaal naar één vertaalresultaat te linken met als doel om een secundair resultaat te kapen. Toch leuk om te proberen om in 50 talen te vertellen dat Bush een miserable failure is of om andere teksten wereldkundig te maken.

Google is zo aardig om de gehele vertaling te indexeren, zoals je in dit voorbeeld kunt zien. Het droppen van hyperlinks moet ook mogelijk zijn, gezien het feit dat Google Translate hyperlinks ook gewoon meeneemt in de vertaling. Ik heb dit echter niet uitgeprobeerd of een concreet voorbeeld van gezien.

Voorkomen is beter dan genezen

Is deze vorm van spam erg? In vergelijking tot Google Maps spam zijn de mogelijkheden tot misbruik beperkt, maar er zullen altijd een aantal handige jongens zijn die hier wel raad mee weten. Mijn punt hier is niet zozeer dat er spam is, maar dat Google dit toestaat op hun eigen website. Het is mij een raadsel waarom Google ervoor heeft gekozen om vertaalresultaten in de eerste plaats te indexeren. De meeste resultaten die hierdoor ontstaan zijn pure onzin en helpen de gebruiker in geen enkel opzicht.

Conclusie:

Google moet dus of de Google Translate zoekresultaten opschonen en alle onzinnige resultaten weghalen (niet waarschijnlijk) of gewoon stoppen met het indexeren van deze pagina’s om de wildgroei van spam tegen te gaan.

(4) reacties

J.de.Jong | 25-03-2009 14:38

Jammer dat de vertaling van kleine zinnetjes niet goed vertaald over komen ik zelf probeer wat
kleine zinnetjes naar een bekende in duitsland te sturen, maar als ik het weer in het Nederlands
terug vertaal (omdraaien)klopt er niets van erg jammer. Voor de rest heb ik er wel plezier van
gr. jdj.

Bert van Heerde | 26-03-2009 11:26

Google Translate vind ik wel de beste vertaaltool van dit moment. Vertalen van en naar het Nederlands is sowieso een lastige aangelegenheid vanwege de vele uitzonderingen in grammatica en spelling. Wanneer je bijvoorbeeld een stuk tekst vanuit het Spaans naar het Engels vertaalt, ziet het er een stuk beter uit.

Jaap | 20-04-2009 23:16

Het wordt zelfs veel erger: omdat de vertaalde websites, die in de Google index terechtkomen ook veel sex bevatten, is de url translate.google.com nu zelfs in de content filtering van OpenDNS terchtgekomen als "proxy/Anonymizer", waarschijnlijk door dit bovenstaande effect. Google zou dus de vertaalde resultaten iet moeten opnemen in de index, maar dan missen ze ook weer wat lijkt mij. Oplossing is slimmer indexen, algoritme toevoegen dat het vertaalde resultaat gelijkstelt met de oorspronkelijke webcontent.

Bert van Heerde | 15-05-2009 12:14

@Jaap
Op zich een aardig idee, hoewel ik de kwaliteit van de vertaalde pagina's nog niet goed genoeg vind om ze uberhaupt te laten indexeren.

Reageer

Laat zien wie je bent met een Gravatar. Hiervoor dien je wel je e-mail adres in te voeren, deze zal echter nooit getoond worden. HTML is niet toegestaan. Een URL in je reactie toevoegen werkt wel.

kcaptcha