Implementing best practices for fraud detection on an online advertising platform

University essay from Chalmers tekniska högskola/Institutionen för data- och informationsteknik

Abstract: Fraud against online advertisements, most notably click fraud, is a problemthat in recent years has gained attention as a serious threat to the advertisingindustry. In 2007, Google Inc. estimated[3] that 10 percent of clicks on advertisementsin their AdWords program were not legitimate user clicks, whichtranslates into a one billion USD yearly revenue loss after filtering out theseclicks. Click fraud detection is not an unaddressed problem, but could largelybe considered a "secret art" as little open research exists on the topic.
In this thesis, the application of general outlier detection and classificationmethods to the problem of detecting fraudulent behavior in an online advertisementmetrics platform will be explored. Furthermore, the development of afraud detection system based on such methods will be described. In the process,several different data mining algorithms will be evaluated based on predictionaccuracy and performance.
We empirically show that satisfactory detection accuracy can be achieved byintroducing supervised machine learning into the detection process - given thatan appropriate set of training data can be constructed. Such a solution wouldalso be able to benefit from the extraction of training data across a large customerbase. We design and implement a system based on a three-step feedbackprocess and find that it scales well in a distributed setting.

Bedrägeri mot Internetreklam, i synnerhet klickbedrägeri (eng. click fraud),är ett problem som på senare år har uppmärksammats som ett allvarligt hotmot reklamindustrin. Under 2007 uppskattade[3] Google Inc. att klicktrafikenmot annonser i deras AdWords-program innehöll ungefärligen 10 procent falskaklick, motsvarande en årlig intäktsförlust på en miljard USD efter att dessaklick filtrerats bort. Detektering av klickbedrägeri är ej ett obehandlat problem,men kan på många sätt ses som en "hemlig konst" då det existerar lite öppenforskning inom området.
I detta examensarbete utforskas hur generella metoder för avvikelsedetekteringoch klassificering kan användas för att detektera bedrägeri mot reklami en plattform för mätning av nätbaserade reklamkampanjer. Examensarbetetbeskriver även utvecklingen av ett system för detektering av bedrägligt beteendebaserat på dessa metoder. Under arbetets gång har ett flertal data miningalgoritmerutvärderats utifrån deras precision och prestanda.
Vi visar empiriskt att fullgod detektionsnoggrannhet kan åstadkommas genomatt introducera övervakad maskininlärning i detekteringsprocessen - givet attlämplig träningsdata kan konstrueras. En sådan lösning skulle även kunna dranytta av att träningsdata kan extraheras över en stor kundbas. Vi designar ochimplementerar ett system i form av en trestegsprocess med återkoppling ochfinner att det skalar väl i en distribuerad miljö.

  CLICK HERE TO DOWNLOAD THE WHOLE ESSAY. (in PDF format)