Million Dollar Baby

Aus Spaß an der Freud’ quasi beteiligt sich Freelenz ab sofort am Wettrennen um den Netflix Prize. Wie wo was? Also, von vorne: Netflix ist ein US-amerikanischer DVD-übers-Internet-Verleiher. Die Eckdaten: 80.000 Filmtitel, 42 Millionen DVDs, 1300 Mitarbeiter, 1,6 Millionen DVD-Sendungen pro Tag an knapp 7 Millionen Kunden, von denen etwa 60 Prozent ihre Filme aus automatisch generierten Empfehlungen auswählen. Leicht nachzuvollziehen, dass diese Empfehlungsmaschinerie einen Gutteil des Erfolgs von Netflix ausmacht. Nur, wie kommen diese Empfehlungen zustande?

Jeder Kunde kann (und tut das auch fleißig) die Filme, die er geliehen und gesehen hat, auf der Website von Netflix mit 1-5 Sternen bewerten. Fünf will heißen “Oscar, wenn’s nach mir ginge”, eins hingegen “schwache Vorstellung”, dann gibt’s noch drei Zwischentöne für die Indifferenten. über die Jahre hat Netflix über eine Milliarde solcher Ratings eingesammelt und akribisch in einer riesigen Datenbank verstaut. Auf deren Basis ist ein Algorithmus in der Lage, zukünftige Bewertungen mit einer durchschnittlichen Abweichung von 0,9525 Sternen vorherzusagen. Mit anderen Worten: Die Maschine weiß ziemlich genau, was den Leuten gefallen wird und was nicht.

netflix.gif

Doch scheinbar ist das noch nicht ausreichend. Also will Netflix demjenigen $ 1.000.000 (in Worten: Eine Million Dollar) zustecken, der diesen Wert um 10 Prozent zu verbessern weiß, sprich mit einem besseren Algorithmus eine Standardabweichung unter 0,8572 erreicht. Netflix stellt die Daten zur Verfügung. Und da beginnt es auch, schwierig zu werden. Natürlich sind alle privaten Kundendaten zuvor entfernt worden. Der durch soviel Geld entsprechend motivierte Algorithmentüftler bekommt auf Anfrage komprimierte 700 Megabyte an Daten, die im wesentlichen aus 17.000 Filmtiteln, 480.000 nackter Kundennummern und schlappen 100.000.000 abgegebenen Bewertungen bestehen. Dann mal los!

Natürlich bildet sich Freelenz nicht ein, die Nuss knacken zu können. Wieso nicht? Vielleicht deshalb, weil sich bereits ganze Forscherteams an Informatik-Fakultäten seit Monaten die Zähne daran ausbeißen - und das Geld immer noch da liegt wo es ist. Nein, für Freelenz ist das Ganze eine Art Gelegenheit zum Abreagieren an Hard- und Software. Ein Ausreizen der technischen Möglichkeiten, um ein besseres Gefühl für die Leistungsfähigkeit von Algorithmen, Programmiersprachen und Datenbanksystemen zu bekommen. Weiter nichts. Naja, fast nichts. Die Hoffnung stirbt zuletzt. Vorher erwischt es vermutlich meinen 2.4-GHz-Prozessor.

 
Kommentar verfassen