Yahoo heeft een heleboel geanonimiseerde gebruikersgegevens vrijgegeven om wetenschappers in machine learning te helpen

Machinaal leren neemt in allerlei toepassingen toe, van zelfrijdende auto's tot beeldherkenning tot online aanbevelingsmachines. Maar tenzij u een Google of een Facebook bent, is het moeilijk om het soort enorme, echte gegevenssets te bemachtigen die nodig zijn om machine learning-programma's te testen en te valideren.

Yahoo heeft geholpen om dat te corrigeren met de release van donderdag van wat het de "grootste" dataset ooit noemde die beschikbaar was gesteld voor machine learning-wetenschappers. Het is een verzameling geanonimiseerde gebruikersinteracties met de nieuwsstoom op sites als Yahoo News en Yahoo Sports.

INSIDER: Hoe TD Ameritrade's Chief Data Officer verandering stimuleert

Yahoo zegt dat er 110 miljard gebeurtenissen in het bestand zijn - of 110 miljard records van wanneer een gebruiker op een nieuwsbericht klikte of een andere actie in de feed ondernam - en het bevat 13,5 TB aan gegevens of 1,5 TB gecomprimeerd. Dat is meer dan tien keer zo groot als de vorige grootste dataset die is uitgebracht, zegt Yahoo.

Yahoo

De gegevens zijn afkomstig van interacties met de nieuwsfeed, het rode gebied hierboven

"Data is het levensbloed van onderzoek naar machine learning", aldus het bedrijf. "Toegang tot echt grootschalige datasets is echter een voorrecht dat traditioneel is voorbehouden aan onderzoekers van machine learning en datawetenschappers die bij grote bedrijven werken - en buiten het bereik van de meeste academische onderzoekers."

Machine learning verwijst naar een klasse van programma's die "leren" en hun vermogen om problemen in de loop van de tijd op te lossen verbeteren. Een vroeg voorbeeld was spamdetectie, maar machine learning wordt gebruikt voor beeldherkenning, taalvertaling en een groot aantal andere taken, waaronder enkele voor bedrijven. Google zei onlangs dat het 'alles wat we aan het doen zijn' heroverweegt rond machine learning.

Computerwetenschappers maken modellen en schrijven algoritmen om machine-leersystemen te begeleiden, maar ze hebben grote gegevenssets nodig om die modellen te testen en te verbeteren.

Ze kunnen synthetische, kunstmatig gemaakte datasets gebruiken, maar die weerspiegelen niet de rommeligheid en het onvoorspelbare gedrag dat mensen online vertonen, zei Suju Rajan, Yahoo's onderzoeksdirecteur voor personalisatiewetenschap.

 "Real-world data is rommelig, het brengt veel uitdagingen met zich mee, en aan die uitdagingen wordt niet per se gedacht als iemand een kunstmatige dataset maakt", zei ze. 'Als je geen rekening houdt met mijn gedrag, werkt het algoritme dat je maakt misschien niet zo goed.'

Ze verwacht van wetenschappers dat ze de gegevens gebruiken om betere aanbevelingsengines te bouwen, zoals die op Netflix en Amazon. Maar ze zegt dat het ook andere onderzoeksgebieden kan aansturen, zoals het ophalen van informatie, het rangschikken van sociale feed en zelfs systems engineering, door cloudproviders te helpen beslissen hoe gegevens worden verwerkt terwijl gebruikers ermee omgaan.

De gebruikersgegevens zouden donderdag kunnen worden gedownload via Yahoo Labs 'Webscope-programma voor het delen van gegevens, een bibliotheek met geanonimiseerde gegevenssets voor niet-commercieel gebruik.

Het is gebaseerd op gebruikersinteracties met Yahoo News, Sports, Finance, Movies en Real Estate. De gegevens zijn begin vorig jaar gedurende vier maanden verzameld van 20 miljoen Yahoo-gebruikers. Naast de interactiegegevens bevat het gecategoriseerde demografische informatie, zoals leeftijdscategorie en geslacht, voor een subset van de gebruikers. Het geeft ook de titel, samenvatting en sleutelzinnen van de gerelateerde nieuwsartikelen vrij.

Yahoo zegt dat de vorige grootste dataset, vorig jaar uitgebracht door het online marketingbedrijf Criteo, 1 TB groot was en ongeveer 4 miljard evenementen omvatte.

Het zegt dat het doel is om het speelveld een beetje gelijk te maken voor academische onderzoekers, die vaak meer vrijheid hebben om langeafstandsprojecten na te streven dan hun collega's bij bedrijven, maar die de echte wereldgegevens missen om het mee te doen.

"Ze kunnen misschien problemen oplossen op een manier die we bij Yahoo kunnen gebruiken, of nieuwe onderzoeksproblemen bedenken waar we nog niet eens aan hebben gedacht", zei Rajan..

Word lid van de Network World-gemeenschappen op Facebook en LinkedIn om commentaar te geven op onderwerpen die voorop staan.