De beste openbare databronnen voor Machine Learning

openbare databronnen

Er is veel open data in Nederland, maar een gedeelte is echt bruikbaar voor machine learning. Veel bronnen zijn interessant om een dashboard mee te bouwen, of een representatie op een kaart. Veel open data is verouderd, of een minimale subset. Maar er is weinig open data beschikbaar die direct gebruikt kan worden voor machine learning.

Om ML toe te passen op data, moet de data de volgende indeling hebben: x1, x2, x3, x4, ……..y1, y2, y3. Ofwel een output moet gerelateerd zijn aan een aantal input parameters.

Algemene open data websites zijn:

OpendataNederland.org: deze website heeft een mooi en duidelijk overzicht van de meeste grote open data bronnen, en daarbij ook een beschrijving met welke tool de bron het beste benaderd kan worden. Echt interessante actuele databestanden zijn:

O.a. Liander, Enexis en Stedin hebben allen hun kleinverbruikersdata beschikbaar gesteld, evenals veel meer volledige en actuele data

Overheidsorganisaties zoals RDW (mobiliteits- en kentekendata) KvK (geanonimiseerde handelsregister), CBS (Statline met grootste dataverzameling van NL) en RIVM

Geografische open data van o.a. het Kadaster (Grootschalige topografische kaart, basisregistratie adressen, gebouwen), maar ook luchtfoto’s kunnen gevonden worden via PDOK.

Zorgdata kan o.a. gevonden via Vektis (kosten zorg per postcode), het CBS, RIVM.

Hele goede Amerikaanse databronnen voor machine learning kunnen gevonden worden bij Kaggle en Stanford University. Deze laatste bevat grote datasets van social networks. Deze wikipedia pagina bevat alle openbare databronnen waarmee ML-experimenten opgezet kunnen worden, waaronder ook de MNIST database met images van handgeschreven cijfers (t.b.v. character recognition)

Er zijn ook databronnen die direct gerelateerd zijn aan Machine Learning frameworks, zoals bij Keras, Tensorflow, PyTorch, Scikit-learn, Caffe2, CNTK en MXNet

Zoeken
Gerelateerde pagina's
Contactpersoon