Gebruik van Machine Learning om de keuze van vervoersmodus voor goederen te voorspellen
Inzicht krijgen in hoe beslissingen over de vervoersmodus voor goederen worden genomen, is noodzakelijk voor het ontwikkelen van effectief transportbeleid en het voorspellen van toekomstige goederenvraag. In vergelijking met traditionele Multinomial Logit (MNL)-modellen bieden machine learning-methoden de mogelijkheid tot betere voorspellende prestaties, dankzij hun vermogen om complexere, niet-lineaire relaties tussen factoren die de keuze van vervoersmodus beïnvloeden, vast te leggen.
Bij Panteia is onlangs een project uitgevoerd waarin het gebruik van machine learning is onderzocht om de keuze van vervoersmodus voor goederenvervoer in de Europese Unie te modelleren. Nauwkeurigere voorspellingen kunnen leiden tot betere prognoses en uiteindelijk tot beter onderbouwde beleidsaanbevelingen voor het beheer van goederenvervoer en het verschuiven van goederen naar duurzamere modaliteiten.
Drie machine learning-algoritmen (logistische regressie, Random Forest en XGBoost) werden getraind op geaggregeerde EU-goederenstroomgegevens, die de tonnages vertegenwoordigen die per weg, spoor en binnenvaart tussen regio’s worden vervoerd. Hierbij werden verklarende factoren zoals kosten, afstand, soort goederen en regionale kenmerken meegenomen. De modellen behaalden een algemene nauwkeurigheid tussen 89% en 92%. De prestaties waren het sterkst voor vervoer over de weg — de meest gebruikte modus — en lager voor de minder frequente binnenvaart- en spoorcategorieën, een veelvoorkomende uitdaging bij onevenwichtige datasets. Als gevolg van deze klassenonevenwichtigheid varieerden de F1-scores (het harmonisch gemiddelde van precisie en recall) tussen 0,59–0,61 voor binnenvaart, 0,61–0,75 voor spoor en 0,94–0,96 voor wegvervoer.
Eerdere studies maakten uitsluitend gebruik van niet-geaggregeerde zendingniveaugegevens, die gedetailleerde informatie bevatten waar machine learning-methoden gebruik van kunnen maken voor hoge voorspellingsnauwkeurigheid. Dit onderzoek breidt de bestaande kennis uit door aan te tonen dat modellen die op geaggregeerde gegevens zijn getraind ook betekenisvolle resultaten kunnen opleveren.
Toekomstig werk kan zich richten op het verbeteren van de datakwaliteit (bijvoorbeeld door schattingen op te nemen voor regio’s met beperkte gegevens), het opnemen van extra verklarende variabelen en het onderzoeken van hybride modelleringsbenaderingen die de interpreteerbaarheid van MNL combineren met de voorspellingskracht van machine learning. Met deze ontwikkelingen kunnen machine learning-modellen worden toegepast in scenarioanalyses om de mogelijke effecten van nieuw transportbeleid te evalueren, zoals infrastructuurinvesteringen of maatregelen voor kilometerheffing.
Dit onderzoek maakte deel uit van een (Engelstalige) masterthesis, die hier te vinden is.