UGent-onderzoek ziet gaten in AI voor landbouw: slechts 6% van de modellen is robuust
nieuwsHet lijkt alsof artificiële intelligentie werkelijk alles kan, maar voor landbouw is dat voorlopig niet het geval. Dat blijkt uit een studie van de Vakgroep Plant & Gewas aan de UGent. Zo verschijnen er veel wetenschappelijke artikels die gebruikmaken van AI om plantenziekten en plagen op te sporen via dronebeelden. De resultaten lijken indrukwekkend, maar volgens de UGent-studie zijn deze resultaten veelal afkomstig van dezelfde percelen waarop deze AI-modellen zijn getraind. Zodra deze modellen worden losgelaten op nieuwe percelen, loopt het vaak mis. Volgens de onderzoekers moeten ook wetenschappelijke tijdschriften kritischer omgaan met studieresultaten.
Volgens de vakgroep van UGent werken de AI-toepassingen niet zo goed wanneer ze werken buiten de dataset waarop de modellen werden ontwikkeld. Zo blijkt uit een grootschalige analyse van een afgelopen onderzoek. Hoewel diverse studies beweerden een revolutionaire AI-toepassing te hebben ontwikkeld, hield slechts zes procent van de onderzochte modellen stand wanneer ze moesten presteren met nieuwe, niet eerder geziene data.
Waar ligt het probleem?
Dronebeelden gecombineerd met AI worden in veel studies voorgesteld als dé oplossing voor de snelle detectie van ziekten en plagen in landbouwgewassen. Volgens de UGent-onderzoekers schuilt er achter veel van deze studies een fundamenteel probleem. In maar liefst 89 procent van de onderzochte studies werden de ontwikkelde modellen niet getest op een onafhankelijke dataset. Vaak werden in de uiteindelijke tests dezelfde percelen gebruikt als die voor het trainen en testen van het model. In driekwart van de studies was het hele model gebouwd op datasets van één enkel perceel. In de praktijk werken deze toepassingen vaak alleen maar op het perceel van de onderzoekers, en nergens anders.
Overfitting in plaats van generalisatie
Dat zoveel AI-ontwikkelingen hun grote beloften niet waarmaken, heeft volgens professor Wouter Maes twee duidelijke verklaringen. “Ten eerste is er overfitting. Met een beperkte dataset op een enkel veld leert het model mogelijk toevallige kenmerken herkennen van de trainingsdata, in plaats van relevante kenmerken”, zegt hij. “Ten tweede kunnen symptomen ook erg verschillen tussen verschillende cultivars (een plantengroep ontstaan door menselijke selectie, red.), verschillende jaren of groeiomstandigheden. Ook dat moet je zo’n model aanleren; maar dat gebeurt dus niet. Als je de datasets beperkt tot één enkel veld, lijken de modellen dus bijzonder accuraat. Terwijl ze in werkelijkheid onvoldoende robuust zijn om toegepast te worden op andere percelen, seizoenen of omstandigheden."
Dat de academische wereld zo'n AI-onderzoek met duidelijke mankementen toch kritiekloos aanvaardt, heeft een reden. Volgens hoofdauteur Eline Eeckhout ligt de verantwoordelijkheid hiervoor niet uitsluitend bij de individuele onderzoeksgroepen. “Onze analyse toont aan dat studies met onafhankelijke testsets niet vaker gepubliceerd worden in prestigieuze tijdschriften, en ook niet meer geciteerd worden door collega’s, dan studies zonder dergelijke validatie. Bovendien besteden bestaande reviewartikelen weinig aandacht aan de kwaliteit van de validatiemethoden en focussen ze voornamelijk op gerapporteerde nauwkeurigheidscijfers. En die liggen vaak heel hoog bij studies die trainen en testen op dezelfde dataset. Het is echt een systemisch probleem."
Betrouwbaarheid diverse AI-toepassingen in vraag
Hoewel de studie zich richt op de detectie van ziekten en plagen via dronebeelden, zien de onderzoekers gelijkaardige problemen opduiken in ander AI-onderzoek, zowel binnen de landbouw als daarbuiten.
De studie pleit voor een fundamentele koerswijziging. Ze raden onderzoekers aan om data te verzamelen op meerdere percelen en meerdere seizoenen, en om minstens één perceel volledig apart te houden voor het testen van het model. Het delen van datasets en modellen is ook belangrijk om robuustere toepassingen mogelijk te maken. “Maar er zijn ook lessen voor tijdschriften en editors”, stellen de onderzoekers. “Die moeten van onafhankelijke testsets de wetenschappelijke standaard maken en het delen van datasets en modellen stimuleren.”