Come sfruttare metodi di apprendimento automatico (machine learning) per prevedere la mastite subclinica nelle bufale mediterranee italiane.

La mastite, infiammazione della ghiandola mammaria, ha effetti dannosi sull’industria lattiero-casearia mondiale, riducendo la salute degli animali, la produzione e la qualità del latte, nonché il reddito degli allevatori (Halasa et al., 2007). Inoltre, il crescente interesse dei consumatori per la sicurezza alimentare e un uso razionale degli antibiotici evidenzia la necessità di sviluppare nuove strategie per migliorare la prevenzione, il rilevamento, e la gestione di questa malattia.

Le bufale mediterranee (Bubalus bubalis) sono state generalmente considerate meno suscettibili alle infezioni mammarie rispetto alle vacche da latte, grazie alle caratteristiche morfologiche del canale del capezzolo e dello sfintere, che riducono la possibile invasione di agenti patogeni causa di mastite (Fagiolo e Lai, 2007). Tuttavia, anche il settore bufalino risente degli effetti di questa patologia (Puggioni et al., 2020).

Negli ultimi anni, sono stati compiuti numerosi sforzi per migliorare l’identificazione e la gestione delle mastiti nelle bufale da latte. La conta differenziale delle cellule somatiche (DSCC), ad esempio, è un nuovo parametro utilizzato per la diagnosi di mastite. Esso rappresenta la proporzione di linfociti e neutrofili sulla conta totale delle cellule somatiche (SCC), ed è stato introdotto come parametro di routine misurato nell’ambito dei controlli funzionali mensili. È stato dimostrato infatti come la combinazione di SCC e DSCC definisca meglio lo stato di salute della mammella dei bovini da latte e fornisca utili informazioni per un uso razionale degli antibiotici (Bobbo et al., 2020).

Un recente studio condotto da ricercatori dell’Università di Napoli, in collaborazione con l’Istituto di Biologia e Biotecnologia Agraria del Consiglio Nazionale delle Ricerche (sede di Milano), ha dimostrato come utilizzando le informazioni raccolte durante i controlli funzionali ed applicando analisi statistiche avanzate sia possibile prevedere la presenza/assenza di mastite subclinica

Oltre ai dati dei controlli mensili (codice allevamento, matricole animali, data del campionamento, produzione giornaliera e composizione del latte, SCC, DSCC, proprietà di coagulazione del latte, ecc.) forniti dall’Associazione Italiana Allevatori (Roma, Italia), sono stati utilizzati anche i dati climatici relativi all’area di campionamento, per prevedere quali animali avrebbero presentato un livello elevato o basso di SCC nel latte al controllo successivo. Tale scopo risulta perseguibile grazie all’utilizzo di algoritmi di apprendimento automatico (machine learning-ML) per analizzare i dati (Cockburn, 2020). I metodi ML consentono di identificare relazioni tra una variabile di risposta (es. sano/malato) ed una serie di altre variabili (es. SCC, DSCC, produzione di latte, ecc) e di sfruttare queste informazioni per “addestrare” diversi modelli di predizione e valutare le loro performances su dati sconosciuti. Gli animali presi in esame sono stati classificati come sani (SCC ≤ 200.000 cellule/mL) o mastitici (SCC >200.000 cellule/mL). La soglia di 200.000 cellule/mL è stata selezionata sulla base della letteratura pubblicata. La prevalenza di mastite subclinica (SCC >200.000 cellule/mL) identificata nei dati a disposizione è stata del 40,3%.

Il set di dati originale, che includeva i record raccolti da Agosto 2019 a Febbraio 2021, è stato editato per selezionare gli animali con almeno 2 controlli funzionali per lattazione e con meno di 360 giorni di lattazione. Il set di dati editato comprendeva 3.891 record provenienti da 1.038 bufale appartenenti a 6 allevamenti situati nella Regione Basilicata. Sono state considerate complessivamente 27 variabili: ordine di parto (da 1 a ≥6), stadio di lattazione (DIM: 10 classi, 9 di 30 gg ciascuna e l’ultima comprendente DIM >300 gg), anno e mese di parto (18 livelli), anno e mese di campionamento (10 livelli), produzione di latte, grasso, proteina, caseina, lattosio, pH, urea, punteggio delle SCC (SCS), DSCC, beta-idrossibutirrato, conducibilità elettrica, produzione di latte media e SCS medio degli animali campionati nello stesso allevamento e nello stesso giorno,  le proprietà di coagulazione del latte e 8 parametri climatici (radiazione solare, indice UV, temperatura, umidità relativa, precipitazioni, pressione, velocità e direzione del vento).

I modelli di predizione della mastite sono stati sviluppati utilizzando 4 diversi algoritmi ML (Generalized Linear Models-GLM, Support Vector Machines-SVM, Random Forest-RF e Neural Network-NN) e 2 approcci di suddivisione del set di dati per la creazione di un set per la fase di training e validazione (80% dei dati) e un set per la fase di testing (20%). La divisione dei dati è stata eseguita per record (gli stessi animali possono essere inclusi nei set di training e testing) o per matricola (i set di training e testing includono animali diversi). Nella fase di apprendimento (training) ciascun modello osserva, apprende le relazioni tra le variabili (le informazioni raccolte al controllo funzionale precedente) e la variabile di risposta (SCC alte o basse al controllo successivo), e cerca di formulare delle previsioni sulla base di quanto imparato. Una volta terminata la fase di apprendimento, l’accuratezza di predizione degli algoritmi viene testata su un set validazione, ottenuto attraverso procedure di ricampionamento. Una volta ottenute delle buone performances sui set di training e validazione, è stato possibile testare ulteriormente i modelli su osservazioni nuove appartenenti al set di testing (il rimanente 20% dei dati non utilizzato per la costruzione dei modelli).

Il confronto delle prestazioni di predizione dei 4 algoritmi ML sul set di validazione si è basato sui valori di accuratezza e kappa (Figura 1). Suddividendo i dati per record, l’accuratezza variava tra il 75,4% (NN) e il 76,1% (SVM) e il kappa tra 0,476 (NN) e 0,489 (SVM) (Figura 1a). Suddividendo i dati per matricola, sono stati riportati valori leggermente inferiori, con una accuratezza che va dal 74,8% (RF) al 75,3% (SVM) e kappa da 0,446 (RF) a 0,457 (GLM) (Figura 1b). In entrambi i casi, SVM è stato il metodo migliore per prevedere SCC alte o basse al successivo controllo funzionale, e quindi è stato utilizzato per stimare il contributo di ciascuna variabile al modello migliore.

 

Figura 1. Confronto delle performances (accuratezza-accuracy e valore kappa) di quattro diversi algoritmi machine learning (Generalized Linear Models-glmnet, Support Vector Machines-svmRadial, Random Forest-rf e Neural Network-nnet) nel predire lo stato di salute della mammella, dividendo i set di dati per a) record o b) matricola.

Indipendentemente dall’approccio di suddivisione del set di dati, le variabili più importanti sono risultate, come atteso, le SCS, le DSCC, la conducibilità elettrica e la produzione di latte. Tra i parametri climatici, i più informativi sono stati la temperatura e l’umidità relativa (Figura 2). L’influenza di variabili climatiche quali temperatura, umidità relativa e radiazioni solari sulla produzione e la composizione del latte è già stata precedentemente riportata in letteratura. È stato visto, infatti, come l’inclusione di parametri meteorologici (ad es. precipitazioni, ore di sole e temperatura del suolo) nei modelli di predizione della produzione di latte comporti un leggero miglioramento dell’accuratezza di predizione (Zhang et al., 2020). Il metodo NN si è rivelato invece il più performante per le predizioni sul set di testing, con una accuratezza di 75.4% e un valore kappa di 0,480 dividendo i dati per record, e con una accuratezza del 76,2% e un valore kappa di 0,518 dividendo i dati per matricola. Il leggero miglioramento delle prestazioni predittive osservato dividendo i dati per matricola suggerisce come questo sia l’approccio di suddivisione dei dati più appropriato in presenza di misure ripetute.

 

Figura 2. Grafico sull’importanza delle variabili, scalato da 0 (meno importante) a 100 (più importante), che mostra la classifica per la previsione della presenza o dell’assenza di mastite subclinica nel set di validazione, ottenuta suddividendo il set di dati a) per record e b) per matricola. Le variabili valutate, utilizzando Support Vector Machines come metodo predittivo, sono le seguenti: punteggio delle cellule somatiche individuale e media degli animali campionati nello stesso allevamento e nello stesso giorno (SCS e SCS_HTD); conta differenziale delle cellule somatiche (DSCC); conducibilità elettrica (EC); produzione di latte individuale e media degli animali campionati nello stesso allevamento e nello stesso giorno (milk e milk_HTD); ordine di parto (parity); stadio di lattazione (DIM); composizione del latte, che includeva urea, pH, lattosio (lactose), grasso (fat), caseina (casein), proteina (protein); beta-idrossibutirrato (BHB); anno e mese di campionamento (yms); anno e mese di parto (ymc); tempo di coagulazione presamica (r); consistenza della cagliata 30 min dopo l’aggiunta di caglio (a30); e variabili climatiche, che comprendono temperatura (temperature), umidità relativa (rel-humidity), radiazione solare (irradiance), indice UV (UV index), pressione (pressure), precipitazioni (precipitation) velocità del vento (wind_speed), e direzione del vento (wind-direction).

I risultati di questo studio hanno confermato come i metodi ML siano uno strumento promettente per migliorare la prevenzione e la sorveglianza della mastite subclinica, sfruttando la grande quantità di dati attualmente disponibili. L’implementazione pratica di queste metodologie nei sistemi di gestione del settore lattiero-caseario porterà sicuramente al miglioramento della gestione di questa patologia.

Bibliografia

  • Bobbo, T., Penasa, M., Cassandro, M., 2020. Combining total and differential somatic cell count to better assess the association of udder health status with milk yield, composition and coagulation properties in cattle. Italian Journal of Animal Science 19, 697–703. https://doi.org/10.1080/1828051X.2020.1784804
  • Cockburn, M., 2020. Review: Application and Prospective Discussion of Machine Learning for the Management of Dairy Farms. Animals 10, 1690. https://doi.org/10.3390/ani10091690
  • Fagiolo, A., Lai, O., 2007. Mastitis in buffalo. Italian Journal of Animal Science 6, 200–206. https://doi.org/10.4081/ijas.2007.s2.200
  • Halasa, T., Huijps, K., Østerås, O., Hogeveen, H., 2007. Economic effects of bovine mastitis and mastitis management: A review. Veterinary Quarterly 29, 18–31. https://doi.org/10.1080/01652176.2007.9695224
  • Puggioni, G.M.G., Tedde, V., Uzzau, S., Guccione, J., Ciaramella, P., Pollera, C., Moroni, P., Bronzo, V., Addis, M.F., 2020. Evaluation of a bovine cathelicidin ELISA for detecting mastitis in the dairy buffalo: Comparison with milk somatic cell count and bacteriological culture. Research in Veterinary Science 128, 129–134. https://doi.org/10.1016/j.rvsc.2019.11.009
  • Zhang, F., Upton, J., Shalloo, L., Shine, P., Murphy, M.D., 2020. Effect of introducing weather parameters on the accuracy of milk production forecast models. Information Processing in Agriculture 7, 120–138. https://doi.org/10.1016/j.inpa.2019.04.004

Sinossi di: Bobbo, T., Matera, R., Pedota, G., Manunza, A., Cotticelli, A., Neglia, G., & Biffani, S. (2022). Exploiting machine learning methods with monthly routine milk recording data and climatic information to predict subclinical mastitis in Italian Mediterranean buffaloes. Journal of Dairy Science, S0022030222007561. https://doi.org/10.3168/jds.2022-22292

A cura di Roberta Matera (a) e Tania Bobbo (b)

a) Dipartimento di Medicina Veterinaria e Produzioni Animali (DMVPA)- Università degli Studi di Napoli Federico II

b) Consiglio Nazionale delle Ricerche (CNR), Istituto di Biologia e Biotecnologia Agraria (IBBA), 20133 Milan, Italy