A new version of this entry is available:

Loading...
Thumbnail Image
Doctoral Thesis
2025

Design evaluation and predictive accuracy of multi-environment trials in plant breeding

Abstract (English)

In plant breeding, predictive accuracy of genotype means in the target population of environment (TPE) can be improved through proper experimental design and statistical analysis. During experimentation, blocking and randomization are expected to handle the major source of heterogeneity in the field. When heterogeneity exist in both directions, across row and column, two-way blocking is necessary to ensure homogeneity within blocks. Several trials need to be conducted in the TPE to generalize information. The TPE can be divided to form zonation that allows for borrowing information between zones when fitting genotypes as random and to allow for the zone-specific recommendation. The multi-environment trials (MET) data analysis can follow either one-stage or stage-wise analysis where in the latter case, information from individual trials is forwarded to the next stage of analysis. The linear mixed models (LMM) is commonly used in the MET data analysis. Furthermore, auxiliary information from the locations, particularly soil information and weather data can be integrated to MET data analysis to improve predictive accuracy. In general, the objective of this thesis was to improve predictive accuracy of modeling MET data based on different approaches of integrating ECs and pedigree information. Different spatial model selection and design evaluation was conducted in the second chapter using existing MET data from dry lowland sorghum breeding program of Ethiopia. Randomization based model, augmenting randomization-based model with linear variance and exponential spatial variations were compared in partially replicated and fully replicated row- column designs using Akaike information criterion (AIC). The baseline model with a two- dimensional nonlinear spatial model plus nugget improved the fitted model in many trials. In addition, the randomization-based plus two-dimensional linear variance model was also a good candidate model. According to the AIC, it is difficult to find a specific model that suits all the trials. Therefore, trying different spatial models and select the best fit model per trial could be a solution. Evaluation of the current design practice was also assessed in the same chapter through generating alternative designs by restructuring the blocking units and computing the relative efficiency. The relative efficiency results indicate most of the alternative alpha designs with block sizes of five, six, ten, fifteen, and the alternative row-column designs were more efficient when compared to the current practice. In the third chapter, a method of extracting and fitting synthetic environmental covariates (SCs) and pedigree information in multi-location trials data analysis was investigated. The main goal of this chapter was comparing predictive accuracy of LMM without pedigree information and SCs and with pedigree or/and SC to predict genotype performances in untested locations. The SCs were extracted from the actual ECs by using multivariate partial least squares (PLS) analysis. Then, subsequently we fitted in the LMM assuming the random coefficients of genotypes. An unstructured variance-covariance matrix of the random intercept and slope(s) was considered to ensure translational invariance. For the model with pedigree information, the baseline model with the independent genotype effect was modified to allow correlation between genotype through parents. For the GEI effect, the identity, the diagonal and the FA variance-covariance structures were considered. The mean squared error of prediction differences (MSEPD) and Spearman rank correlation shows that integrating the SCs in MET improve predictive accuracy of the model compared to the model without SCs. In all different variance-covariance structures of the GEI models, integrating SC was beneficial. There is also improvement with modelling pedigree information using diagonal and FA variance-covariance structures for genotype-environment effects. The diagonal variance-covariance structure of the GEI with the SC is the most accurate model in predicting genotype means to the new locations. In Chapter 4, the predictive accuracy under different approaches of fitting ECs in predicting genotypic performance in new environments was evaluated. The kinship matrix based on ECs, reduced rank regression and extended Finlay-Wilkinson approaches were evaluated and compared in predicting genotype means. Among the others, the reduced rank regression approach showed the smallest MSEPD. The limitation with this approach is that there are singularity problems when the number of ECs exceeds the number of environments. For this reason, a variable selection by using multivariate PLS was conducted to consider only the very important covariates in the subsequent modelling. Over all, there is a substantial gain in predictive accuracy in considering ECs compared to the model without ECs. In addition, we evaluated the importance of fitting the geographic zone factor, however, the result shows less improvement compared to the model without the zone factor. This result may be related to a smaller number of trials in some of the zones. One limitation with the data set when considering the zone effect is that only few trials remained in the western and northern zones after removing trials with zero genotype variances during individual trials analysis. The southern zone comprises the majority of the trials. The optimum allocation of trials to the zones was also tried based on the variance-covariances of the genotype -by-zone interactions. In chapter 3 and 4, when predicting genotype performance to new environments, the drop-out-one-environment at a time cross-validation (CV) mechanism was considered. This type of CV mimics the prediction for new environments and assesses uncertainty in model prediction. In conclusion, this study developed methods for improving the accuracy of genotypic performance prediction models in METs by improving the design efficiency in ongoing breeding programs through post-blocking mechanism, by fitting spatial models to capture spatial field trends in an experiment, and by using ECs, SCs and pedigree information.

Abstract (German)

In der Pflanzenzüchtung kann die Vorhersagegenauigkeit von Genotypmittelwerten für eine Population von Zielumwelten (TPE) durch eine geeignete Versuchsplanung und eine geeignete statistische Analyse verbessert werden. Bei der Durchführung von Versuchen wird erwartet, dass Blockbildung und Randomisation den Großteil der Heterogenität im Feld beseitigen kann. Wenn Heterogenität in beiden Dimensionen, d. h. sowohl in Richtung der Zeilen als auch in Richtung der Spalten, besteht, ist eine Blockbildung mit zwei orthogonal zueinander liegenden Blockstrukturen erforderlich, um die Homogenität innerhalb der Blöcke zu gewährleisten. Um Informationen zu verallgemeinern, müssen mehrere Versuche in der TPE durchgeführt werden. Zusätzlich kann die TPE in Zonen unterteilt werden. Bei der Anpassung von zufälligen Genotypeffekte können dann pro Zone und Genotyp Mittelwerte geschätzt werden. Für die Mittelwerte eines Genotyps über die Zonen kann eine gemeinsame Varianz-Kovarianzstruktur angepasst warden. Diese ermöglicht es Informationen zwischen den Zonen zu leihen und für eine zonenspezifische Empfehlung zu berücksichtigen. Die Datenanalyse von Versuchsserien (multi-environmental trials; MET) kann entweder in einem Schritt oder in mehreren Schritten erfolgen. Im letzteren Fall wird die Informationen aus der Einzelversuchsauswertung an die nächste Analysestufe weitergegeben. Bei der Analyse von MET-Daten werden in der Regel lineare gemischte Modelle (LMM) verwendet. Um die Vorhersagegenauigkeit zu verbessern können Zusatzinformationen von den Standorten, insbesondere Bodeninformationen und Wetterdaten, in die MET-Datenanalyse integriert werden. Das Ziel dieser Arbeit war die Vorhersagegenauigkeit bei der Modellierung von MET- Daten mit Hilfe verschiedener Ansätze zur Integration von Umweltkovariablen und Abstammungsinformationen zu verbessern. Im zweiten Kapitel wurden MET-Daten aus dem Sorghumzuchtprogramm für Trockenstandorte im äthiopischen Tiefland zum Vergleich von verschiedenen geostatistischen Modellen verwendet. Die Versuche waren als auflösbare oder nicht-auflösbare Zeilen-Spalten- Pläne mit vollständigen Wiederholungen oder als partiell wiederholte Versuche angelegt. An die Daten wurde ein Modell mit unabhängigen Fehlern sowie Modelle mit korrelierten Fehlern angepasst. Verwendet wurden Modelle mit einer mit der Distanz linear und exponentiell abnehmenden Korrelation angepasst. Als Evaluationskriterium wurde das Akaike- Informationskriteriums (AIC) verwendet. Das Basismodell mit einer zweidimensionalen autoregressiven räumlichen Fehlerstruktur zusätzlich zu einem unabhängigen Fehler verbesserte die Modellanpassung in vielen Versuchen. Auch ein räumliches Modell mit linear abnehmender Korrelation in zwei Richtung führte zu guten Anpassungen. Allerdings ist es schwierig, mittels AIC ein generell bestes Modell für alle Versuche zu finden. Daher könnte es eine Lösung sein, für jeden Versuch verschiedene räumliche Modelle auszuprobieren und das am besten geeignete Modell versuchsspezifisch auszuwählen. Zusätzlich wurden im selben Kapitel auch alternative Versuchspläne untersucht und hinsichtlich der relativen Effizienz verglichen. Die Ergebnisse der relativen Effizienz zeigen, dass die meisten der alternativen Alpha-Designs mit Blockgrößen von fünf, sechs, zehn und fünfzehn Parzellen pro Block sowie die alternativen Zeilen-Spalten-Pläne im Vergleich zur derzeitigen Praxis effizienter waren. Im dritten Kapitel wurde eine Methode zur Extraktion und Anpassung von synthetischen Umweltkovariaten (SCs) und die Integration von Stammbauminformationen in die Datenanalyse von Versuchen an mehreren Standorten untersucht. Das Hauptziel dieses Kapitels war der Vergleich der Vorhersagegenauigkeit von LMM ohne Stammbauminformationen und ohne SC mit der Vorhersagegenauigkeit mit Stammbauminformation und / oder SC zur Vorhersage von Genotypleistungen an ungeprüften Standorten. Die SC wurde aus den tatsächlichen ECs mit Hilfe der multivariaten partiellen Kleinstquadratschätzung (PLS) extrahiert. Anschließend wurde das LMM unter der Annahme zufälliger Genotypeffekte angepasst. Für den zufälligen Achsenabschnitt und den Steigungsparameter wurde eine gemeinsame unstrukturierte Varianz-Kovarianz-Matrix angepasst, um Translationsinvarianz zu gewährleisten. Für das Modell mit Stammbauminformationen wurde das Basismodell mit dem unabhängigen zufälligen Genotypeffekt modifiziert, um eine Korrelation zwischen den Genotypen über die Eltern zu ermöglichen. Für den GEI-Effekt wurden drei Varianz-Kovarianzstrukturen modelliert: Identität mit Unabhängigkeit und homogener Varianz, eine Diagonalmatrix mit Unabhängigkeit und umweltspezifischer Varianz und eine faktorenanalytische (FA) Varianz- Kovarianz-Struktur. Der mittlere quadratische Fehler der Vorhersagedifferenzen (MSEPD) und die Spearmansche Rangkorrelation zeigen, dass die Nutzung der SC in MET die Vorhersagegenauigkeit des Modells im Vergleich zu dem Modell ohne SC verbessert. Bei allen drei Varianz-Kovarianz-Strukturen der GEI-Modelle war die Integration von SC von Vorteil. Es gibt auch eine Verbesserung bei der Modellierung von Stammbauminformationen mit diagonalen und FA Varianz-Kovarianz-Strukturen für GEI-Effekte. Die diagonale Varianz- Kovarianz Struktur für die GEI mit Nutzung der SC ist das beste Modell bei der Vorhersage der Genotyp-Mittelwerte für die neuen Standorte. In Kapitel 4 wurde die Genauigkeit verschiedener Ansätze zur Nutzung von ECs bei der Vorhersage der genotypischen Leistung in neuen Umwelten bewertet. Die auf ECs basierende Verwandtschaftsmatrix, die reduzierte Rangregression und die erweiterten Finlay-Wilkinson- Regression wurden bei der Vorhersage der Genotypmittelwerte verglichen. Unter den genannten Ansätzen zeigte die reduzierte Rangregression den kleinsten MSEPD. Allerdings gibt es Singularitätsprobleme, wenn die Anzahl der ECs die Anzahl der Umwelten übersteigt. Aus diesem Grund wurde eine Variablenselektion unter Verwendung des multivariaten PLS durchgeführt, um die wichtigen Kovariaten für die nachfolgenden Modellierung zu selektieren. Insgesamt ist die Vorhersagegenauigkeit bei der Berücksichtigung von ECs im Vergleich zum Modell ohne ECs erheblich gestiegen. Darüber hinaus haben wir die Bedeutung der Berücksichtigung des geografischen Zonenfaktors bewertet. Das Ergebnis zeigt jedoch eine geringere Verbesserung im Vergleich zu dem Modell ohne den Zonenfaktor. Dieses Ergebnis könnte mit einer geringeren Anzahl von Versuchen in einigen Zonen zusammenhängen, da bei diesem Verfahren Versuche mit einer auf Null geschätzten Genotypvarianz von der Auswertung ausgeschlossen wurden. Hierdurch gab es bei der Analyse nur wenige Versuche, die in den westlichen und nördlichen Zonen verblieben sind. Die südliche Zone umfasst die Mehrzahl der Versuche. Die optimale Zuteilung der Versuche zu den Zonen wurde auch auf der Grundlage der Varianzen und Kovarianzen der Wechselwirkungen zwischen Genotyp und Zone untersucht. In den Kapiteln 3 und 4 wurde bei der Vorhersage der Leistung von Genotypen in neuen Umwelten eine Kreuzvalidierung (CV) verwendet. Bei dieser wurde jeweils eine Umwelt aus dem Datensatz herausgenommen und anschließend über die verbleibenden Daten geschätzt. Diese Art der CV ahmt die Vorhersage für neue Umwelten nach und bewertet die Unsicherheit der Modellvorhersage. Zusammenfassend wurden in dieser Studie Methoden zur Verbesserung der Genauigkeit von Modellen zur Vorhersage der genotypischen Leistung in METs entwickelt, indem (i) die Effizienz der Planung in laufenden Zuchtprogrammen durch einen Post-Blocking- Mechanismus verbessert wird, indem (ii) räumliche Modelle zur Erfassung räumlicher Feldtrends in einem Experiment angepasst werden und indem (iii) ECs, SCs und Stammbauminformationen verwendet werden.

File is subject to an embargo until

This is a correction to:

A correction to this entry is available:

This is a new version of:

Other version

Notes

Publication license

Publication series

Published in

Other version

Faculty

Faculty of Agricultural Sciences

Institute

Institute of Crop Science

Examination date

2025-06-17

Edition / version

Citation

DOI

ISSN

ISBN

Language

English

Publisher

Publisher place

Classification (DDC)

630 Agriculture

Original object

Free keywords

Standardized keywords (GND)

Sustainable Development Goals

BibTeX

@phdthesis{Gudata2025, url = {https://hohpublica.uni-hohenheim.de/handle/123456789/17886}, author = {Gudata, Diriba Tadese}, title = {Design evaluation and predictive accuracy of multi-environment trials in plant breeding}, year = {2025}, }

Share this publication