Comparison of omics technologies for hybrid prediction

Westhues, Matthias

Doctoral Thesis

2019

Comparison of omics technologies for hybrid prediction

Westhues, Matthias

druckversion_dissertation_westhues.pdf (193.44 KB)

Abstract (English)

One of the great challenges for plant breeders is dealing with the vast number of putative candidates, which cannot be tested exhaustively in multi-environment field trials. Using pedigree records helped breeders narrowing down the number of candidates substantially. With pedigree information, only a subset of candidates need to be subjected to exhaustive tests of their phenotype whereas the phenotype of the majority of untested relatives is inferred from their common pedigree. A caveat of pedigree information is its inability to capture Mendelian sampling and to accurately reflect relationships among individuals. This shortcoming was mitigated with the advent of marker assays covering regions harboring causal quantitative trait loci. Today, the prediction of untested candidates using information from genomic markers, called genomic prediction, is a routine procedure in larger plant breeding companies. Genomic prediction has revolutionized the prediction of traits with complex genetic architecture but, just as pedigree, cannot properly capture physiological epistasis, referring to complex interactions among genes and endophenotypes, such as RNA, proteins and metabolites. Given their intermediate position in the genotype-phenotype cascade, endophenotypes are expected to represent some of the information missing from the genome, thereby potentially improving predictive abilities. In a first study we explored the ability of several predictor types to forecast genetic values for complex agronomic traits recorded on maize hybrids. Pedigree and genomic information were included as the benchmark for evaluating the merit of metabolites and gene expression data in genetic value prediction. Metabolites, sampled from maize plants grown in field trials, were poor predictors for all traits. Conversely, root-metabolites, grown under controlled conditions, were moderate to competitive predictors for the traits fat as well as dry matter yield. Gene expression data outperformed other individual predictors for the prediction of genetic values for protein and the economically most relevant trait dry matter yield. A genome-wide association study suggested that gene expression data integrated SNP interactions. This might explain the superior performance of this predictor type in the prediction of protein and dry matter yield. Small RNAs were probed for their potential as predictors, given their involvement in transcriptional, post-transcriptional and post-translational regulation. Regardless of the trait, small RNAs could not outperform other predictors. Combinations of predictors did not considerably improve the predictive ability of the best single predictor for any trait but improved the stability of their performance across traits. By assigning different weights to each predictor, we evaluated each predictors optimal contribution for attaining maximum predictive ability. This approach revealed that pedigree, genomic information and gene expression data contribute equally when maximizing predictive ability for grain dry matter content. When attempting to maximize predictive ability for grain yield, pedigree information was superfluous. For genotypes having only genomic information, gene expression data were imputed by using genotypes having both, genomic as well as gene expression data. Previously, this single-step prediction framework was only used for qualitative predictors. Our study revealed that this framework can be employed for improving the cost-effectiveness of quantitative endophenotypes in hybrid prediction. We hope that these studies will further promote exploring endophenotypes as additional predictor types in breeding.

Abstract (German)

Eine der größten Herausforderungen der Pflanzenzüchtung ist der Umgang mit der enormen Anzahl von Kandidaten, die nicht vollständig in mehrortigen Versuchen geprüft werden können. Die Nutzung von Verwandtschaftsbeziehungen hilft Züchtern die Anzahl dieser Kandidatennerheblich zu reduzieren. In diesem Fall muss nur ein Teil der Kandidaten phänotypisch geprüft werden. Für die übrigen, ungetesten Verwandten wird der Phänotyp hingegen mit Hilfe des Stammbaums vorhergesagt. Ein Nachteil von Stammbauminformationen ist, dass sie Zufallsprozesse Mendelscher Vererbung nicht erfassen und somit nicht präzise die genetische Ähnlichkeit zwischen Individuen wiedergeben.Die Nutzung von Marker-Chips, welche Genomregionen mit kausaler Beziehung zur Ausprägung phänotypischer Merkmale abdecken, konnte an dieser Stelle eine Verbesserung erzielen. Inzwischen ist die Nutzung von Markerinformationen zur Vorhersage ungetester Kandidaten - gemeinhin als Genomische Selektion bezeichnet - in größeren Pflanzenzüchtungsunternehmen bereits Routine. Genomische Selektion hat die Vorhersage von Merkmalen mit komplexer genetischer Architektur revolutioniert. Wie Stammbauminformationen, so können auch genomische Informationen physiologische Epistasie, welche komplexe Interaktionen zwischen Genen und Endophänotypen wie RNA, Proteinen und Metaboliten beschreibt, nicht adäquat abbilden. Aufgrund ihrer Einbettung innerhalb der Genotyp-Phänotyp-Kaskade wird erwartet, dass sie Informationen, die nicht durch das Genom repräsentiert werden, abbilden. Auf diesem Weg könnten Endophänotypen möglicherweise die Vorhersagegenauigkeit gegenüber genomischen Informationen verbessern. In einer ersten Studie untersuchten wir die Eignung unterschiedlicher Klassen von Prädiktoren zur Vorhersage genetischer Werte für komplexe agronomische Merkmale bei Hybridmais. Stammbaum- sowie genomische Informationen wurden als Referenz zur Bewertung der Eignung von Metabolit- und Genexpressionsdaten für die Vorhersage genetischer Werte herangezogen. Metabolite, die von Maispflanzen aus dem Feld entnommen wurden, erwiesen sich als wenig geeignet für die Vorhersage der untersuchten Merkmale. Im Gegensatz dazu erwiesen sich Wurzelmetabolite, entnommen von Maispflanzen, welche unter kontrollierten Bedingungen im Gewächshaus angezogen wurden, als akzeptable Prädiktoren für die Vorhersage der Merkmale "Fett" und "Trockensubstanzgehalt". Genexpressionsdaten waren der überlegene Prädiktor zur Vorhersage genetischer Werte für die Merkmale "Protein" sowie das ökonomisch wichtigste Merkmal "Trockenmasseertrag". Eine genomweite Assoziationskartierung deutete darauf hin, dass Genexpressionsdaten Interaktionen zwischen Genorten integrieren. Dies könnte die überlegene Eignung dieser Prädiktorenklasse zur Vorhersage der Merkmale "Protein" und "Trockenmasseertrag" erklären. Small RNAs wurden in einer zweiten Studie auf ihre Eignung als Prädiktoren untersucht, da sie an der Regulierung transkriptionaler, post-transkriptionaler und post-translationaler Prozesse beteiligt sind. Unabhängig vom Merkmal konnten small RNAs andere Prädiktoren nicht übertreffen. Obwohl keine Kombination von Prädiktoren deutlich die Vorhersagegenauigkeit der besten einzelnen Prädiktorenklasse übertreffen konnte, gewährleistete die Nutzung mehrer Prädiktoren die höchste Stabilität der Vorhersagen über Merkmale hinweg. Indem wir jedem Prädiktor ein unterschiedliches Gewicht zuwiesen, konnten wir deren optimale Beiträge zur Maximierung der Vorhersagegenauigkeit bestimmen. Dieser Ansatz zeigte, dass Stammbauminformationen, genomische Informationen sowie Genexpressionsdaten zu gleichen Anteilen zur Maximierung der Vorhersagegenauigkeit beim Merkmal "Korntrockensubstanzgehalt" beitrugen. Zur Maximierung der Vorhersagegenauigkeit des Merkmals "Kornertrag" waren Stammbauminformationen hingegen unerheblich. Für Genotypen, die lediglich mit genomischer Information abgedeckt waren, imputierten wir Genexpressionsdaten mit Hilfe solcher Genotypen für die sowohl genomische Informationen als auch Genexpressionsdaten vorlagen. Bis dato wurde dieser "single-step" Vorhersageansatz lediglich für qualitative Prädiktoren verwendet. Unsere Studie zeigte, dass dieser Ansatz zur Verbesserung der Kosteneffizienz quantitativer Prädiktoren in der Hybridleistungsvorhersage genutzt werden kann. Wir hoffen mit diesen Studien einen Anstoß für weiterführende Forschungsarbeiten über den Einsatz von Endophänotypen als zusätzliche Prädiktoren in der Züchtung gegeben zu haben.

Publication license

Copyright

Faculty

Faculty of Agricultural Sciences

Institute

Institute of Plant Breeding, Seed Science and Population Genetics

Examination date

2019-11-07

Supervisor

Melchinger, Albrecht E.

Cite this publication

Westhues, M. (2019). Comparison of omics technologies for hybrid prediction. https://hohpublica.uni-hohenheim.de/handle/123456789/6468

Identification

https://hohpublica.uni-hohenheim.de/handle/123456789/6468

Language

English

Classification (DDC)

630 Agriculture

Collections

Institut für Pflanzenzüchtung, Saatgutforschung und Populationsgenetik

Free keywords

Hybrid prediction Quantitative genetics Relationship Prediction Corn Verwandtschaft

Standardized keywords (GND)

Genetik Mais SNP Prognose Hybride

BibTeX@phdthesis{Westhues2019,
url = {https://hohpublica.uni-hohenheim.de/handle/123456789/6468},
author = {Westhues, Matthias},
title = {Comparison of omics technologies for hybrid prediction},
year = {2019},
school = {Universität Hohenheim},
}

Share this publication

Full item page

A new version of this entry is available:

Comparison of omics technologies for hybrid prediction

Abstract (English)

Abstract (German)

File is subject to an embargo until

This is a correction to:

A correction to this entry is available:

This is a new version of:

Other version

Notes

Publication license

Publication series

Published in

Other version

Faculty

Institute

Examination date

Supervisor

Cite this publication

Edition / version

Citation

Identification

DOI

ISSN

ISBN

Language

Publisher

Publisher place

Classification (DDC)

Collections

Original object

University bibliography

Free keywords

Standardized keywords (GND)

Sustainable Development Goals

BibTeX

Share this publication