Einzelprojekt

DeProVIDEO – Deep Learning für die Detektion von Proteinvarianten

Förderkennzeichen: 031L0201
Fördersumme: 272.608 EUR
Förderzeitraum: 2020 - 2022
Projektleitung: PD Dr. Martin Eisenacher
Adresse: Ruhr-Universität Bochum - Medizinische Fakultät und Klinikum - Medizinisches Proteom-Center
Gesundheitscampus 4 Gebäude ProDi E2.269
44801 Bochum

Das Einzelprojekt DeProVIDEO beschäftigt sich mit der Analyse von Proteinen. Ziel ist es, mithilfe neuer computerbasierter Auswertungsmethoden die Identifizierung von Proteinvarianten bei modernen massenspektrometrischen Protein-Analyseverfahren zu verbessern. Im Hochdurchsatzverfahren müssen Proteine üblicherweise vor ihrer Analyse im Massenspektrometer zunächst in kleinere Einheiten (sogenannte Peptide) verdaut werden, bevor die entsprechenden Peptid-Fragmente als Spektren im Massenspektrometer vermessen werden können. Anschließend kommen datenbankgestützte Peptidsuchmaschinen zum Einsatz, um die Sequenz des Gesamtproteins zu identifizieren. Die hierbei normalerweise genutzten Proteindatenbanken enthalten jedoch nur die gebräuchlichsten Proteinsequenzen, so dass die Identifizierung von Varianten nicht möglich ist. Zwar existieren Datenbanken, die auch Sequenzen von Peptidvarianten beinhalten, die Zuordnung zu den tatsächlich gemessenen Spektren erfolgt jedoch immer über sogenannte virtuelle Spektren. Diese werden von speziellen Suchmaschinen über die Datenbanksequenzen vorhergesagt, was je nach Anzahl der möglichen Peptidvarianten zu einer hohen Falschidentifikationsrate (FDR) führt.

Hier setzt DeProVIDEO an: Im Rahmen des Projekts soll – über zwei unterschiedliche Verfahren – die Identifikation der tatsächlichen Proteinsequenzen, die über die Spektren der einzelnen Peptide ermittelt werden, wesentlich verbessert werden. Die erste Methode setzt an den virtuellen Spektren an: Über sogenanntes „Maschinelles Lernen“ soll bei diesen die Genauigkeit erhöht und eine exaktere Zuordnung zu den gemessenen Spektren ermöglicht werden. Bei der zweiten Methode ist geplant, die Peptidsequenz direkt durch eine genauere Analyse der gemessenen Spektren ohne Datenbankabgleich zu ermitteln, was künftig auch die Identifikation von Sequenzen bislang völlig unbekannter Peptide ermöglichen würde.