Die quantifizierbare Peptidbibliothek schließt die Lücke für die proteomikbasierte Entdeckung und Validierung von Biomarkern bei Brustkrebs

Scientific Reports Band 13, Artikelnummer: 8991 (2023) Diesen Artikel zitieren

267 Zugriffe

3 Altmetrisch

Details zu den Metriken

Die auf Massenspektrometrie (MS) basierende Proteomik wird häufig zur Entdeckung von Biomarkern eingesetzt. Allerdings werden die meisten Biomarker-Kandidaten aus der Entdeckung während des Validierungsprozesses häufig verworfen. Solche Diskrepanzen zwischen der Entdeckung und Validierung von Biomarkern werden durch mehrere Faktoren verursacht, hauptsächlich aufgrund der Unterschiede in der Analysemethodik und den experimentellen Bedingungen. Hier haben wir eine Peptidbibliothek erstellt, die die Entdeckung von Biomarkern im gleichen Umfeld wie der Validierungsprozess ermöglicht und so den Übergang von der Entdeckung zur Validierung robuster und effizienter macht. Die Peptidbibliothek begann mit einer Liste von 3393 im Blut nachweisbaren Proteinen aus öffentlichen Datenbanken. Für jedes Protein wurden Ersatzpeptide ausgewählt und synthetisiert, die sich für den Nachweis in der Massenspektrometrie eignen. Insgesamt 4683 synthetisierte Peptide wurden in reine Serum- und Plasmaproben gegeben, um ihre Quantifizierbarkeit in einer 10-minütigen Flüssigchromatographie-MS/MS-Laufzeit zu überprüfen. Dies führte zur PepQuant-Bibliothek, die aus 852 quantifizierbaren Peptiden besteht, die 452 menschliche Blutproteine abdecken. Mithilfe der PepQuant-Bibliothek haben wir 30 mögliche Biomarker für Brustkrebs entdeckt. Unter den 30 Kandidaten wurden neun Biomarker validiert: FN1, VWF, PRG4, MMP9, CLU, PRDX6, PPBP, APOC1 und CHL1. Durch die Kombination der Quantifizierungswerte dieser Marker haben wir ein maschinelles Lernmodell zur Vorhersage von Brustkrebs erstellt, das eine durchschnittliche Fläche unter der Kurve von 0,9105 für die Betriebskennlinie des Empfängers zeigt.

Blutproteine sind wertvolle Analyten für die Diagnose und Prognose verschiedener Krankheiten1. Insbesondere die Anwendung proteomischer Plattformen auf Blutproteine hat sowohl in der Wissenschaft als auch in der klinischen Industrie zunehmende Aufmerksamkeit erhalten2. Mit der technologischen Entwicklung von Massenspektrometrie- und Datenanalysemethoden haben MS-basierte Proteomikplattformen an Tiefe und quantitativer Stärke zur Identifizierung und Quantifizierung von Proteinen gewonnen3. Dementsprechend wurden in Studien auf Tandem-Mass-Tags (TMT) basierende Methoden, markierungsfreie Quantifizierungsmethoden und datenunabhängige Erfassungsmethoden (DIA) eingesetzt, um eine große Anzahl von Proteinen aus komplexen Proben zu quantifizieren und differenziell exprimierte Proteine und Isoformen als potenzielle Kandidaten zu identifizieren neuartige Biomarker3,4,5. Allerdings wurde während der Validierungsphase1 nur ein kleiner Prozentsatz der in Frage kommenden Biomarker als wirksam identifiziert. Dies zeigte sich auch bei der Anzahl der zugelassenen und klinisch eingesetzten Biomarker. Im Vergleich zu den über 4.300 identifizierten Plasmaproteinen wurden trotz zahlreicher Entdeckungsstudien nur etwa 100 Biomarker von der FDA zugelassen oder freigegeben2,6,7. Die Diskrepanz zwischen der Entdeckungs- und der Validierungsphase kann auf Unterschiede in der Probengröße, -art und -anzahl, im Vorbereitungsprotokoll und in der Ausrüstung zurückzuführen sein1,8. Unter den Prozessen zwischen der Entdeckungs- und Validierungsphase können Stichprobengröße, -art und -anzahl in der experimentellen Entwurfsphase besser kontrolliert werden. Die Unterschiede in den Vorbereitungsmethoden für verschiedene Geräte können jedoch nicht durch experimentelles Design gelöst werden. Für einen typischen Entdeckungsprozess wird ein nicht zielgerichteter Shot-Gun-Proteom-Ansatz unter Verwendung hochauflösender Massenspektrometrie mit reichlicher Proteinverarmung, Vorfraktionierung und einer langen Gradientenlaufzeit (1–3 Stunden) verwendet, um die Anzahl der profilierten Proteine zu maximieren. Im Gegensatz dazu basiert die Validierungspipeline auf einem gezielten Ansatz für reines Serum oder Plasma mittels Flüssigchromatographie-Triple-Quadrupol-Tandem-MS (LC-MS/MS), der stärker auf quantitative Messungen ausgerichtet ist9. Die Unterschiede zwischen den Entdeckungs- und Validierungsprozessen erhöhen den Zeit- und Kostenaufwand für die Entdeckung klinisch nutzbarer Biomarker.

Um dieses Problem zu lösen, schlugen frühere Studien die Verwendung von Protokollen vor, die eine reproduzierbare Analyse in verschiedenen Arten von Geräten ermöglichen, wie z. B. Nanoflow- und Mikroflow-LC9,10. Diese Studien konzentrierten sich mehr auf die Generierung eines geeigneten Biomarker-Kandidaten innerhalb eines typischen Entdeckungsaufbaus unter Verwendung eines nicht zielgerichteten Ansatzes. Dies kann die Zeit der Entdeckungsphase verkürzen; Die Lücke zwischen Entdeckung und Validierung wird dadurch jedoch nicht verringert.

Um die Lücke zwischen Entdeckung und Validierung zu schließen, haben wir eine PepQuant-Bibliothek erstellt, die die Entdeckung von Biomarkern im Rahmen eines Validierungsprozesses ermöglicht. Um diese Bibliothek aufzubauen, wurde zunächst eine Liste von Peptiden erstellt und aus den Proteinen ausgewählt, von denen bekannt ist, dass sie existieren oder aus öffentlichen Datenbanken und Veröffentlichungen ins Blut sezerniert werden. Peptide, die für den Nachweis durch MS/MS vorteilhaft sind, wurden ausgewählt, chemisch synthetisiert und in einem 10-minütigen Gradienten mit Mehrfachreaktionsüberwachungsmodus (MRM) für reines Serum oder Plasma (mit hohem Proteingehalt und nicht abgereichert) quantifiziert. Diese Bibliothek besteht somit aus Peptiden des Blutproteins, die im gezielten MRM-Modus in sehr kurzer Gradientenzeit nachweisbar sind. Als nächstes verwendeten wir die PepQuant-Bibliothek zur Entdeckung und Validierung von Brustkrebs-Biomarkern, was zu neun endgültigen Biomarkern führte. Ein Algorithmus für maschinelles Lernen (ML), der mit den identifizierten Biomarker-Kandidaten trainiert wurde, unterschied zwischen Brustkrebspatientinnen und gesunden Kontrollpersonen mit einer mittleren Fläche unter der Kurve (AUC) für den ROC-Wert (Receiver Operating Characteristic Curve) von 0,9105.

Um die PepQuant-Bibliothek zu erstellen, haben wir zunächst mithilfe der menschlichen Sekretomdatenbank und des Blutatlas11,12 Proteine ausgewählt, die wahrscheinlich im Blut vorkommen oder in das Blut sezerniert werden. Wir haben außerdem 235 krankheitsbedingte Proteine hinzugefügt, was insgesamt 3393 ergibt (Abb. 1a). Aus dieser Liste haben wir für jedes Protein eine Liste tryptischer Peptide erstellt, wobei Peptidlänge, Hydrophobizität, Modifikationen und Ladung zur Auswahl herangezogen wurden (Abb. 1b). Die Auswahlkriterien identifizierten Peptide, die unter den harten Bedingungen einer kurzen Gradientenzeit und in reinem Zustand, d. Die ersten Bibliothekskandidaten bestanden aus 4683 Peptiden, die 3393 Proteine abdeckten.

Generierung der Pep-Quant-Bibliothek. (a) Schematisches Diagramm, das den Prozess der Pep-Quant-Bibliotheksgenerierung zeigt. (b) Schematische Darstellung, die den Prozess der in silico-Generierung von Peptidkandidaten aus der Liste der Proteine im Blut zeigt. (c) Ein Venn-Diagramm, das die Anzahl der Proteine zeigt, die mithilfe der Pep-Quant-Bibliotheksgenerierung aus Serum und Plasma quantifiziert wurden.

Um quantifizierbare Peptide unter den 4683 Peptidkandidaten zu finden, haben wir zunächst eine Mischung aus 40 Brust-, 20 Bauchspeicheldrüsen-, 20 Schilddrüsen-, 20 Eierstock-, 18 Lungen- und 20 Darmkrebsproben sowie 30 krankheitsfreien Proben aus verschiedenen Krankenhäusern hergestellt, um die Zahl zu erhöhen die Vielfalt der Blutproben. Als nächstes analysierten wir das MS-Chromatogramm für jeden Peptidkandidaten, indem wir die Retentionszeit (RT) des Vorläuferions und die drei oberen Produkt-y-Ionenpeaks zwischen dem standardmäßigen synthetischen Peptid und dem endogenen Peptid in der Mischung verglichen. Von den 4683 Peptiden waren 852 Peptide, die 452 Proteine abdeckten, mit einem Signal-Rausch-Verhältnis (SNR) über 3 quantifizierbar, und 95,60 % hatten ein SNR über 10 (Ergänzungsdaten 1). Wir fanden außerdem heraus, dass etwa 75,22 % der Proteine sowohl im Plasma als auch im Serum quantifizierbar waren, was darauf hindeutet, dass die Bibliothek sowohl auf Serum als auch auf Plasma angewendet werden kann (Abb. 1c).

Die PepQuant-Bibliothek wurde so konzipiert, dass sie Peptide mit einer Länge von 6–16 Aminosäuren enthält, die für den Nachweis bei LC-MS/MS-Läufen vorteilhaft sind (Abb. 2a, b)13. Nur 12 Bibliothekspeptide waren mehr als 16 oder weniger als sechs Aminosäuren lang, da andere Peptide innerhalb desselben Proteins entweder nicht existierten oder in den MRM-Läufen nicht nachgewiesen wurden. Wir analysierten die Spitzenintensitäten sowohl im Plasma als auch im Serum (Abb. 2c, d), um den dynamischen Bereich der ausgewählten Peptide zu bestätigen, dessen Intensität etwa 103–108 nm betrug (Abb. 2c, d). Anschließend verglichen wir die Intensitätswerte jedes Peptids mit der bekannten Konzentration des Proteins, die keine hohe Korrelation zeigte (Abb. 2e). Dies war jedoch zu erwarten, da sich die Konzentration jedes Proteins in der Studienmischung von der im Blutatlas unterschied. Darüber hinaus kann ein solcher Unterschied aufgrund unterschiedlicher Proteoformen, posttranslationaler Modifikationen und Isoformen auftreten14.

Merkmale der Pep-Quant-Bibliothek. Balkendiagramm, das die Verteilung von (a) Peptidlänge und (b) Peptidladung zeigt. Punktdiagramme, die die Intensität der reichlich vorhandenen Peptide zeigen, gelten für (c) Serum und (d) Plasma. (e) Punktdiagramm, das den Vergleich zwischen der Proteinkonzentration aus dem Blutatlas und ihrer reziproken Intensität im MRM-Modus zeigt. (f) Venn-Diagramm, das die Anzahl der Proteine zeigt, die häufig in der Pep-Quant-Bibliothek, dem DIA-Profillauf und dem DDA-Lauf von Geyer et al.17 vorkommen. (g) GO-Funktionsanreicherungsnetzwerk der Pep-Quant-Bibliothek, das einen hypergeometrischen Test mit einer Korrektur der falschen Entdeckungsrate von P <0,05 erfüllt. Die dunklere blaue Farbe weist auf eine höhere Anreicherung von Proteinen für die Funktion hin. Nur Hauptfunktionen oder Zellkomponenten werden durch Akronyme dargestellt; Die vollständigen GO-Namen sind in der ergänzenden Abbildung S1 dargestellt. CY-Zytoplasma, MEM-Membran, Lum-Lumen, VS-Vesikel, GR-Granulat, PL-Plasma, LP-Lipoprotein, ET extrazellulär.

Um die Abdeckung der PepQuant-Bibliothek zu überprüfen, verglichen wir die Proteine mit denen, die über den nicht zielgerichteten Ansatz mithilfe der DIA-Methode (Data-Independent Acquisition) identifiziert wurden, wobei wir dieselben zusammengesetzten Proben verwendeten, die zur Erstellung der PepQuant-Bibliothek verwendet wurden. Von den 850–900 identifizierten Proteinen waren 271 durch DIA-Analyse quantifizierbar; darunter wurden auch 186 Proteine in der PepQuant-Bibliothek gefunden (Abb. 2f). Diese Daten legen nahe, dass die PepQuant-Bibliothek eine ähnliche Anzahl an Proteinen im menschlichen Blut abdeckt wie die Geräte mit höherer Auflösung (Orbitrap), die die DIA-Methode verwenden. Als nächstes verglichen wir die Proteine in der PepQuant-Bibliothek mit denen von Geyer et al.15, wo Geräte mit höherer Auflösung zur Quantifizierung reiner Blutproben verwendet wurden. Die Proteine in der PepQuant-Bibliothek und im Profiling ähnelten auch denen von Geyer et al. trotz der Unterschiede in Stichprobe, Methodik und Ausrüstung15. Diese Ergebnisse deuten darauf hin, dass die PepQuant-Bibliothek die Quantifizierung von Peptiden im Blut mit einem ähnlichen Leistungsniveau wie die Geräte mit höherer Auflösung ermöglicht.

Als nächstes untersuchten wir die funktionelle Anreicherung der PepQuant-Bibliothek mithilfe der Genontologie (GO). Die Proteine der PepQuant-Bibliothek wurden für das Sekretom und die extrazellulären Regionen angereichert, wie die geclusterten Netzwerke zeigen, die Vesikel, Granula, Lipoproteine und Membranen darstellen (Abb. 2g und ergänzende Abb. S1). Wir haben keine Anreicherung für einen einzelnen Krebs- oder Krankheitstyp gefunden, was zu erwarten war, da die Proteine in der PepQuant-Bibliothek darauf abzielen, so viele quantifizierbare Proteine im Blut wie möglich zu erkennen, ohne sich auf eine bestimmte Krankheit zu konzentrieren.

Um zu bestätigen, dass die PepQuant-Bibliothek eine schnelle Entdeckung von Biomarkern ermöglicht, haben wir die Bibliothek anhand von 50 Brustkrebs- und 50 normalen Serumproben analysiert. Dies führte dazu, dass 30 Peptide eine mindestens 1,20-fache Veränderung mit einem P-Wert von weniger als 0,05 zeigten (Abb. 3 und Ergänzungstabelle S1). Anschließend validierten wir die Expressionsniveaus der 30 Kandidaten mittels LC-MS/MS mit einem separaten und größeren Maßstab von weiteren 96 Brustkrebs- und 95 normalen Proben. Sechzehn Biomarker reproduzierten die Fold-Change-Grenzwerte in größerem Maßstab und wurden daher weiteren Tests unterzogen (Ergänzungstabelle S2). Um die Verwendbarkeit der Peptide als Biomarker in klinischen Tests zu testen, führten wir eine analytische Leistungsbewertung durch und testeten ihre Präzision, Stabilität und Reproduzierbarkeit unter verschiedenen Bedingungen. Von den 16 Peptidkandidaten zeigten neun reproduzierbare Quantifizierungsergebnisse für alle durchgeführten Tests (Ergänzungstabelle S3). Der endgültige Satz ausgewählter Biomarker umfasste FN1, VWF, PRG4, MMP9, CLU, PRDX6, PPBP, CHL1 und APOC1 (Tabelle 1).

PepQuant-Bibliotheksanalyse von Brustkrebsproben. Heatmap mit Z-Score- und Fold-Change-Werten von 30 Peptiden, die eine mindestens 1,2-fache Änderung mit einem P-Wert von weniger als 0,05 für den Wilcoxon-Rangsummentest für 50 Brustkrebs- und 50 normale Proben zeigen. Die ersten drei Aminosäuresequenzen jedes Peptids werden angezeigt.

Als nächstes versuchten wir, mithilfe der neun entdeckten Biomarker ein ML-Modell zur Brustkrebsvorhersage zu erstellen. Die für das Training verwendeten Proben umfassten 187 gesunde Kontrollpersonen und 215 Brustkrebsproben. Insgesamt wurden 402 Proben verwendet, um mehrere Modelle für maschinelles Lernen zu trainieren; 70 % der gepoolten Proben wurden für das Training verwendet und 30 % wurden zur Verwendung als Testdaten beiseite gelegt. Um Verzerrungen zu vermeiden, wurden die Proben in zufälligen Mischungen mit zwei technischen Replikaten gemessen (ergänzende Abbildung S2). Alle Algorithmen wurden fünfmal mit der Hold-out-Methode trainiert und bewertet (ergänzende Abbildung S3). Unabhängig von der Art des ML-Algorithmus überstieg der durchschnittliche AUC-Wert der Vorhersage 0,88 und lag damit über der Genauigkeit molekularbasierter Diagnosetests für CA15-3 und karzinoembryonales Antigen16. Es gab keinen signifikanten Leistungsunterschied zwischen den ML-Modellen, was darauf hindeutet, dass die Biomarker ausreichend zwischen Brustkrebs- und gesunden Kontrollproben unterschieden. Unter den ML-Modellen zeigte das Deep-Learning-Modell mit einer mittleren AUC von 0,9000 eine etwas höhere Leistung (ergänzende Abbildung S3).

Wir haben das Deep-Learning-Modell weiterentwickelt, indem wir 98 weitere Krebsproben zu den ursprünglichen Trainings- und Testdaten hinzugefügt haben (Ergänzungstabelle S4). Der mittlere AUC-Wert des trainierten Modells zur Brustkrebserkennung betrug 0,9105, ähnlich dem des Modells, das ohne andere Krebsdaten trainiert wurde (Abb. 4a). Diese Daten legen nahe, dass das trainierte Modell anhand von Daten, die mit anderen Krebsproben vermischt sind, zwischen normalen Kontrollpersonen und Brustkrebsproben unterscheidet. Um das Modell weiter zu bewerten, haben wir die Verteilung der vorhergesagten Wahrscheinlichkeit der Testdaten für verschiedene Brustkrebsstadien aufgezeichnet. Das Modell prognostizierte die frühen Stadien von Brustkrebs nach einem ähnlichen Muster wie die späteren Stadien (Abb. 4b). Insgesamt deuten diese Daten darauf hin, dass die entdeckten Biomarker und das trainierte Modell eine hohe Leistung bei der Unterscheidung zwischen Brustkrebs und normalen Kontrollproben zeigten.

Genauigkeit der Brustkrebsvorhersage. (a) Diagramm der Receiver Operating Characteristic (ROC) der Fläche unter der Kurve (AUC) für Deep Learning. (b) Boxplot, das die vorhergesagte Wahrscheinlichkeitsverteilung von Brustkrebsproben für normale, andere Krebsarten und Brustkrebs für verschiedene Stadien zeigt.

Die PepQuant-Bibliothek wurde entwickelt, um den Validierungsprozess zu beschleunigen und die Anzahl validierter Biomarker-Kandidaten ab Entdeckung zu erhöhen. Dies wurde erreicht, indem in einem 10-minütigen Lauf im MRM-Modus eine Bibliothek erstellt wurde, die aus Peptiden besteht, deren Quantifizierung bereits aus dem Blut in einem reinen Serum oder Plasma bestätigt wurde. Die PepQuant-Bibliothek ermöglicht somit den Prozess der Biomarker-Entdeckung in der gleichen experimentellen Umgebung wie die Biomarker-Validierung, was den Zeit- und Kostenaufwand für die Validierung jedes Biomarker-Kandidaten ab der Entdeckung erheblich reduziert. In einer typischen Biomarker-Entdeckungs- und Validierungsstudie kann die Anzahl der entdeckten Biomarker-Kandidaten bis zu 50–100 betragen. Um diese Kandidaten zu validieren, wäre zunächst die Synthese von Peptidstandards und die Methodenoptimierung für mindestens 50–100 Kandidaten erforderlich, was bis zu sechs Monate dauern kann (Abb. 5a)11. Zweitens müssten die nachweisbaren und quantifizierbaren Peptide in einer größeren Kohorte erneut quantifiziert werden, um die Reproduzierbarkeit zu bestätigen. Die PepQuant-Bibliothek ermöglicht jedoch das Überspringen des ersten Schritts, da die Methodenoptimierung nicht erforderlich ist, und ermöglicht den direkten Sprung zum Schritt zur Bestätigung der Reproduzierbarkeit (Abb. 5b). Darüber hinaus kann die Liste der Peptide in der PepQuant-Bibliothek zukünftige Forschungen unterstützen, indem sie eine Liste von Peptiden bereitstellt, die unter Validierungsbedingungen nachweisbar sind (Abb. 5c).

Schematische Darstellung, die den Prozess der Entdeckung und Validierung von Biomarkern für (a) einen typischen Prozess und (b) die Verwendung der PepQuant-Bibliothek zeigt. (c) Schematische Darstellung, die den Fluss der Biomarker-Kandidaten aus Experimenten und öffentlichen Daten zeigt, die von der PepQuant-Bibliothek gefiltert wurden.

In dieser Studie wurden mithilfe der PepQuant-Bibliothek neun potenzielle Brustkrebs-Biomarker entdeckt. Von allen neun Biomarker-Kandidaten (FN117, VWF18, PRG419, APOC120, CHL120, CLU21, PRDX622, PPBP23 und MMP924,25) ist bekannt, dass sie mit Tumorzellen und ihren Mikroumweltveränderungen assoziiert sind. MMP9 ist eine Metalloproteinase, von der bekannt ist, dass sie extrazelluläre Matrixproteine abbaut, was auch als Schritt für die Invasion von Krebszellen gilt. Es wurde berichtet, dass es in Tumorzellen hochreguliert ist und den EMT (epithelial-mesenchymalen Übergang) oder die Tumorzellmigration beim Fortschreiten des Brustkrebses erleichtert26,27. Die Überexpression von MMP9 wurde auch bei HER2-positivem, Triple-negativem Brustkrebs und auch in metastasierten Lymphknoten festgestellt28. CLU ist ein Glykoprotein, das reichlich in der extrazellulären Flüssigkeit vorkommt. Es hat Chaperon-ähnliche Eigenschaften und ist an verschiedenen zellulären Prozessen wie Zelltod, Entzündungen und Gewebeumbau beteiligt. Es wurde eine Studie zur sekretorischen CLU durch Überexpression auf der MCF-7-Zelllinie29 durchgeführt. Die Ergebnisse der Überexpression zeigten, dass das Wachstum von Tumorzellen schnell zunahm und in die Lunge metastasierte, was darauf hindeutet, dass CLU eine wichtige Rolle beim Tumorwachstum spielt29. Man geht davon aus, dass VWF, PRG4 und PPBP bei Brustkrebs eine Rolle bei der Tumorprogression und Metastasierung spielen. Obwohl diese drei Proteine unterschiedliche Funktionen haben, interagieren alle drei Proteine mit Integrinen, was zur Aktivierung der PI3K/AKT- und MAPK-Signalwege führt, die die Zellproliferation induzieren18,19,23,30,31,32. Alternativ wirkt PPBP, auch bekannt als Chemokin-Ligand 7 (CXC-Motiv), auf die FAK-Aktivierung und die Matrix-Metalloproteinase und fördert Migration und Invasion23. Eine andere Studie zeigte auch, dass die rekombinante PRG4-Expression zur Tumorsuppression durch Hemmung des transformierenden Wachstumsfaktors Beta (TGFβ) führte, was zu einem verringerten Differenzierungscluster 44 (CD44) der Hyaluronan (HA)-Zelloberfläche führte33. FN1 interagiert mit verschiedenen Wachstumsfaktorrezeptoren wie Rezeptortyrosinkinasen und führt bei Überexpression zu einer ungünstigen Prognose für Brustkrebs34. APOC1 und CHL1 wurden in einer früheren Studie als Biomarker für Brustkrebs im Serum gefunden, was mit der Entdeckung und Validierung von Brustkrebs-Biomarkern aus der PepQuant-Bibliothek korreliert20.

Es ist bekannt, dass die neun Biomarker-Kandidaten für Brustkrebs in mehreren zellulären Komponenten lokalisiert sind, einschließlich extrazellulärer Regionen wie Membranen, Vesikeln sowie Körnchen und Liposomen (Ergänzungstabelle S5). Es wird angenommen, dass sie über den kanonischen Sekretionsweg über den endoplasmatischen Retikulum (ER)-Golgi-Weg in extrazelluläre Regionen sezerniert werden. Da die Lokalisierung und die funktionellen Rollen der neun Biomarker-Kandidaten in den extrazellulären Regionen stattfinden, werden sie sowohl im Serum der normalen Gruppe als auch in der Brustkrebsgruppe nachgewiesen, jedoch unterschiedlich exprimiert. Trotz der untersuchten Sekretion und Lokalisierung der Biomarker-Kandidaten wurden bisher nur wenige Marker als potenzielle Biomarker für Brustkrebs gemeldet, die im reinen Serumzustand nachweisbar sind. Darunter wurden in einer früheren Studie drei Brustkrebs-Biomarker (APOC1, CA1 und CHL1) gefunden, die als Biomarker für einen Brustkrebs-Erkennungsalgorithmus (Mastocheck®)20 verwendet werden. Der Mastocheck-Algorithmus erzielt in klinischen Validierungsstudien eine Sensitivität von 71,6 %, eine Spezifität von 85,3 % und eine AUC von 0,832 (normal 122, Krebs 183)35. Im Gegensatz dazu zeigte das in dieser Studie entwickelte ML-Modell eine durchschnittliche Sensitivität von 87,9 %, eine Spezifität von 80,7 % und eine AUC von 0,9105 (Tabelle 2). Dieses Ergebnis zeigt, dass das entwickelte ML-Modell mit neun Biomarkern eine wirksame Alternative oder ein unterstützender Bluttest für das aktuelle Brustkrebserkennungssystem sein kann. Die derzeitige Erkennung von Brustkrebs ist zwar effektiv, stützt sich jedoch stark auf das bildgebende System, das teuer ist, das Risiko einer Strahlenbelastung birgt und bei dichten Brüsten ungenau ist.

Zusammenfassend haben wir gezeigt, dass die PepQuant-Bibliothek eine wirksame alternative Methode zur Entdeckung menschlicher Blutbiomarker ohne hochauflösende Massenspektrometrie sein kann. Indem die Entdeckung in einem Validierungsaufbau ermöglicht wird, in dem gezielte Triple-Quadrupol-Maschinen verwendet werden, sorgt es für mehr Effizienz und Reproduzierbarkeit bei der Validierung von Biomarkern. Durch weitere Forschung kann die Abdeckung der PepQuant-Bibliothek für Blutproteine und Peptide verbessert werden. Während die generierte PepQuant-Bibliothek öffentliche Datenbanken zu Blut und Sekretom für die Proteinauswahl verwendete, könnte dies durch die Verwendung weiterer MS/MS-Datenbanken wie des SRM-Atlas für die Peptidauswahl weiter verbessert werden. Zur Erweiterung der PepQuant-Bibliothek könnten verschiedene Arten von Proteindatenbanken für Membran- oder Zytoplasmaproteine verwendet werden. Peptide, die besser für den Validierungsaufbau geeignet sind, im MRM-Modus quantifizierbar sind, eine höhere Stabilität aufweisen und ein besser repräsentatives Peptid für ein Protein sind, werden erforscht und der Bibliothek hinzugefügt. Insgesamt planen wir, die PepQuant-Bibliothek kontinuierlich zu erweitern, was für die Biomarker-Entdeckungs- und Validierungsforschung nützlich wäre.

Für jedes Protein wurde eine Liste aller möglichen tryptischen Peptide erstellt. Zu den tryptischen Peptiden gehörten alle, die entweder R oder K an beiden Enden enthielten, mit Ausnahme von Sequenzen, die Trypsin-spaltungsresistente Aminosäurekombinationen wie C-terminales RR (Arginin-Arginin), KK (Lysin-Lysin), RK, KR enthielten , KP und RP. Aus dieser Liste wurden die Peptide ausgewählt, deren Eigenschaften für den Nachweis mittels MS/MS günstig sind. Die berücksichtigten Eigenschaften waren Länge, Oxidation, posttranslationale Modifikationen und Hydrophobie. Eine höhere Priorität wurde Peptiden mit Längen zwischen sechs und 16 Aminosäuren eingeräumt, die im Vergleich zu anderen Längen in einem typischen MS/MS-Ergebnis in höheren Prozentsätzen nachgewiesen wurden. Extrem hydrophile oder hydrophobe Peptide hatten aufgrund ihrer geringeren Reproduzierbarkeit hinsichtlich der Retentionszeit eine geringere Priorität. Peptide, die mögliche posttranslationale Modifikationen wie Glykosylierung und instabile Aminosäuren wie Cystein (C), Methionin (M) oder N-terminales Tryptophan (W) enthalten, erhielten eine niedrigere Priorität. Für jedes Protein wurde ein Peptidkandidat zur Synthese ausgewählt. Diejenigen mit ähnlichen Prioritäten wurden zufällig ausgewählt, und für einige Proteine wurden Peptidkandidaten mit niedrigeren Prioritäten ausgewählt, weil Peptide mit höheren Prioritäten fehlten. Für einige Proteine von Interesse wurden mehrere Peptide synthetisiert. Alle Peptide wurden in der Good Manufacturing Practice-Einrichtung für medizinische Reagenzien (Bertis Inc., Korea) synthetisiert. Die anfängliche Bibliothek von 4683 Peptiden war unmarkiert und die 452 Peptide waren entweder an Lysin-13C6, 15N2 oder Arginin 13C6, 15N4 isotopenmarkiert.

Um quantifizierbare Peptidkandidaten aus Blut zu identifizieren, haben wir die synthetischen Standardpeptide in die Serum- und Plasmaproben gegeben, um eine Mischung aus 138 Blutproben zu erhalten, die aus sechs verschiedenen Krebsarten bestanden (40 Brust-, 20 Bauchspeicheldrüsen-, 20 Schilddrüsen-, 20 Eierstock-, 18 Lungen- und 20 Darmkrebs) und 30 gesunde Blutproben. Die endogenen Serum-/Plasma-Zielpeptidspektren wurden mit denen der synthetischen Standardpeptide (unmarkiert) verglichen, um quantifizierbare Peptide aus Serum/Plasma zu identifizieren. Um das Zielpeptid innerhalb der Probe zu identifizieren, wurde das Verhältnis der obersten drei Peaks des Zielpeptids für Standards und Proben verglichen (ergänzende Abbildung S4a, b). Außerdem wurde die Retentionszeit des Zielpeptids im Standard, in der Probe und in den Proben mit Standard versetzt verglichen (ergänzende Abbildung S4c, d). Ein Peptid galt als quantifizierbar, wenn das Signal-Rausch-Verhältnis (SNR) innerhalb einer 10-minütigen Retentionszeit in einem LC-Lauf mehr als drei betrug.

Zur Brustkrebserkennung wurden insgesamt 500 Serumproben aus 12 koreanischen Krankenhäusern entnommen. Davon stammten 215 Proben von Brustkrebspatientinnen und 187 von gesunden Teilnehmerinnen. Die restlichen 98 Proben stammten von Krebspatienten des Seoul National University Hospital mit vier Krebsarten: Eierstock (20), Magen (20), Bauchspeicheldrüse (20), Lunge (18) und Dickdarm (20). Die gesunden Proben wurden im BI-RADS (Breast Imaging Reporting and Data System) als Kategorie 2 (gutartig) aufgeführt. Alle Proben stammten von Patienten, bei denen noch nie eine andere Krebserkrankung diagnostiziert worden war oder bei denen innerhalb von fünf Jahren kein Rückfall aufgetreten war.

Die Proben wurden von August 2019 bis September 2020 für eine prospektive multizentrische klinische Studie gesammelt, die beim Clinical Research Information Service of Korea, einem Mitglied der WHO International Clinical Trials Registry Platform (ICTRP), registriert ist. Die Identifikationsnummer lautet KCT0004847. Die Anzahl der Proben aus jedem Krankenhaus war wie folgt: Seoul National University Hospital (187), Seoul National University Bundang Hospital (14), Dankook University Hospital (27), Chung-Ang University Hospital (26), Hallym University Gangnam Sacred Heart Hospital (13), National Cancer Center (22), Myongji Hospital (25), Hanyang University Hospital (9), The Catholic University of Korea, Seoul, St. Mary's Hospital (11), Korea University Anam Hospital (14), Korea University Guro Hospital (29) und Gyeongsang National University Hospital (25). Andere Krebsserumproben wurden vom Institutional Review Board des Seoul National University Hospital (IRB-Nr. H-1911–085-1079) als nichtklinische Forschung unter Verwendung des Human Material Repository genehmigt. Andere Krebsserumproben wurden vom Institutional Review Board des Seoul National University Hospital (Genehmigungsnummer H-1911-085-1079) als nichtklinische Forschung unter Verwendung des Human Material Repository genehmigt. Von allen Teilnehmern wurde eine Einverständniserklärung eingeholt. Diese Studie wurde im Einklang mit der Deklaration von Helsinki durchgeführt.

Vollblut wurde durch Venenpunktion mit einer 23G-Spritze gesammelt und in „Vacutainer“-Serumtrennröhrchen und EDTA-Blutentnahmeröhrchen (BD, USA, NJ) für Serum bzw. Plasma überführt. Sie wurden 20 Minuten lang bei 4 °C und 2100 × g zentrifugiert, und die überstehenden Schichten wurden in frische Röhrchen überführt und bei –80 °C gelagert. Vor der Massenanalyse wurden die gefrorenen Proben bei 4 °C vollständig aufgetaut und leicht gevortext.

Reine Serumproben wurden direkt verwendet, ohne dass es zu einer Abreicherung von reichlich vorhandenen Proteinen kam. Fünf µl der abgetrennten Probe wurden zu einer 8 M Harnstofflösung mit 18 mM Dithiothreitol (Sigma-Aldrich, USA, MA) gegeben und 90 Minuten bei 35 °C inkubiert. Die Probe wird auf Raumtemperatur abgekühlt und Iodacetamid (Sigma-Aldrich, USA, MA) bis zu einer Konzentration von 26 mM zugegeben und 30 Minuten bei RT im Dunkeln inkubiert. Ammoniumbicarbonat (Sigma-Aldrich, USA, MA) wurde zugegeben (Endkonzentration: 100 mM), um die Harnstoffkonzentration auf weniger als 1 M zu verdünnen. Fünf µg Trypsin (Sequenzierungsgrad, Promega, USA, WI) wurden zugegeben, gefolgt von Inkubation bei 37 °C für 16 Stunden zur Proteinverdauung. Der Lösung wurde Trifluoressigsäure (Thermo Fisher Scientific, USA, MA) zugesetzt, um die Trypsinaktivität zu unterdrücken (Endkonzentration: 1 %). Die Proben wurden mit C18-Kartuschen (Sep-pak C18, 100 mg, Waters) gemäß den Anweisungen des Herstellers gereinigt. Die gereinigten Proben wurden vollständig getrocknet und bis zur Verwendung bei −80 °C gelagert. Vor der MS/MS-Analyse wurden getrocknete Proben in 0,1 % Ameisensäure resuspendiert.

Das verwendete Massenspektrometer war ein Qtrap5500 Plus (Sciex, USA, MA). Für die LC-Trennung wurde eine C18-Umkehrphasensäule (0,5 mm × 150 mm, 3,5 μm, Agilent, USA, CA) verwendet und die Analyse im positiven MRM-Modus durchgeführt. Die Flussrate betrug 20 μl/min, die Gradientenkonfiguration wurde für 0–10 min auf 5–30 % eingestellt (10 min Gradientenzeit). Der massenspektrometrische Parameter Collision Energy (CE) für jedes ionisierte Peptid wurde mit der SKYLINE-Software (https://skyline.ms/project/home/begin.view) bestimmt. Die Massenspektren und die Chromatographieanalyse wurden mit Analyst (1.7.2) durchgeführt und das verwendete Quantifizierungsprogramm war Multiquant (3.0.2).

Die verdauten Peptide wurden mit einem Q Exactive Hf-x Orbitrap-Massenspektrometer in Verbindung mit einem Ultimate 3000 UPLC (Thermo Fisher Scientific, USA, MA) analysiert. Für die Proteom-DIA-Analyse wurde die Laufzeit auf 130 Minuten und der UPLC-Gradient wie folgt eingestellt (T min/% des Lösungsmittels B): 0/3, 5/3, 80/20, 105/40, 105,1 /80, 115/80, 115,1/3, 130/3. Die Peptide wurden durch eine EASY-Spray-Säule (50 cm × 75 μm ID), die mit 2 μm großen C18-Partikeln gefüllt war, bei einem elektrischen Potential von 1,5 kV ionisiert. Der volle MS-Scanbereich wurde auf 300–1400 m/z eingestellt und die Auflösung wurde auf 60.000 bei m/z 200 eingestellt. Der MS2-Scanbereich wurde auf 300–1400 m/z eingestellt, mit 44 Fenstern von 25 m/z. Der Zielwert der automatischen Verstärkungsregelung wurde auf 3,0 × 106 mit einer maximalen Ioneninjektionszeit von 100 ms eingestellt.

Zur Analyse der DIA-Daten wurden die Rohdateien zunächst in mzML konvertiert und in DIA-NN36 importiert. Die Spektralbibliothek mit 12.046 Proteinen wurde von SWATHAtlas (www.swathatlas.org) heruntergeladen. Eine Bibliothekssuche wurde gemäß dem DIA-NN-Handbuch wie zuvor beschrieben durchgeführt36. Kurz gesagt, der m/z-Bereich des Vorläufers und des Fragmentions wurde auf 300–1400 und der Ladungsbereich des Vorläufers auf 2–6 eingestellt. Für die Peptidmodifikation wurden nur eine kurzfristige Methionin-Exzision und Cystein-Carbamidomethylierung in Betracht gezogen. Es waren bis zu zwei fehlende Spaltungen zulässig, und die Rate falscher Vorläuferentdeckungen wurde auf 1 % festgelegt. Für die MS1-Genauigkeit und das Scanfenster wurde ein Standardparameter von 0,0 verwendet.

Um Brustkrebs-Biomarker zu identifizieren, wurden alle Peptide, aus denen die PepQuant-Bibliothek besteht, anhand von 50 Proben von gesunden und 50 Brustkrebspatientinnen getestet, die zufällig aus der Gesamtzahl der Proben ausgewählt wurden. Zuerst wurden Peptide mit einem Fold-Change-Unterschied von mindestens 1,2 ausgewählt. Die ausgewählten Kandidaten wurden anhand zusätzlicher Proben von 95 gesunden und 96 Brustkrebspatientinnen quantifiziert. Peptide, die einen mindestens 1,2-fachen Unterschied zwischen Brustkrebs- und gesunden Kontrollproben erfüllen, wurden einer analytischen Leistungsbewertung unterzogen.

Die analytische Leistungsbewertung der LC-MS/MS-Quantifizierung von Proteinmarkern ist ein wesentlicher Faktor für die klinische Anwendung37. Die Parameter für die analytische Leistung bestehen hauptsächlich aus Linearität, Genauigkeit, Selektivität, Präzision und Probenstabilität9. Die Linearität wurde überprüft, indem eine lineare Gleichung für mindestens sechs verschiedene Konzentrationen der Peptide abgeleitet und das Bestimmtheitsmaß (R2) zwischen dem quantifizierten Wert und dem aus der linearen Gleichung erhaltenen geschätzten Wert berechnet wurde. Die Genauigkeit wurde durch Berechnung des Verhältnisses zwischen dem geschätzten Wert aus der linearen Gleichung und dem quantifizierten Wert für jeden Konzentrationspunkt ermittelt. Das Peptid wurde als akzeptabel angesehen, wenn mindestens fünf von sechs Konzentrationspunkten innerhalb von ± 20 % des Genauigkeitswerts lagen. Die Intra-Day-Präzision und die Inter-Day-Präzision wurden durch wiederholte Messung der Peptide bei unterschiedlichen Probenkonzentrationen in fünf technischen Replikaten innerhalb eines Tages bzw. mehrerer Tage getestet. Die Stabilität der Probenpeptide wurde auch nach sieben Tagen Lagerung bei 80 °C und 4 °C getestet. Für alle Experimente wurden isotopenmarkierte synthetische Peptide als interne Standards (IS) verwendet. Das Verhältnis von Analyt (Peptid) zu IS wurde mit der spezifischen Menge an IS multipliziert, um die Analytkonzentration zu bestimmen (Ergänzungstabelle S3).

Mithilfe von Deep Learning, logistischer Regression, Random Forest und einem Light-Gradient-Boost-Algorithmus wurde ein Diagnosealgorithmus entwickelt. Logistische Regression und Random Forest-Algorithmen wurden mit Standardparametern unter Verwendung von „Scikit learn v. 0.23.2“38 trainiert. Für den Gradient-Boosting-Algorithmus wurden die Python-Module „Lightgbm v. 3.2.1“ verwendet. Alle maschinellen Lernmodelle wurden iterativ mit der Hold-out-Methode getestet, bei der fünf verschiedene Zufallszustände zum Trainieren und Bewerten des Algorithmus verwendet wurden. Der Deep-Learning-Algorithmus wurde mit Torch v. 1.7.1 entwickelt. Sofern nicht anders angegeben, wurden alle Algorithmen mit der Python-Version 3.8.13-Umgebung39 entwickelt. Die Struktur des Deep-Learning-Modells ähnelte einem GrowNet, das kurzzeitig an den aktuellen Datensatz angepasst wurde40.

Die in dieser Studie generierten Daten sind in den Supplementary Data 2 verfügbar und in PASSEL (http://www.peptideatlas.org/passel/), Datensatz-ID PASS04818, hochgeladen.

Rifai, N., Gillette, MA & Carr, SA Entdeckung und Validierung von Proteinbiomarkern: Der lange und unsichere Weg zum klinischen Nutzen. Nat. Biotechnologie. 24, 971–983. https://doi.org/10.1038/nbt1235 (2006).

Artikel CAS PubMed Google Scholar

Anderson, NL Das klinische Plasmaproteom: Eine Übersicht über klinische Tests für Proteine in Plasma und Serum. Klin. Chem. 56, 177–185. https://doi.org/10.1373/clinchem.2009.126706 (2010).

Artikel CAS PubMed Google Scholar

Tang, Y. et al. Quantitative Proteomik enthüllte die molekularen Eigenschaften verschiedener Arten granulierter somatotropher Adenome. Endocrine 74, 375–386. https://doi.org/10.1007/s12020-021-02767-1 (2021).

Artikel CAS PubMed Google Scholar

Li, N., Li, J., Desiderio, DM & Zhan, X. Quantitative SILAC-Proteomanalyse von Ivermectin-bezogenen Proteomprofilen und molekularen Netzwerkveränderungen in menschlichen Eierstockkrebszellen. J. Massenspektrometer. 56, e4659. https://doi.org/10.1002/jms.4659 (2021).

Artikel CAS PubMed Google Scholar

Xia, Y. et al. Die TMT-basierte quantitative Proteomikanalyse enthüllt den umfassenden pharmakologischen molekularen Mechanismus der Beta-Elemonsäure-Hemmung von Darmkrebs. Vorderseite. Pharmakol. 13, 830328. https://doi.org/10.3389/fphar.2022.830328 (2022).