banner
Nachrichtenzentrum
ISO-zertifiziertes Unternehmen

Groß angelegte proteomische Studien führen zu neuen Überlegungen zum Datenschutz

Dec 06, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 9254 (2023) Diesen Artikel zitieren

1 Altmetrisch

Details zu den Metriken

Der Schutz der Privatsphäre ist ein Kernprinzip der Genomforschung, nicht aber der Proteomforschung. Wir haben unabhängige Einzelnukleotidpolymorphismus (SNP) quantitative Merkmalsorte (pQTL) aus COPDGene und Jackson Heart Study (JHS) identifiziert, kontinuierliche Genotypwahrscheinlichkeiten auf Proteinebene berechnet und dann einen naiven Bayes'schen Ansatz angewendet, um SomaScan 1.3K-Proteome mit Genomen für 2812 unabhängige zu verknüpfen Probanden aus COPDGene, JHS, SubPopulations und Intermediate Outcome Measures in COPD Study (SPIROMICS) und Multi-Ethnic Study of Atherosclerosis (MESA). Wir haben 90–95 % der Proteome richtig mit ihrem korrekten Genom verknüpft und für 95–99 % haben wir die 1 % der wahrscheinlichsten Verbindungen identifiziert. Die Verknüpfungsgenauigkeit bei Probanden mit afrikanischer Abstammung war geringer (~ 60 %), es sei denn, das Training umfasste verschiedene Themen. Mit einer größeren Profilierung (SomaScan 5K) in den Atherosclerosis Risk Communities (ARIC) lag die korrekte Identifizierung sogar in Populationen gemischter Abstammung bei > 99 %. Wir haben auch Proteome mit Proteomen verknüpft und das Proteom nur zur Bestimmung von Merkmalen wie Geschlecht, Abstammung und Verwandten ersten Grades verwendet. Wenn serielle Proteome verfügbar sind, kann der Verknüpfungsalgorithmus verwendet werden, um falsch etikettierte Proben zu identifizieren und zu korrigieren. Diese Arbeit zeigt auch, wie wichtig es ist, verschiedene Populationen in die Omics-Forschung einzubeziehen und dass große proteomische Datensätze (> 1000 Proteine) durch pQTL-Wissen genau mit einem bestimmten Genom verknüpft werden können und nicht als nicht identifizierbar betrachtet werden sollten.

Vor fast vier Jahrzehnten erkannten Jeffreys et al.1, dass Muster einfacher tandem-repetitiver DNA-Regionen spezifisch für Einzelpersonen waren und zur Identifizierung bestimmter Personen oder naher Verwandter verwendet werden konnten. Obwohl anfangs umstritten, wurde die Technik des DNA-Fingerabdrucks von forensischen Wissenschaftlern schnell und umfassend übernommen und war innerhalb eines Jahrzehnts in der Umgangssprache der Öffentlichkeit angekommen. Bald darauf wurden die Ergebnisse des Humangenomprojekts veröffentlicht2,3 und mittlerweile ist bekannt, dass es Millionen von Einzelnukleotidpolymorphismen (SNPs) gibt, die Individuen innerhalb großer Populationen unterscheiden können. Die Identifizierung von Individuen durch Genomik ist ein zunehmendes Anliegen in der Forschung, da Fortschritte in der Genotypisierung und Sequenzierung zu großen genetischen Datenbanken (dbGaP; GEO; EMBL-EBI) sowohl für die Forschung als auch für die kommerzielle Nutzung geführt haben. Die Existenz neuerer Genotypisierungstechnologien und großer Genomdatenbanken hat bei politischen Entscheidungsträgern Bedenken hinsichtlich der Diskriminierung in der Krankenversicherung und am Arbeitsplatz hervorgerufen und zu neuen Gesetzen geführt, die sich mit genetischen Informationen (z. B. dem Genetic Information Non-discrimination Act von 2008) sowie dem Schutz der Privatsphäre befassen Initiativen wie die Global Alliance for Genomics and Health, die Rahmenbedingungen geschaffen hat, um einen verantwortungsvollen und sicheren Austausch genomischer und gesundheitsbezogener Daten zu gewährleisten. Ein wesentliches Merkmal dieser Richtlinien in den Vereinigten Staaten besteht darin, dass sie sich ausdrücklich nur auf genomische Daten (einzelne Nukleotide, Sequenz, Transkriptom, epigenomische Daten und Genexpression) beziehen. Trotz dieser Richtlinien gab es mehrere Fälle von „deidentifizierten“ personenbezogenen Daten, die mit individuellen genetischen Profilen in Verbindung gebracht wurden4, einschließlich bekannter Personen wie Henrietta Lacks5. Es wurden auch Methoden vorgeschlagen, die Expressionsdaten über eQTLs6 mit dem Genotyp verknüpfen können.

Die exponentiellen technologischen Fortschritte in der Hochdurchsatz-Proteomik liegen zwar fünf bis zehn Jahre hinter den Fortschritten in den Bereichen Genotyp und Sequenzierung, führen jedoch zur Erstellung ähnlich großer Datenbanken mit sensiblen persönlichen Informationen. Gleichzeitig gibt es Studien, die belegen, dass viele Proteine7,8 über genetische quantitative Merkmalsorte (QTLs) verfügen, die derzeitige Praxis besteht jedoch darin, diese Datensätze als nicht identifizierte Daten zu betrachten. In diesem Manuskript zeigen wir, dass sogar begrenzte Proteomprofile ohne Peptidsequenzierung mit bestimmten Personen verknüpft werden können, indem wir vorherige unabhängige Kenntnisse dieser QTLs nutzen, und wir stellen eine bioinformatische Lösung bereit, die eine erneute Identifizierung verschleiert, aber dennoch zumindest einige Biomarker-Phänotyp-Beziehungen bewahrt. Diese Ergebnisse deuten darauf hin, dass es dringend notwendig ist, die Richtlinien in Bezug auf nicht-genomische Daten, die für Forschungs- oder kommerzielle Zwecke verwendet werden, zu ändern.

Alle Studienteilnehmer legten eine schriftliche Einverständniserklärung vor, die von Institutional Review Boards (IRBs) genehmigt wurde. Die COPDGene- und Jackson Heart Study (JHS)-Kohorten wurden nach dem Zufallsprinzip in Trainings- und Testdatensätze aufgeteilt und Trainingsteilnehmer wurden nicht in die Testkohorte einbezogen. Weitere unabhängige Kohorten, die für Tests verwendet wurden, umfassten Subpopulationen und Intermediate Outcome Measures in COPD Study (SPIROMICS) und Multi-Ethnic Study of Atherosclerosis (MESA). Rasse wurde selbst gemeldet. Die Merkmale der für Training und Tests verwendeten Probanden sind unten mit zusammenfassenden demografischen Daten in Tabelle 1 aufgeführt. Dieses Manuskript wurde von den Veröffentlichungsausschüssen der unten aufgeführten Kohorten sowie von NHLBI Trans-Omics for Precision Medicine (TOPMed) genehmigt. Die gesamte Forschung wurde in Übereinstimmung mit den relevanten Richtlinien/Vorschriften durchgeführt und die Einverständniserklärung aller Teilnehmer und/oder ihrer Erziehungsberechtigten wurde eingeholt. Die Forschung mit menschlichen Forschungsteilnehmern wurde im Einklang mit der Deklaration von Helsinki durchgeführt.

Für die vom NIH gesponserte multizentrische Genetic Epidemiology of COPD (COPDGene (ClinicalTrials.gov Identifier: NCT01969344)) wurden von Januar 2008 bis April 2011 (Phase 1) 10.263 nicht-hispanische weiße (NHW) und schwarze (AA) Personen im Alter von 45–45 Jahren rekrutiert. Als Kontrollen wurden 80 Personen mit einer Raucheranamnese von ≥ 10 Packungsjahren und ohne Exazerbationen für > 30 Tage sowie 457 gesunde Personen gleichen Alters und Geschlechts ohne Raucheranamnese aufgenommen9. Die Genotypisierung der Probanden erfolgte mit einem Illumina HumanOmni Express10. 1184 Probanden aus dem Einschreibungsbesuch (P1) nahmen an einer Zusatzstudie teil, in der sie frisch gefrorenes p100 (BD)-Plasma zur Verfügung stellten, das für die SomaScan 1.3K-Proteomprofilierung verwendet wurde, bei der 1305 Proteine ​​gemessen wurden. Weitere 547 unabhängige Probanden, die nur bei einem 5-Jahres-Nachuntersuchungsbesuch (P2) ein SomaScan-Profil erstellt hatten und nicht im Trainingsdatensatz verwendet wurden, wurden als unabhängige Testkohorte verwendet. 5292 hatten auch SomaScan 5K (v4.0)-Proteome unter Verwendung von Plasma aus einem P2-Besuch und wurden nach dem Zufallsprinzip in Training und Tests aufgeteilt, um zu beurteilen, ob die Skalierung die Identifizierungsgenauigkeit verbesserte. COPDGene wurde vom BRANY IRB zugelassen.

An der vom NIH gesponserten Studie (ClinicalTrials.gov-Kennung: NCT00005485) nahmen 5.306 afroamerikanische Einwohner teil, die im Jackson, MS, Metropolitan Statistical Area (MSA) der Counties Hinds, Madison und Rankin leben. 2055 stimmte der Genforschung zu und ließ auch ein SomaScan 1.3K-Proteomprofil erstellen. Die Genotypen wurden mit TOPMed Whole Genome Sequencing Freeze 8 extrahiert, um ein synthetisches Illumina HumanOmniExpress-Genotyp-Panel zu erstellen. Die Arbeitsgruppe (WG) des Institutional Review Board (IRB) der Jackson Heart Study (JHS) ist für die Überwachung und Überwachung aller Aktivitäten des JHS Institutional Review Board (IRB) verantwortlich und erleichtert die gemeinsame Kommunikation und den Informationstransfer zwischen den IRBs, die das JHS regulieren: Jackson State University , University of Mississippi Medical Center und Tougaloo College.

Die vom NIH gesponserte Studie „Subpopulations and Intermediate Outcome Measures in COPD Study“ (SPIROMICS) (ClinicalTrials.gov-Kennung: NCT01969344)11 umfasste 2984 Probanden, die mit der Genotypisierungsplattform Illumina HumanOmniExpress genotypisiert wurden12, von denen 258 Probanden mit Visit 1 einem SomaScan 1.3K-Proteomprofil unterzogen wurden Plasma. Zusätzliche SomaScan 7K-Daten (Version 4.1) waren für 2401 Probanden aus den Besuchen 1, 2, 4 und 5 verfügbar (insgesamt 5132 Proben mit Proteomen). SPIROMICS wurde vom IRB der University of North Carolina in Chapel Hill genehmigt.

Die vom NIH gesponserte Multi-Ethnic Study of Atherosclerosis (MESA)-Studie (ClinicalTrials.gov-Kennung: NCT00005487) rekrutierte 6418 Teilnehmer aus vier ethnischen Gruppen: Kaukasier, Afroamerikaner, Hispanoamerikaner und Chinesen. Die Gesamtgenomsequenzierung (WGS) wurde am Broad Institute of MIT und Harvard durchgeführt. Die SomaScan Proteomics 1.3K-Profilierung wurde am Broad Institute und der Beth Israel Proteomics Platform (HHSN268201600034I) durchgeführt. Die MESA-Studie wurde von den sechs teilnehmenden IRBs (siehe 13) genehmigt, zu denen die University of Washington, die University of Vermont (Archiv für Bioproben), die Columbia University, die Johns Hopkins University, die Northwestern University, die University of California, Los Angeles, die University of Minnesota und Wake gehören Forstuniversität.

The Atherosclerosis Risk in Communities (ARIC) study initially enrolled 15,792 participants aged 45–64 years at four study centers in the United States: Washington County, MD; Forsyth County, NC; northwestern suburbs of Minneapolis, MN; and Jackson, MS between 1987 and 1989, aiming to investigate cardiovascular disease and its risk factors. Participants have undergone nine clinical visits. For current analysis, proteomic profiles were obtained from SomaLogic, via SomaScan 5K (v4.0) assay using freshly frozen blood plasma collected at ARIC visit 2 (1990–1992). Genotyping was performed using Affymetrix 6.0 array and imputed using TOPMed Freeze 5b datasets Details of genotyping and imputation quality control methods were previously described100,000 NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium whole genome sequences improves imputation quality and detection of rare variant associations in admixed African and Hispanic/Latino populations. PLoS Genet. 15(12), e1008500 (2019)." href="/articles/s41598-023-34866-6#ref-CR14" id="ref-link-section-d27854355e1588"> 14. 242 von 250 ausgewählten SNPs wurden in beiden Rassengruppen erhalten, von denen 176 in AA und 175 in EA zugeschrieben wurden. Es waren 2874 AAs und 9345 EAs dieser Genotypen verfügbar und wurden daher in die Vorhersageanalysen einbezogen. Die ARIC-Studie wurde von Institutional Review Boards (IRB) aller teilnehmenden Institutionen genehmigt: University of North Carolina at Chapel Hill IRB, Johns Hopkins University IRB, University of Minnesota IRB und University of Mississippi Medical Center IRB.

Proteomische Profile für 1305 Proteine ​​wurden mit SomaScan v 1.3K (SomaLogic, Boulder, Colorado) erstellt. Die Beschreibung des SomaScan 1.3K-Assays ist in 15 ausführlicher beschrieben. Die Normalisierung folgt den Richtlinien von SomaLogic für die Datenverarbeitung und umfasst drei aufeinanderfolgende Normalisierungsebenen, nämlich die Hybridisierungskontrollnormalisierung (Hyb), gefolgt von der Mediansignalnormalisierung (Hyb.MedNorm) und der Interplattenkalibrierung (Hyb.MedNorm.Cal). Es fehlen keine Daten auf der Plattform. SomaScan 5K v4.0 (4776 Proteine) wurde von SomaLogic durchgeführt und wir verwendeten Adaptive Normalization by Maximum Likelihood (anmlSMP). Für die Entdeckung von pQTL verwendeten wir eine rangbasierte inverse Normaltransformation, um die Proteinspiegel an eine Normalverteilung anzupassen; Zur Abschätzung der Genotyp-Wahrscheinlichkeiten und Assoziationen mit dem Rauchen verwendeten wir jedoch logarithmisch transformierte Proteinwerte.

COPDGene führte eine Genotypisierung für 691.764 SNPs ohne Imputation durch. Der Genotyp dieser SNPs in JHS wurde mithilfe der gesamten Genomsequenz von TOPMed ermittelt. In die Analyse wurden nur SNPs mit Minor Allel Frequency (MAF) von mehr als 5 % in der Stichprobenpopulation einbezogen. Beide Datensätze wurden an GRCh38 ausgerichtet. SNP-by-Protein-Assoziationen wurden sowohl in der COPDGene- als auch in der JHS-Entdeckungskohorte separat mithilfe einer linearen Regression unter der Annahme eines additiven Modells nach Genotyp bewertet. Die Analyse wurde mit dem R-Paket „MatrixEQTL“ (Version 2.2)16 durchgeführt. Jedes Modell bewertete den direkten Zusammenhang zwischen Proteingehalt und Genotyp, ohne Anpassung für Kovariaten. Proteinquantitative Trait Loci (pQTLs) wurden bei einem FDR-korrigierten p-Wert < 0,05 als signifikant angesehen. Die pQTL-Bewertungen in JHS und COPDGene wurden unabhängig voneinander durchgeführt. Nachdem wir die beiden Sätze von pQTLs aus den beiden Trainingskohorten zusammengeführt hatten, reduzierten wir den Satz, um eine Liste eindeutig assoziierter Protein- und SNP-Kombinationen zu erhalten. Für jedes einzelne Protein im pQTL-Satz haben wir nur den SNP-pQTL mit der höchsten Signifikanz beibehalten, der durch den p-Wert für die Trainingskohorten bestimmt wurde (Abb. 1). Wenn die beiden Trainingskohorten unterschiedliche Top-SNPs aufwiesen (häufig im Kopplungsungleichgewicht), wählten wir den SNP aus der Kohorte mit dem niedrigsten p-Wert. Diese Reduktion auf erster Ebene erzeugt eine Reihe einzigartiger Proteine, in einigen Fällen können jedoch mehrere Proteine ​​mit demselben SNP assoziiert sein. Wenn ein SNP mit mehreren Proteinen assoziiert war, verwendeten wir für diesen SNP nur das Protein mit der höchsten Proteinassoziation. Durch diesen Prozess wurde sichergestellt, dass jedes Protein und jeder SNP in unseren pQTL-Sets nur einmal vorkommt.

Strategie zur Identifizierung von Protein-QTL-SNP-Kombinationen (Training) und Testen der Genauigkeit von Proteinen zur Identifizierung des Subjekts durch Zuordnung zur Genotypdatei.

Zur Vorhersage der Wahrscheinlichkeit der Genomübereinstimmung verwenden wir eine naive Bayes'sche Methode (Abb. 2), die die Wahrscheinlichkeit der Beobachtung des Genotypvektors g anhand des aus Trainingsdaten geschätzten genotypspezifischen Mittelwerts (µ) und der Standardabweichung (σ) schätzt. Dies ähnelt einem Ansatz, der bei der Genotypschätzung aus eQTLs6 verwendet wird. Um die Trainingsschätzungen von COPDGene und JHS zu kombinieren, haben wir für diese Schätzung das GaussianNB-Modell von scikit-learn (Version 0.23.2) verwendet6. Während des Trainings verwenden wir die Methode „partial_fit“, um µ- und σ-Parameter für einen einzelnen Datensatz zu berechnen. Die gleiche Methode kann zum Aktualisieren der Parameter µ und σ verwendet werden, sodass wir ein Modell anhand mehrerer Datensätze trainieren können, indem wir das trainierte Modell gemeinsam nutzen. Da jeder SNP biallelisch ist, berechnen wir drei Wahrscheinlichkeiten, die den drei möglichen Genotypen entsprechen.

unter Verwendung eines Gaußschen naiven Bayes-Frameworks, in dem wir drei normale Wahrscheinlichkeitsverteilungsfunktionen definieren

die die Verteilung der Proteinspiegel für jeden der drei Genotypen beschreiben (Abb. 3a), wobei μg und σg der geschätzte Mittelwert bzw. die geschätzte Varianz der Proteinspiegel x für Probanden mit Genotyp g sind. Unter dem naiven Bayes-Rahmen schätzen wir die Wahrscheinlichkeit ab, dass das Subjekt jede der drei Genotypklassen besitzt, vorausgesetzt, es gibt einen beobachteten Proteingehalt (Abb. 3b). Indem wir diesen Vorgang für jedes der N-Protein/SNP-Paare wiederholen, erhalten wir die Wahrscheinlichkeit jeder Genotypklasse für die Top 100 SNPs. Wir berechnen die Wahrscheinlichkeit, dass jeder Genotyp der wahre Genotyp ist, und können dann unter Verwendung der bekannten Genotypwerte g1…gN für jedes Subjekt die Wahrscheinlichkeit berechnen, dass der richtige oder „wahre“ Genotypvektor gtrue für ein Subjekt beobachtet wird, als Produkt von Wahrscheinlichkeit, die einzelnen wahren Genotypwerte zu beobachten.

Für jedes Subjekt mit Proteomdaten berechnen wir die Wahrscheinlichkeit des Genotypvektors jedes genotypisierten Subjekts im Datensatz. Unter der Annahme, dass eines der genotypisierten Subjekte im Datensatz die wahre Identität Strue mit den beobachteten Proteinwerten xtrue ist, nehmen wir den Genotyp mit der höchsten Wahrscheinlichkeit angesichts der beobachteten Proteinwerte als „Übereinstimmung“ für dieses Subjekt. Wenn der Genotyp mit der höchsten Übereinstimmungswahrscheinlichkeit (Top 1) zu dem Subjekt gehört, dessen Proteinspiegel beobachtet wurden, betrachten wir dies als Übereinstimmung. Wir haben auch getestet, ob die echte Übereinstimmung zu den drei höchsten Quoten (Top 3) und den 1 % höchsten Quoten (in den Top 1 %) gehörte.

Naiver Bayes-Ansatz zur Abschätzung der A-posteriori-Wahrscheinlichkeit, dass ein Subjekt mit dem durch Proteinspiegel vorhergesagten Genotyp übereinstimmt.

(A) Beeswarm zeigt die Proteinverteilungen für sICAM-1, die in COPDGene- und JHS-Trainingssätzen logarithmisch transformiert und nach Genotyp geschichtet wurden. In diesem Beispiel ist AA der Hauptgenotyp. (B) Wahrscheinlichkeitsfunktion für Genotyp nach Proteinwert für sICAM-1.

Ein T-Test wurde verwendet, um zu beurteilen, ob Proteine ​​(log-transformiert) mit dem aktuellen Rauchen (Rauchen von Zigaretten in den letzten 30 Tagen) zusammenhängen.

Alle Analysen wurden in R (Version 3.6.11) und Python (Version 3.7) durchgeführt. Der in diesem Manuskript verwendete Code ist auf GitHub verfügbar (https://github.com/BowlerLab/reidentify_code).

Unsere ersten Trainingsversuche zum Modelltraining verwendeten ausschließlich COPDGene-Probanden, bei denen es sich größtenteils um Probanden mit überwiegend europäischer Abstammung handelte. Diese Analyse identifizierte 778 Proteine ​​mit mindestens einem pQTL-SNP. Um die Genauigkeit von Proteinmessungen zur Vorhersage von Genotypen zu testen, wurde jedem Proteom eine Wahrscheinlichkeit zugewiesen, dass das Proteom mit dem Genom übereinstimmt (Abb. 4). Die Genauigkeit der Methode wurde dadurch bestimmt, wie oft einem Subjekt mit einem Proteom das wahre Genom die höchste Wahrscheinlichkeit einer Übereinstimmung als erste Wahl, Top-3-Wahl oder oberstes 1 % des Datensatzes zugewiesen hatte. Diese Methode zeigte eine hervorragende Testgenauigkeit bei der Identifizierung unabhängiger Probanden europäischer Abstammung bei COPDGene, MESA und SPIROMICS (83–92 %); Allerdings war die Testgenauigkeit bei Probanden mit überwiegend afrikanischer Abstammung deutlich geringer (61–76 %). Aus diesem Grund haben wir unsere Modelle unter Verwendung zusätzlicher Probanden afrikanischer Abstammung aus JHS-Probanden neu trainiert. Im JHS-Trainingsdatensatz haben wir 372 Proteine ​​mit mindestens einem pQTL-SNP identifiziert. Anschließend kombinierten wir die COPDGene- und JHS-Trainings-pQTLs für insgesamt 591 Proteine ​​mit mindestens einem pQTL-SNP (Supplemental File 1). Mithilfe dieses kombinierten COPDGene- und JHS-Trainingssatzes haben wir die Übereinstimmungsgenauigkeit bei afroamerikanischen Probanden erheblich verbessert (Abb. 5), wodurch sich die Genauigkeit auf ~ 90 % erhöhte, was der Genauigkeit bei Probanden europäischer Abstammung ähnelt.

Wahrscheinlichkeit, dass ein Proteom mit einem bestimmten Genom im Testdatensatz übereinstimmt. In diesem Beispiel werden 100 Proteine ​​verwendet, um den wahrscheinlichen Genotyp bei 100 pQTL-SNPs zu identifizieren. Die meisten Proteomprofile waren mit dem korrekten Genotypprofil (orangefarbener Kreis) verknüpft, wobei die Wahrscheinlichkeit einer korrekten Verknüpfung nahezu 100 % betrug (Subjekt 1 und 2). Der Rest der Proteomprofile war typischerweise in den obersten 1 % der Genotypübereinstimmungen mit der höchsten Wahrscheinlichkeit vertreten (oberste 26 von 2698), wie Proband 3 zeigt. Die blauen Kreise zeigen die Wahrscheinlichkeit einer Genotypprofilübereinstimmung von falschen Probanden. Die Boxplots zeigen den 25–75-Perzentilbereich mit dem Median und die Whiskers stellen den 1,5-Quartilabstand dar. Die X-Achse ist im logarithmischen Maßstab aufgetragen.

Das Training mit Daten aus verschiedenen Bevölkerungsgruppen verbessert die Testgenauigkeit bei Afroamerikanern (AA). (A) Erste Trainingsversuche mit nur 13 % AA-Probanden in SPIROMICS führten zu einer geringeren Testgenauigkeit bei unabhängigen AA-Probanden im Vergleich zu nicht-hispanischen weißen (NHW) Probanden. (B) Nach dem Training sowohl mit COPDGene- als auch JHS-Probanden verbesserte sich die Identifizierungsgenauigkeit bei AA-Probanden deutlich und ähnelte der anderer Rassen.

Als nächstes versuchten wir, die Mindestanzahl an Protein-pQTL-Paaren zu bestimmen, die erforderlich sind, um ein Proteom einem Genom zuzuordnen. Zuerst haben wir Protein-pQTL-Paare nach p-Wert eingestuft und dann erneut getestet, indem wir nur kleinere Teilmengen der stärksten Protein-pQTL-Paare verwendet haben (Ergänzungstabelle 1). Bei Verwendung des 1,3K-Assays lag die Gesamtgenauigkeit bei etwa 100 der signifikantesten Protein-pQTLs-Paare, aber die Einbeziehung aller nominell signifikanten Protein-pQTLs-Paare führte zu einer etwas geringeren Genauigkeit, was darauf hindeutet, dass diese Paare mit geringerer Signifikanz mehr Rauschen verursachten als Signal und Genauigkeit und hatten Zusätzliche Proteininformationen sind für den Abgleich mit Genomen nicht aussagekräftig.

Unter Verwendung der 100 besten Protein-pQTL-SNPs aus den Trainingsdaten unter Verwendung von (COPDGene- und JHS-Trainingssubjekten) haben wir dann die Vorhersagegenauigkeit in 4 Kohorten (SPIROMICS, MESA, JHS, COPDGene) unter Verwendung unabhängiger Probanden getestet, die nicht für das Training verwendet wurden, einschließlich Genauigkeiten basierend auf Rasse und ethnischer Zugehörigkeit (Tabelle 2). Die tatsächliche Übereinstimmung gehörte bei den meisten Probanden (> 85 %) in den Kohorten und Populationen zu den höchsten Chancen, mit Ausnahme von COPDGene und schwarzen Amerikanern in MESA. Wenn wir die obersten 1 % mit den höchsten Quoten heranzogen, gehörte die tatsächliche Übereinstimmung für die meisten Probanden (> 85 %) in allen Kohorten und Populationen zu den höchsten Quoten.

Um festzustellen, ob neuere und größere Proteom-Assays bei der Identifizierung genetischer Profile mehr oder weniger genau waren, haben wir 5292 COPDGene-Probanden (71 % NHW und 29 % AA), die SomaScan v4.0 5K-Daten (4776 Proteine) hatten, nach dem Zufallsprinzip in Trainings- und Testgruppen aufgeteilt Verwenden einer 50/50-Zugtestaufteilung (Ergänzungstabelle 2), um eine neue Liste von Protein-pQTL-Paaren zu erstellen (Ergänzungsdatei 2). Wir verwendeten diese neuartigen Protein-pQTL-Paare auch, um 11.761 Proteome (8987 NHW- und 2774 AA-Probanden) mit 12.219 Genomen (9345 NHW- und 2874 AA-Probanden) und aus der ARIC-Kohorte abzugleichen. Mit nur 100 Proteinen verbesserte sich die Identifizierungsgenauigkeit auf > 99 % (Tabelle 3) und die Genauigkeit bei Probanden mit afrikanischer Abstammung war ähnlich wie bei Probanden mit überwiegend europäischer Abstammung, obwohl die Genauigkeit bei Probanden mit europäischer Abstammung immer noch etwas höher war als bei Probanden mit afrikanischer Abstammung (99 %). gegenüber 98 %). Die Genauigkeit lag in ARIC ebenfalls bei > 98 %, auch wenn in ARIC eine Genotyp-Imputation von > 92 % erforderlich war. Das Hinzufügen zusätzlicher Protein-pQTL-Informationen über die oberen 150 hinaus führte tendenziell zu einer leichten Verringerung der Genauigkeit, was höchstwahrscheinlich auf zusätzliches Rauschen zurückzuführen ist.

Unter Verwendung derselben oben beschriebenen Proteine ​​zeigen wir, dass wir mithilfe der SomaScan 5K- (COPDGene) oder 7K- (SPIROMICS) Daten auch ohne genetische Datenbanken Individuen identifizieren können. Wir zeigen dies, indem wir euklidische Abstände im N-dimensionalen Raum berechnen und zeigen, dass dieser Abstand für dieselben Probanden über Jahre hinweg im Vergleich zu nicht verwandten Individuen am kürzesten ist (ergänzende Abbildung 1). Dies zeigt, dass das Proteom selbst im Laufe der Zeit größtenteils eng mit dem Proteom desselben verbunden ist. In der JHS-Kohorte gab es 314 Probanden mit Proteomprofilen und Verwandten ersten Grades im Genomdatensatz. Von diesen hatten 125 (39,8 %) mindestens ein Geschwister in den oberen 1 % der Spiele und 85 Personen (27,1 %) hatten alle Geschwister in den oberen 1 % der Spiele (ergänzende Abbildung 2). Dies zeigt, dass ein Proteom dabei helfen kann, Verwandte ersten Grades zu identifizieren.

Da wir gezeigt haben, dass die Messung ausgewählter Proteine ​​mit starken pQTLs ähnliche genetische Informationen wie ein SNP liefern kann, kamen wir zu dem Schluss, dass die Entfernung der pQTL-Effekte auf das Proteom die Fähigkeit zur Reidentifizierung eines Subjekts beeinträchtigen würde. Eine Methode, die dies erreicht, besteht darin, jede Proteinmessung anzupassen, indem der Populationsmittelwert für diesen Genotyp subtrahiert wird (Abb. 6). Diese Methode hat den Vorteil, dass es bei Kenntnis des Genotyps des Probanden und der Korrekturfaktoren einfach ist, die tatsächlichen Proteinmessungen zu rekapitulieren. In beiden Testkohorten führte die Subtraktion des Genotypeffekts dazu, dass die Fähigkeit zur Identifizierung von Probanden verloren ging (Abb. 7).

Vergiftungsdaten durch Anpassung der Proteinwerte an den Genotyp. (A) SICAM-Histogramme, die normale Wahrscheinlichkeitsverteilungsfunktionen für SICAM-1 zeigen, die logarithmisch transformiert wurden. In diesem Beispiel ist AA der Hauptgenotyp. (B) Durch die Anpassung der Proteinspiegel durch Neuzentrierung des Mittelwerts für jede Genotypgruppe wird der Genotypeffekt auf sICAM-1-Messungen beseitigt.

Durch das Entfernen des mittleren Protein-pQTL-Effekts wird die Fähigkeit zur Zuordnung eines Proteoms zu einem Genom aufgehoben. Gezeigt wird die Genauigkeit des Matching-Algorithmus mit (rot) und ohne (blau) Entfernung des mittleren pQTL-Effekts sowie die Wahrscheinlichkeit eines zufälligen Rate-Matchings (grau).

Um zu testen, ob die Anpassung an den Genotyp die Zusammenhänge zwischen Biomarkern und Phänotypen beeinflusst, identifizierten wir zunächst zwei Proteine, sICAM-5 und DERM, die sowohl in der COPDGene- als auch in der SPIROMICS-Testkohorte signifikant mit dem Raucherstatus assoziiert waren. Als nächstes bewerteten wir die Assoziation vor und nach der Anpassung an den Genotyp. In beiden Kohorten änderten sich die Assoziationen mit dem Raucherstatus nach der Genotypanpassung nicht signifikant (Ergänzungstabelle 3). Mithilfe des logistischen elastischen Netzes können wir auch zeigen, dass man mithilfe von 67 Proteinen aus COPDGene 5K-Daten das Geschlecht mit einer Sensitivität und Spezifität von > 99 % vorhersagen kann (Ergänzungsdatei 3 und 4). Bei SPIROMICS-Probanden können wir das elastische Netz auch verwenden, um die selbst angegebene afroamerikanische Rasse und den Prozentsatz genetischer afrikanischer Abstammung zu identifizieren (Abb. 8). Die Korrelation zwischen dem Protein-Abstammungs-Score und dem genetischen Abstammungs-Score betrug 0,98.

Das Proteom kann den Prozentsatz der genetischen afrikanischen Abstammung genau vorhersagen. In SPIROMICS wurde die gepoolte genetische Abstammung anhand der beschriebenen Genotypen berechnet (PMCID: PMC6090900). Unter Verwendung von SomaScan 7K-Daten haben wir mithilfe eines elastischen Netzes einen Ancestry PC1-Protein-Score (afrikanische Abstammung) erstellt und dann unabhängige Probanden verwendet, um die Korrelation zwischen dem Prozentsatz der genetischen afrikanischen Abstammung und der Proteinabstammung zu bestimmen. Die Korrelation zwischen dem Protein-Abstammungs-Score und dem genetischen Abstammungs-Score betrug 0,98.

Bei all unseren Bemühungen, Proteome mit Genomen abzugleichen, schien unsere Übereinstimmungsgenauigkeit bei etwa 99,8 % zu liegen, selbst bei Plattformen mit > 5000 Proteinen. In fast allen Fällen, in denen es keine korrekte Übereinstimmung von Proteom und Genom gab, bestand eine nahezu 100-prozentige Wahrscheinlichkeit, dass das Proteom mit einem anderen Genom übereinstimmte. Dies deutet darauf hin, dass entweder das Proteom oder das Genom falsch gekennzeichnet wurde, wahrscheinlich aufgrund eines Probenaustauschs während der Überwachungskette vom Forschungsgegenstand bis zur Datengenerierung. Wir haben das Ausmaß und die Ursachen der schlechten Übereinstimmung mithilfe von SomaScan 7K-Daten von SPIROMICS bewertet, bei denen 18 von 5132 (0,2 %) der Proteome nicht genau mit ihrem Genom übereinstimmten. In 8 von 18 Proteomen hatte die Versuchsperson mehrere Besuche, die Proteome erzeugten, von denen viele mit demselben Genom der DNA einer anderen Person übereinstimmten, was darauf hindeutet, dass die DNA falsch gekennzeichnet war und von einer anderen Person stammte. In 4 von 18 Proteomen stimmten alle Proteome bis auf eines korrekt mit dem Genom überein und das nicht übereinstimmende Proteom hatte eine entsprechende nicht übereinstimmende Probe vom selben Besuch. Dies deutet darauf hin, dass bei einem einzigen Besuch eine Plasmaprobe zwischen zwei Probanden ausgetauscht wurde (siehe Beispiele in Abb. 9). Bei 6 von 18 Probanden, deren Genom und Proteom nicht übereinstimmten, gab es nur ein Proteom und Genom in der Datenbank und wir konnten daher nicht feststellen, ob es sich um das Proteom oder das Genom handelte, das falsch gekennzeichnet war.

Wie die Matching-Technik verwendet werden kann, um falsch gekennzeichnete Omics-Daten zu identifizieren. (A) Zwei Probanden (1 und 2) waren bei einem Basisbesuch im selben klinischen Zentrum eingeschrieben. Ihre Plasmaproteome stimmten zu Studienbeginn mit dem Genom eines anderen Probanden aus demselben klinischen Zentrum überein (P = 1), bei späteren Besuchen stimmten ihre Plasmaproteome jedoch mit dem korrekten Genom überein. Ein weiteres Beispiel hierfür sind zwei Probanden (3 und 4) aus einem anderen klinischen Zentrum, deren Plasmaproben offenbar bei ihrem Besuch im ersten Jahr ausgetauscht wurden. Dies deutet darauf hin, dass Plasmaproben in einem einzigen klinischen Zentrum während eines einzigen Besuchs ausgetauscht wurden und neu gekennzeichnet werden sollten. (B) Ein Subjekt (Subjekt A), das mehrere Besuche hatte, bei denen alle Proteome konsistent auf das Genom einer anderen Person (Subjekt B) abgebildet wurden. Dies deutet darauf hin, dass die DNA-Probe, die für die Genotypisierung verwendet wurde, ausgetauscht wurde und dass die DNA-Genotypdaten von Subjekt A als von Subjekt B stammend gekennzeichnet werden sollten. Beachten Sie, dass die x-Achse für alle Abbildungen auf einer logarithmischen Skala angezeigt wird, da die Die Wahrscheinlichkeit, dass ein nicht verwandtes Proteom mit einem nicht verwandten Genom übereinstimmt, ist im Wesentlichen Null (z. B. P < 1040).

Die Anonymisierung von Daten ist ein Schlüsselkonzept für gemeinsame Forschung und den Schutz der Privatsphäre, wird jedoch in groß angelegten proteomischen Studien noch nicht eingesetzt. Während kleine Proof-of-Concept-Studien darauf hindeuten, dass Massenspektrometrie Missense-Varianten (minor allelische Peptide) identifizieren kann, die auf spezifische SNPs hinweisen können17, wurde dieser Ansatz bisher weder in groß angelegten Kohortenstudien noch bei proteomischen Daten außerhalb der Massenspektrometrie verwendet. Diese Studie ist die erste, die in großem Maßstab zeigt, dass Proteomdaten nicht identitätsgeschützt sind, da ein einzelnes Proteom auch ohne Proteinsequenzinformationen mit hoher Genauigkeit einem bestimmten Genom zugeordnet werden kann. Die wichtigsten Erkennungsmerkmale im Proteom sind die Auswirkungen häufiger pQTLs, die einen gemessenen Proteinspiegel mit einem bestimmten Genotyp verknüpfen. Darüber hinaus zeigen wir, dass die Identifizierung nur eine kleine Anzahl von Proteinen erfordert (nur 60–100 ausgewählte Proteine), um ein individuelles Proteinprofil mit einem einzelnen genetischen Profil unter Tausenden von Probanden zu verknüpfen, und dass sie selbst bei unterstellten Genotypen genau ist. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass die Verwendung unterschiedlicher Probanden zur Auswahl der einflussreichsten Proteine ​​die Gesamtgenauigkeit verbessert, insbesondere bei Personen afrikanischer Abstammung, und unterstreicht die Bedeutung der Einbeziehung verschiedener Probanden in die Omics-Forschung. Wir zeigen, dass proteomische Daten Verhaltensmerkmale (z. B. Rauchen) identifizieren können, selbst nachdem die Merkmale entfernt wurden, die eine Zuordnung zu Genomen ermöglichen. Die Fähigkeit, jemanden durch Verknüpfung seines Proteoms mit einem Genom genau zu identifizieren, das Risiko für proteinbedingte Krankheiten wie Alpha-1-Antitrypsin-Mangel18 zu identifizieren, auf Geschlecht, genetische Abstammung oder Verwandtschaft zu schließen und auch andere Merkmale wie Körperfett, Nierenfunktion, Fitness zu charakterisieren , Rauchen, Alkoholkonsum, Diabetes, kardiovaskuläres Risiko19 und Alter20 implizieren, dass für proteomische Daten mindestens der gleiche (wenn nicht sogar strengere) Datenschutz gelten sollte wie für genetische und genomische Datensätze.

Die beiden wichtigsten technologischen Durchbrüche, die die genaue Zuordnung eines einzelnen Proteoms zu einem bestimmten Genom erleichtert haben, sind Verbesserungen bei Hochdurchsatz-Proteomtechnologien und groß angelegte pQTL-Studien. Bis vor wenigen Jahren gab es keine Proteom-Plattformen, die mehr als 100 Proteine ​​gleichzeitig und genau messen konnten, und es war wenig darüber bekannt, welche dieser Proteine ​​starke pQTLs hatten. Während in unserer Studie drei verschiedene SomaScan-Plattformen verwendet wurden, sollte für jede Plattform, die gleichzeitig Tausende von Proteinen messen kann, ein Mangel an Privatsphäre (Deidentifizierung) impliziert werden, selbst wenn keine Massenspektrometrie verwendet wird. Die logische Fortsetzung dieses Prinzips besteht darin, dass proteomische Daten zur Unterscheidung auf der Grundlage der Identifizierung des Geschlechts, der Abstammung oder der Vaterschaft eines Subjekts verwendet werden könnten. Ein Proteinprofil könnte sogar zur Identifizierung naher Verwandter für forensische Zwecke genutzt werden.

Die Fähigkeit, Proteome mit Genomen zu verknüpfen, ist nicht immer eine schlechte Sache, insbesondere wenn es um die Bereinigung von Daten geht. Beispielsweise verwendeten wir den Abgleich, um zu identifizieren, wann Genome oder Proteome in großen Kohortendatenbanken wahrscheinlich falsch gekennzeichnet wurden. Wenn mehr als zwei Omics-Datensätze von Probanden verfügbar sind, kann die Verwendung mehrerer paarweiser Abgleiche sogar genau bestimmen, welcher Dateneintrag falsch beschriftet ist. In unserer Arbeit zeigen wir Beispiele von Plasma- und DNA-Proben, die wahrscheinlich ausgetauscht wurden, und haben Korrekturen bei der Kennzeichnung der Daten vorgeschlagen. Bei umsichtiger Anwendung kann diese Matching-Technik Vertrauen schaffen und die Qualität von Multi-Omic-Datenbanken verbessern.

Anonymisierung und Datenschutz durch Informatik sind ein wachsendes Feld. Wir erkennen an, dass unsere vorgeschlagenen Maßnahmen zur Wahrung der Privatsphäre nur anwendbar sind, wenn Naive Bayes (NB) für die Profilerstellung verwendet wird, und wir erkennen die große Menge neuer Literatur zu alternativen Datenverschleierungsmethoden zum Schutz der Privatsphäre vieler Arten von Daten an21. Diese Methoden reichen von Datenverschleierung/-maskierung auf Branchenebene und sicheren Daten-Outsourcing-Techniken wie Substitution, Shuffling, numerische Varianz und Null-Out/Maskierung bis hin zu strengeren statistischen Datenverschleierungsmethoden, die in hippokratischen Datenbanken22 verwendet werden, und datenschutzschonendem Data-Mining23 solche auf T-Closeness24 und Differential-Privacy25 basierenden Methoden. Maschinelles Lernen26 und Deep Learning27 werden auch bei der Identifizierung proteomischer Merkmale eingesetzt, und wir können möglicherweise dieselben Methoden nutzen, um identifizierbare Omics-Merkmale zu isolieren und zu „verhüllen“ und gleichzeitig die gewünschten statistischen Eigenschaften der Daten für nachgelagerte Anwendungen beizubehalten. Wir glauben auch, dass neue Omics-spezifische Methoden zum Schutz der Privatsphäre eingeführt werden müssen, um die Privatsphäre mit Omics-Daten vor Angriffsmethoden zur Modellumgehung zu schützen, die sowohl auf traditionelle Profiling-Modelle (wie NB) als auch auf moderne, auf Deep Learning basierende Profiling-Modelle abzielen können.

Bioethiker hatten damit gerechnet, dass andere Omics-Daten wie Proteomdaten eines Tages identifizierbar sein und Datenschutzbedenken hervorrufen könnten28, und unsere Arbeit zeigt, dass dieser Tag auch für Proteomtechnologien gekommen ist, die nicht auf Peptidsequenzierung basieren. Leider gelten die meisten Regierungsrichtlinien noch nicht für neuere Omics-Daten wie Proteomik (eine Ausnahme könnte die Datenschutz-Grundverordnung in der Europäischen Union sein, die biologische Äquivalente von Genotypen schützt). Wir schlagen vor, die biomedizinischen Forschungsrichtlinien zu präzisieren oder zu ändern, um alle Omics-Daten (z. B. Messung von Proteinen oder anderen Molekülen wie Metaboliten) einzubeziehen, in denen der Genotyp ermittelt werden kann29, aber auch, dass über Genotyp-Äquivalente hinausgehende Überlegungen berücksichtigt werden, um alle Omics-Merkmale einzubeziehen (z. B. Verhaltensinformationen wie Rauchen). Da der Datenschutz unvollständig ist und häufig verletzt wird, könnte eine ergänzende Lösung zur Wahrung der Privatsphäre bioinformatische und identitätserhaltende Anpassungen proteomischer Daten umfassen. Wir haben gezeigt, dass die Anpassung der genetischen Auswirkungen auf Proteinmessungen die Privatsphäre schützt, indem die genetischen Auswirkungen verschleiert werden, aber nicht-genetische Assoziationen (z. B. Rauchen) dadurch nicht verändert werden. Diese Strategie ist einfach und kann bei Bedarf umgekehrt werden, wenn ein Forscher über die begleitenden genetischen Informationen verfügt. Ein Nachteil der Entfernung der genetischen Kodierung des Proteoms besteht darin, dass dadurch Assoziationen entfernt werden könnten, bei denen der Genotyp den Proteineffekt vermittelt. Ein weiterer Vorbehalt unserer Arbeit besteht darin, dass die Identifizierungsmethoden möglicherweise nicht außerhalb der europäischen Abstammung verallgemeinert werden können, wenn das Training der Methode keine unterschiedlichen Bevölkerungsgruppen umfasst. Während eine geringere Identifizierbarkeit von Vorteil sein kann, können künftige Algorithmen zum Schutz der Privatsphäre darunter leiden, wenn die Identifizierungsmerkmale in unterversorgten Bevölkerungsgruppen nicht vollständig bekannt sind.

COPDGen. Genotypdaten und SomaScan finden Sie auf dbGaP für COPDGene (phs000179). JHS. Genotypdaten können über TOPMed angefordert werden und SomaScan ist auf dbGaP (phs000964) zu finden. SPIROMIK. Genotypdaten und SomaScan finden Sie auf dbGaP (phs18817) oder durch Kontaktaufnahme mit dem SPIROMICS GIC (https://www.spiromics.org/spiromics/contact-gic). MESA. Genotyp- und SomaScan-Daten können über TOPMed und dbGaP (phs001416) angefordert werden. ARIC. Einzelne Genotypisierungsdaten von ARIC sind über dbGaP (phs000668) verfügbar. Proteomdaten sowie phänotypische Daten sind per Antrag über das ARIC Data Coordinating Center (https://sites.cscc.unc.edu/aric/distribution-agreements) verfügbar.

Jeffreys, AJ, Wilson, V. & Thein, SL Personenspezifische „Fingerabdrücke“ menschlicher DNA. Nature 316(6023), 76–79 (1985).

Artikel ADS CAS PubMed Google Scholar

Lander, ES et al. Erste Sequenzierung und Analyse des menschlichen Genoms. Nature 409(6822), 860–921 (2001).

Artikel ADS CAS PubMed Google Scholar

Venter, JC et al. Die Sequenz des menschlichen Genoms. Science 291(5507), 1304–1351 (2001).

Artikel ADS CAS PubMed Google Scholar

Sweeney, L., A. Abu und J. Winn, Identifying Participants in the Personal Genome Project by Name CoRR, 2013.

Beskow, LM Lehren aus HeLa-Zellen: Die Ethik und Politik von Bioproben. Annu. Rev. Genomics Hum. Genet. 17, 395–417 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Schadt, EE, Woo, S. & Hao, K. Bayesianische Methode zur Vorhersage einzelner SNP-Genotypen aus Genexpressionsdaten. Nat. Genet. 44(5), 603–608 (2012).

Artikel CAS PubMed Google Scholar

Sun, W. et al. Häufige genetische Polymorphismen beeinflussen Blutbiomarkermessungen bei COPD. PLoS Genet. 12(8), e1006011 (2016).

Artikel PubMed PubMed Central Google Scholar

Sun, BB et al. Genomatlas des menschlichen Plasmaproteoms. Nature 558(7708), 73–79 (2018).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Regan, EA et al. Studiendesign zur genetischen Epidemiologie von COPD (COPDGene). COPD 7(1), 32–43 (2010).

Artikel PubMed Google Scholar

Cho, MH et al. Risikoorte für chronisch obstruktive Lungenerkrankungen: Eine genomweite Assoziationsstudie und Metaanalyse. Lanzettenatmung. Med. 2(3), 214–225 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Couper, D. et al. Design der Teilpopulationen und Zwischenergebnisse in der COPD-Studie (SPIROMICS). Thorax 69(5), 491–494 (2014).

Artikel PubMed Google Scholar

Li, X. et al. Genomweite Assoziationsstudie zur Lungenfunktion und klinischen Auswirkungen bei starken Rauchern. BMC Med. Genet. 19(1), 134 (2018).

Artikel PubMed PubMed Central Google Scholar

Bild, DE et al. Multiethnische Studie zur Atherosklerose: Ziele und Design. Bin. J. Epidemiol. 156(9), 871–881 (2002).

Artikel PubMed Google Scholar

Kowalski, MH et al. Die Verwendung von mehr als 100.000 Gesamtgenomsequenzen des NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium verbessert die Imputationsqualität und die Erkennung seltener Variantenassoziationen in gemischten afrikanischen und hispanischen/lateinamerikanischen Populationen. PLoS Genet. 15(12), e1008500 (2019).

Artikel PubMed PubMed Central Google Scholar

Candia, J. et al. Bewertung der Variabilität im SOMAscan-Assay. Wissenschaft. Rep. 7(1), 14248 (2017).

Artikel ADS PubMed PubMed Central Google Scholar

Shabalin, AA Matrix eQTL: Ultraschnelle eQTL-Analyse über große Matrixoperationen. Bioinformatik 28(10), 1353–1358 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Li, S. et al. Zu den Datenschutzrisiken der Weitergabe klinischer Proteomikdaten. AMIA Jt. Summits Transl. Wissenschaft. Proz. 2016, 122–131 (2016).

PubMed PubMed Central Google Scholar

Serban, KA et al. Einzigartige und gemeinsame systemische Biomarker für Emphyseme bei Alpha-1-Antitrypsin-Mangel und chronisch obstruktiver Lungenerkrankung. EBioMedicine 84, 104262 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Williams, SA et al. Plasmaproteinmuster als umfassende Indikatoren für die Gesundheit. Nat. Med. 25(12), 1851–1857 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Lehallier, B. et al. Wellenförmige Veränderungen in den Proteomprofilen des menschlichen Plasmas über die Lebensspanne. Nat. Med. 25(12), 1843–1850 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Gertz, M. und S. Jajodia, Handbook of Database Security: Applications and Trends. 2007.

Agrawal, R., et al. Hippokratische Datenbanken, in Proceedings of the 28th International Conference on Very Large Data Bases 143–154 (VLDB Endowment, 2002).

Aggarwal, CC & Yu, PS Privacy-Preserving Data Mining: Modelle und Algorithmen (Springer, 2008).

Buchen Sie Google Scholar

Li, N., T. Li und S. Venkatasubramanian. t-Closeness: Privatsphäre jenseits von K-Anonymität und L-Diversität, 2007 IEEE 23rd International Conference on Data Engineering. 2007.

Ninghui, L., et al. Differenzielle Privatsphäre: Von der Theorie zur Praxis 1 (Morgan & Claypool, 2016).

Barla, A. et al. Methoden des maschinellen Lernens für prädiktive Proteomik. Kurzes Bioinform. 9(2), 119–128 (2008).

Artikel CAS PubMed Google Scholar

Wen, B. et al. Deep Learning in der Proteomik. Proteomics 20(21–22), e1900335 (2020).

Artikel PubMed Google Scholar

Boonen, K. et al. Jenseits der Gene: Reidentifizierbarkeit proteomischer Daten und ihre Auswirkungen auf die personalisierte Medizin. Genes 10(9), 66 (2019).

Artikel Google Scholar

Clayton, EW et al. Das Gesetz der genetischen Privatsphäre: Anwendungen, Auswirkungen und Einschränkungen. J. Law Biosci. 6(1), 1–36 (2019).

Artikel PubMed PubMed Central Google Scholar

Referenzen herunterladen

Finanzielle Unterstützung und Danksagungen: COPDGene: Das beschriebene Projekt wurde durch die Auszeichnungen Nr. U01 HL089897 und Nr. U01 HL089856 des National Heart, Lung, and Blood Institute unterstützt. Der Inhalt liegt ausschließlich in der Verantwortung der Autoren und gibt nicht unbedingt die offiziellen Ansichten des National Heart, Lung, and Blood Institute oder der National Institutes of Health wieder. Finanzierung der COPD-Stiftung: COPDGene wird auch von der COPD-Stiftung durch Beiträge an einen Branchenbeirat unterstützt, der sich aus AstraZeneca, Boehringer-Ingelheim, Genentech, GlaxoSmithKline, Novartis, Pfizer, Siemens und Sunovion zusammensetzt. COPDGene®-Forscher – Kerneinheiten: Verwaltungszentrum: James D. Crapo, MD (PI); Edwin K. Silverman, MD, PhD (PI); Barry J. Make, MD; Elizabeth A. Regan, MD, PhD. Genetisches Analysezentrum: Terri Beaty, PhD; Ferdouse Begum, PhD; Peter J. Castaldi, MD, MSc; Michael Cho, MD; Dawn L. DeMeo, MD, MPH; Adel R. Boueiz, MD; Marilyn G. Foreman, MD, MS; Eitan Halper-Stromberg; Lystra P. Hayden, MD, MMSc; Craig P. Hersh, MD, MPH; Jacqueline Hetmanski, MS, MPH; Brian D. Hobbs, MD; John E. Hokanson, MPH, PhD; Nan Laird, PhD; Christoph Lange, PhD; Sharon M. Lutz, PhD; Merry-Lynn McDonald, PhD; Margaret M. Parker, PhD; Dmitry Prokopenko, Ph.D.; Dandi Qiao, PhD; Elizabeth A. Regan, MD, PhD; Phuwanat Sakornsakolpat, MD; Edwin K. Silverman, MD, PhD; Emily S. Wan, MD; Sungho Won, PhD. Bildgebungszentrum: Juan Pablo Centeno; Jean-Paul Charbonnier, PhD; Harvey O. Coxson, PhD; Craig J. Galban, PhD; MeiLan K. Han, MD, MS; Eric A. Hoffman, Stephen Humphries, PhD; Francine L. Jacobson, MD, MPH; Philip F. Judy, PhD; Ella A. Kazerooni, MD; Alex Kluiber; David A. Lynch, MB; Pietro Nardelli, PhD; John D. Newell, Jr., MD; Aleena Notar; Andrea Oh, MD; Elizabeth A. Regan, MD, PhD; James C. Ross, PhD; Raul San Jose Estepar, PhD; Joyce Schroeder, MD; Jered Sieren; Berend C. Stoel, PhD; Jürg Tschirren, PhD; Edwin Van Beek, MD, PhD; Bram van Ginneken, PhD; Eva van Rikxoort, PhD; Gonzalo Vegas Sanchez-Ferrero, PhD; Lucas Veitel; George R. Washko, MD; Carla G. Wilson, MS; PFT QA Center, Salt Lake City, UT: Robert Jensen, PhD. Datenkoordinierungszentrum und Biostatistik, National Jewish Health, Denver, CO: Douglas Everett, PhD; Jim Crooks, PhD; Katherine Pratte, PhD; Matt Strand, PhD; Carla G. Wilson, MS. Epidemiology Core, University of Colorado Anschutz Medical Campus, Aurora, CO: John E. Hokanson, MPH, PhD; Gregory Kinney, MPH, PhD; Sharon M. Lutz, PhD; Kendra A. Young, PhD. Kern der Sterblichkeitsentscheidung: Surya P. Bhatt, MD; Jessica Bon, MD; Alejandro A. Diaz, MD, MPH; MeiLan K. Han, MD, MS; Barry Make, MD; Susan Murray, ScD; Elizabeth Regan, MD; Xavier Soler, MD; Carla G. Wilson, MS. Biomarker-Kern: Russell P. Bowler, MD, PhD; Katerina Kechris, PhD; Farnoush Banaei-Kashani, Ph.D. BDH wird von NIH K08 HL136928, U01 HL089856, R01 HL135142, R01 HL139634 und R01 HL147148 unterstützt. Danksagungs- und Finanzierungserklärung für SPIROMICS: Die Autoren danken den SPIROMICS-Teilnehmern und den teilnehmenden Ärzten, Forschern und Mitarbeitern dafür, dass sie diese Forschung ermöglicht haben. Weitere Informationen zur Studie und zum Zugriff auf SPIROMICS-Daten finden Sie unter www.spiromics.org. Die Autoren danken der University of North Carolina at Chapel Hill BioSpecimen Processing Facility für die Probenverarbeitung, Lagerung und Probenauszahlung (http://bsp.web.unc.edu/). Wir möchten den folgenden aktuellen und ehemaligen Forschern der SPIROMICS-Standorte und Lesezentren danken: Neil E Alexis, MD; Wayne H. Anderson, PhD; Mehrdad Arjomandi, MD; Igor Barjaktarevic, MD, PhD; R. Graham Barr, MD, DrPH; Patricia Basta, PhD; Lori A Bateman, MSc; Surya P. Bhatt, MD; Eugene R. Bleecker, MD; Richard C. Boucher, MD; Russell P. Bowler, MD, PhD; Stephanie A. Christenson, MD; Alejandro P. Comellas, MD; Christopher B. Cooper, MD, PhD; David J Couper, PhD; Gerard J. Criner, MD; Ronald G. Crystal, MD; Jeffrey L. Curtis, MD; Claire M Doerschuk, MD; Mark T. Dransfield, MD; Brad Drummond, MD; Christine M Freeman, PhD; Craig Galban, PhD; MeiLan K Han, MD, MS; Nadia N. Hansel, MD, MPH; Annette T. Hastie, PhD; Eric A. Hoffman, PhD; Yvonne Huang, MD; Robert J. Kaner, MD; Richard E. Kanner, MD; Eric C. Kleerup, MD; Jerry A Krishnan, MD, PhD; Lisa M. LaVange, PhD; Stephen C. Lazarus, MD; Fernando J Martinez, MD, MS; Deborah A. Meyers, PhD; Wendy C. Moore, MD; John D. Newell Jr., MD; Robert Paine, III, MD; Laura Paulin, MD, MHS; Stephen P Peters, MD, PhD; Cheryl Pirozzi, MD; Nirupama Putcha, MD, MHS; Elizabeth C. Oelsner, MD, MPH; Wanda K O'Neal, PhD; Victor E. Ortega, MD, PhD; Sanjeev Raman, MBBS, MD; Stephen I. Rennard, MD; Donald P. Tashkin, MD; J Michael Wells, MD; Robert A. Wise, MD; und Prescott G. Woodruff, MD, MPH. Die Projektleiter der Lungenabteilung des National Heart, Lung, and Blood Institute waren Lisa Postow, PhD, und Lisa Viviano, BSN; SPIROMICS wurde durch Verträge des NIH/NHLBI (HHSN268200900013C, HHSN268200900014C, HHSN268200900015C, HHSN268200900016C, HHSN268200900017C, HHSN268200900018C, HHSN) unterstützt 268200900019C, HHSN268200900020C), Zuschüsse des NIH/NHLBI (U01 HL137880 und U24 HL141762) und ergänzt durch Beiträge der Stiftung für das NIH und die COPD Foundation von AstraZeneca/MedImmune; Bayer; Bellerophon Therapeutics; Boehringer-Ingelheim Pharmaceuticals, Inc.; Chiesi Farmaceutici SpA; Forest Research Institute, Inc.; GlaxoSmithKline; Grifols Therapeutics, Inc.; Ikaria, Inc.; Novartis Pharmaceuticals Corporation; Nycomed GmbH; ProterixBio; Regeneron Pharmaceuticals, Inc.; Sanofi; Sunovion; Takeda Pharmaceutical Company; und Theravance Biopharma und Mylan. MESA-Anerkennung: Das MESA-Projekt wird vom National Heart, Lung, and Blood Institute (NHLBI) in Zusammenarbeit mit MESA-Forschern unterstützt. Unterstützung für MESA wird durch die Verträge 75N92020D00001, HHSN268201500003I, N01-HC-95159, 75N92020D00005, N01-HC-95160, 75N92020D00002, N01-HC-95161, 75N92020D000 bereitgestellt 03, N01-HC-95162, 75N92020D00006, N01-HC-95163, 75N92020D00004 , N01-HC-95164, 75N92020D00007, N01-HC-95165, N01-HC-95166, N01-HC-95167, N01-HC-95168, N01-HC-95169, UL1-TR-000040, UL1-TR-001079 und UL1-TR-001420. Teilweise auch unterstützt durch das National Center for Advancing Translational Sciences, CTSI Grant UL1TR001881, und das National Institute of Diabetes and Digestive and Kidney Disease Diabetes Research Center (DRC) Grant DK063491 an das Southern California Diabetes Endocrinology Research Center. Die Infrastruktur für das CHARGE-Konsortium wird teilweise durch den Zuschuss R01HL105756 des National Heart, Lung, and Blood Institute (NHLBI) unterstützt. Molekulare Daten für das Trans-Omics in Precision Medicine (TOPMed)-Programm wurden vom National Heart, Lung and Blood Institute (NHLBI) unterstützt. SOMAscan-Proteomik für NHLBI TOPMed: Multi-Ethnic Study of Atherosclerosis (MESA)“ (phs001416.v1.p1) wurde am Broad Institute und der Beth Israel Proteomics Platform (HHSN268201600034I) durchgeführt. Kernunterstützung einschließlich zentralisierter genomischer Lesekartierung und Genotypaufruf mit Variantenqualitätsmetriken und Filterung wurden vom TOPMed Informatics Research Center (3R01HL-117626-02S1; Vertrag HHSN268201800002I) bereitgestellt. Kernunterstützung, einschließlich Phänotypharmonisierung, Datenverwaltung, Probenidentitäts-QC und allgemeine Programmkoordination, wurde vom TOPMed Data Coordinating bereitgestellt Center (R01HL-120393; U01HL-120393; Vertrag HHSN268201800001I). Wir danken den Studien und Teilnehmern, die biologische Proben und Daten für TOPMed bereitgestellt haben. JHS-Anerkennung: Die Jackson Heart Study (JHS) wird in Zusammenarbeit mit der Jackson State University unterstützt und durchgeführt (HHSN268201800013I), Tougaloo College (HHSN268201800014I), das Mississippi State Department of Health (HHSN268201800015I) und das University of Mississippi Medical Center (HHSN268201800010I, HHSN268201800011I und HHSN268201800012I). ) Verträge des National Heart, Lung, and Blood Institute (NHLBI) und des National Institut für Minderheitengesundheit und Gesundheitsdisparitäten (NIMHD). Die Autoren danken auch den Mitarbeitern und Teilnehmern des JHS. ARIC-Anerkennung. Die Autoren danken den Mitarbeitern und Teilnehmern der Studie „Atherosclerosis Risk in Communities“ für ihre wichtigen Beiträge. Die Studie „Atherosclerosis Risk in Communities“ wurde ganz oder teilweise aus Bundesmitteln des National Heart, Lung, and Blood Institute, der National Institutes of Health, des Department of Health and Human Services (Vertragsnummern HHSN268201700001I, HHSN268201700002I, HHSN268201700003I, HHSN268201700004I) finanziert HHSN268201700005I). Die finanzielle Unterstützung für „Building on GWAS for NHLBI-diseases: the US CHARGE consortium“ wurde vom NIH durch den American Recovery and Reinvestment Act von 2009 (ARRA) (5RC2HL102419) bereitgestellt.

Die in diesem Manuskript zum Ausdruck gebrachten Ansichten sind die der Autoren und geben nicht unbedingt die Ansichten des National Heart, Lung, and Blood Institute wieder. die National Institutes of Health; oder das US-Gesundheitsministerium.

National Jewish Health, Denver, CO, USA

Andrew C. Hill, Claire Guo, Katherine A. Pratte und Russell P. Bowler

Colorado School of Public Health, Fort Collins, CO, USA

Elizabeth M. Litkowski

Zentrum für Genomik im öffentlichen Gesundheitswesen, University of Virginia, Charlottesville, VA, USA

Ani W. Manichaikul, Stephen S. Rich und Xiaowei Hu

Zentrum für Epidemiologie und Humangenetik, UTHealth School of Public Health, Houston, TX, USA

Bing Yu & Betty A. Gorbet

University of Colorado – Anschutz Medical Campus, Aurora, CO, USA

Iain R. Konigsberg, Leslie A. Lange, Katerina J. Kechris, Matthew DeCamp und Marilyn Coors

Mayo Clinic, Rochester, MN, USA

Victor E. Ortega

Abteilung für Pädiatrie, Institut für translationale Genomik und Bevölkerungswissenschaften, Lundquist-Institut für biomedizinische Innovation am Harbor-UCLA Medical Center, Torrance, CA, USA

Jerome I. Rotter

Abteilung für Herz-Kreislauf-Medizin, Herz-Kreislauf-Forschungszentrum, Beth Israel Deaconess Medical Center, Boston, MA, USA

Robert E. Gerzsten

Metabolomics Platform, Broad Institute of Massachusetts Institute of Technology und Harvard, Cambridge, MA, USA

Clary B. Clish

Universität von Michigan, Ann Arbor, MI, USA

Jeffrey L. Curtis

Novartis, Basel, Schweiz

Melody Morris, Joseph Loureiro & Debby Ngo

Universität von North Carolina in Chapel Hill, Chapel Hill, NC, USA

Wanda K. O'Neal

Universität von Arizona, Tucson, AZ, USA

Deborah A. Meyers und Eugene R. Bleecker

Harvard Medical School, Boston, MA, USA

Brian D. Hobbs und Michael H. Cho

Abteilung für Lungen- und Intensivmedizin, Brigham and Women's Hospital, Boston, MA, USA

Brian D. Hobbs und Michael H. Cho

Channing Abteilung für Netzwerkmedizin, Brigham and Women's Hospital, Boston, MA, USA

Brian D. Hobbs und Michael H. Cho

University of Colorado Denver, Denver, CO, USA

Farnoush Banaei-Kashani

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Alle Autoren haben das Manuskript gelesen und überprüft und es wurde von den im Manuskript beschriebenen Kohorten genehmigt. Im Folgenden werden die spezifischen Autorenbeiträge aufgeführt. (1) Konzeption bzw. Gestaltung des Werks: RPB (2) Erwerb: RPB, EML, VEO, SSR, JIR, REG, CBC, JC, XH, DN, WKO, DM, EB, MO, MM, JL (3) Analyse: RPB, ACH, CG, AM, BY, BR, EML, KAP, MHC, IRK (4) Interpretation der Daten: RPB, ACH, LL, KJK, MD, MC, BDH, FB

Korrespondenz mit Russell P. Bowler.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Hill, AC, Guo, C., Litkowski, EM et al. Groß angelegte proteomische Studien führen zu neuen Überlegungen zum Datenschutz. Sci Rep 13, 9254 (2023). https://doi.org/10.1038/s41598-023-34866-6

Zitat herunterladen

Eingegangen: 12. Oktober 2022

Angenommen: 09. Mai 2023

Veröffentlicht: 07. Juni 2023

DOI: https://doi.org/10.1038/s41598-023-34866-6

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.