Speicher für Genomdaten und Sequenzierung

Die Fähigkeit, genetische Informationen - den biologischen Code allen Lebens - zu extrahieren, hat sich im letzten Jahrzehnt dramatisch verändert.

Die neuen Techniken werden kollektiv als "Next Generation Sequencing" oder NGS bezeichnet. Im Vergleich zur herkömmlichen Sequenzierungsmethode der ersten Generation ("Sanger-Sequenzierung") hat NGS einen höheren Durchsatz an genetischen Sequenzen, eine automatisierte Produktion und drastisch niedrigere Kosten.

Um dies in einen Zusammenhang zu stellen, brauchte das Human Genome Project zehn Jahre und fast drei Milliarden Dollar, um das erste menschliche Genom zu sequenzieren. Mit NGS kann ein komplettes menschliches Genom innerhalb von einem Tag für ungefähr $ 1000 sequenziert werden.

Die Folge von NGS war eine schnelle Erweiterung der Menge der gesammelten genomischen Daten und der Vielzahl von Anwendungen, die diese Daten verwenden. Heute dient die genetische Sequenzierung als Grundlage für:

  • Primäre Biowissenschaftsforschung (Universitäten, Institute)
  • Diagnostik (klinische Anwendung)
  • Arzneimittelentdeckung (Pharma)
  • Biomarker-Entdeckung (vor allem Pharmaunternehmen)
  • Personalisierte Medizin (Vererbung usw.)
  • Landwirtschaft und Tierforschung

Die Vorteile von NGS sind konkret. Zum Beispiel ist 10% des Krebses erblich. Aufgrund von NGS können Menschen einfach mit ihren Ärzten einen Test vereinbaren, der feststellt, ob sie (und damit ihre Familienmitglieder) ein Risiko für bestimmte Krebsarten haben. Neugeborene erhalten üblicherweise Gentests. Diese Tests suchen nach genetischen Defekten, die behandelt werden können, um Tod oder Krankheiten in der Zukunft zu verhindern. Erwachsene können getestet werden, um festzustellen, ob sie Träger von Krankheiten wie Mukoviszidose sind, Tay-Sachs-Krankheit (eine tödliche Krankheit, die durch unsachgemäße Stoffwechsel von Fett führt), oder Sichelzellenanämie.

NGS hat die Speicheranforderungen für genomische Daten dramatisch erhöht. Wenn Sequenzer weiter entwickelt werden, produzieren sie mehr Daten. Außerdem hat die Effizienz die Kosten reduziert, was bedeutet, dass mehr Organisationen mehr Sequenzierung durchführen können. Sequenzer erzeugen so viele Daten, dass es nicht ungewöhnlich ist, dass ein einzelnes Labor mehr als eine Milliarde Dateien pro Jahr generiert. Weltweit verdoppeln sich die Sequenzdaten etwa alle sieben Monate und übertreffen YouTube, Twitter und Astronomie hinsichtlich des Speicherwachstums. Um Schritt zu halten, müssen IT-Administratoren Möglichkeiten finden, ihre Speicherinfrastruktur zu erweitern und zu verwalten.

Legacy-Storage-Systeme, die auf 15- oder sogar 20-alten Designs basieren, können die Anforderungen moderner NGS-Workflows nicht erfüllen. IT-Organisationen sind nun gezwungen, verschiedene Lösungen für verschiedene Teile ihrer NGS-Workflows zu verwenden, um die Ineffizienzen ihrer Legacy-Systeme zu kompensieren. Mehrere Systeme erhöhen die Komplexität, was zu höheren Wartungskosten führt. Mehrere Systeme können auch Datensilos verursachen, sodass eine Gruppe von Forschern möglicherweise nicht auf Daten zugreifen kann, die ein anderes Team verwendet. Ein Mangel an Zusammenarbeit kann die Dauer des Ergebnisses verlangsamen, wodurch die Zeit bis zur Marktreife eines Produkts verzögert werden kann.

Leistung Herausforderungen

Rohe NGS-Daten, die von einem Sequenzer kommen, bestehen aus vielen kleinen TIFF-Dateien, die jeweils ungefähr 1K groß sind. Die große Anzahl kleiner Dateien verlangsamt die Leistung von Legacy-Speichersystemen. Wenn das passiert, sind die Rechenressourcen von Daten ausgehungert und Forscher können ihre Ergebnisse nicht in Echtzeit erhalten. Die Verlangsamung hochbezahlter Forscher ist nicht nur teuer, sondern kann sich auch auf die Markteinführungszeit auswirken.

Effizienz Herausforderungen

Kleine Dateien machen den Großteil eines NGS-Datensatzes aus, aber Legacy-Systeme speichern sie ineffizient, weil sie auf Spiegelung angewiesen sind, wodurch Speicherplatz verschwendet wird. Der verschwenderische Speicherplatz bedeutet höhere Kosten, sowohl in Bezug auf die Anzahl der Festplatten, die die IT kaufen muss, als auch hinsichtlich der Infrastrukturkosten wie Rack-Platz, Strom und Kühlung.

Sichtbarkeitsherausforderungen

NGS-Organisationen können am Ende Milliarden von Dateien speichern. Legacy-Speichersysteme können dem Speichersystem keine Transparenz verleihen, wenn IT-Administratoren so viele Assets verwalten müssen. Legacy-Systeme verwenden separate Off-Cluster-Appliances, die veraltete Methoden zum Sammeln von Daten verwenden. Bei diesen Methoden handelt es sich um sequenzielle Prozesse, z. B. Tree Walks, die in einer angemessenen Zeit keine Ergebnisse liefern können, wenn eine Organisation so viele Assets speichert. Es kann Tage oder Wochen dauern, um Antworten auf einfache Fragen zu erhalten, die lange zurückliegen, wenn diese Antworten von Nutzen sein können.

Cloud-Herausforderungen

NGS-Organisationen blicken aus zwei Gründen auf die Cloud. Zum einen ist die Cloud mit ihren skalierbaren On-Demand-Ressourcen die logische Antwort, wenn eine Organisation zusätzliche Rechenleistung für ein anspruchsvolles oder unerwartetes Projekt benötigt. Zum anderen teilen viele NGS-Organisationen Daten und arbeiten mit Forschern auf der ganzen Welt an Projekten zusammen. Die Cloud ist eine Möglichkeit, Daten leicht zugänglich zu machen. Die Herausforderung besteht darin, dass ältere Anbieter von Dateispeichern entweder keine Cloud-Lösung haben oder Versionen anbieten, die gepatcht wurden, um sie "cloud-fähig" zu machen. Probleme mit vorhandenen Cloud-Lösungen sind unter anderem schlechte Leistung, fehlende Protokollunterstützung und Komplexität.

QF2 ist das Dateispeichersystem für NGS

Qumulo File Fabric (QF2) ist eine ideale Lösung zum Speichern, Verwalten und Zugreifen auf genomische Sequenzdaten. Es verarbeitet kleine Dateien effizient und die Unterstützung von SMB, NFS, FTP und REST bedeutet, dass alle Phasen der Genomanalyse-Pipeline denselben QF2-Cluster verwenden können. QF2 ist ein modernes Dateispeichersystem, das auf Milliarden von Dateien skaliert werden kann und im Rechenzentrum und in der öffentlichen Cloud ausgeführt wird.

Höchstleistungslösung für genomische Datenspeicherung

Performance

QF2 verarbeitet kleine Dateien wie TIFF und BCL genauso effizient wie große. Mit QF2 können Forscher ihre Analysen in Echtzeit durchführen, was sich in Kosteneffizienz und schnellerer Markteinführung niederschlägt

erschwinglicher als herkömmliche genomische Datenspeicher

Kosten

QF2 stellt 100% der vom Benutzer bereitgestellten Kapazität für die Speicherung von Dateien zur Verfügung, im Gegensatz zu herkömmlichen Scale-Up- und Scale-Out-NAS, die nur die Verwendung von 70% bis 80% der nutzbaren Kapazität empfehlen. Die effiziente Nutzung von Festplattenspeicher verringert den Daten-Footprint und spart nicht nur die Kosten des Speichersystems, sondern auch die Kosten für die Infrastruktur

Echtzeit-Sichtbarkeit und Kontrolle für Ihren genomischen Datenspeicher

Echtzeit-Sichtbarkeit und Kontrolle

QF2 Echtzeit-Sichtbarkeit und Kontrolle bietet Informationen über die Vorgänge im Speichersystem bis auf Dateiebene, unabhängig davon, wie viele Dateien sich im System befinden. Systemadministratoren können Quoten in Echtzeit anwenden. Mit den Tools Capacity Explorer und Capacity Trends erhält die IT die Informationen, die sie benötigt, um vernünftig für die Zukunft zu planen und kein Geld wegen Überprovisionierung zu verschwenden. QF2 ist so einfach einzurichten und zu verwalten, dass, sobald die leitenden Mitarbeiter die Konfiguration definiert haben, das tägliche Management von den jüngeren Mitarbeitern erledigt werden kann

genomischer Datenspeicher für On-Premise oder in der Cloud

Cloud und On-Prem

Organisationen, die einige ihrer genomischen Analyse-Workloads in die Cloud verlagern möchten, können QF2 für AWS nutzen. QF2 bietet die höchste Leistung aller Cloud-Angebote und ist das einzige Dateispeichersystem in der Cloud mit einer ganzen Reihe von Unternehmensfunktionen, z. B. Multi-Protokoll-Unterstützung und Echtzeit-Sichtbarkeit.

QF2 verwendet die fortlaufende Replikation, um Daten dorthin zu verschieben, wo sie benötigt werden. Die fortlaufende Replikation erstellt eine Kopie der Daten in einem Verzeichnis in Ihrem primären Cluster und überträgt sie in ein Verzeichnis auf einem zweiten Zielcluster. Die fortlaufende Replikation wird immer ausgeführt (außer Sie konfigurieren es nicht). QF2 nimmt Ihre letzten Änderungen und repliziert sie, ohne dass Sie sich darum kümmern müssen.

Kontinuierliche Replikation bedeutet, dass Sie Daten einfach von Ihrem lokalen QF2-Cluster in Ihren QF2-Cluster in AWS übertragen, Ihre Berechnungen durchführen und dann die Ergebnisse zurück an den On-Prem Storage übertragen können.

skalierbare Lösungen für genomische Datenspeicherung

Skalierbarkeit

Jedes Mal, wenn Kunden einen Knoten zu einem QF2-Cluster hinzufügen, werden sie sowohl hinsichtlich der Kapazität als auch der Leistung linear skaliert. Es gibt keine praktische Grenze für die Anzahl der Dateien, die QF2 speichern kann.

Genomischer Datenspeicher: NGS-Workflow

Hier ist ein Beispielworkflow für NGS on locals:

Diagramm der Verwendung einer genomischen Datenspeicherlösung vor Ort

In diesem Beispiel erzeugen die DNA-Sequenzer viele kleine BCL-Dateien oder Basisaufrufe, bei denen es sich um ungeordnete DNA-Sequenzfragmente handelt. Ein Prozess des Demultiplexens assembliert BCL-Dateien in eine FASTQ-Datei, die eine Textdatei ist, die die kombinierten Ausgabeergebnisse der BCL-Dateien zusammen mit entsprechenden Qualitätsbewertungen speichert.

Die Computerfarm führt Ausrichtung und Variantenaufruf aus. In Ausrichtung werden Sequenzfragmente auf Qualität geprüft, vorverarbeitet und auf ein Referenzgenom ausgerichtet. Eine BAM-Datei ist eine Binärdatei, die diese Ausrichtungsdaten speichert. Der Variantenaufruf sucht nach Unterschieden zwischen den Daten und dem Referenzgenom. Die Ergebnisse werden in einer VCF-Datei gespeichert.

Sobald diese Datenspeicher bereit sind, können sie für anwendungsspezifische Analysen verwendet werden, die von Forschern für ihre eigenen Projekte erstellt werden. Zum Beispiel könnte ein Forscher an einer gezielten Therapie für Patienten arbeiten, deren Tumor eine spezifische Genmutation aufweist. Forscher können alle Daten verwenden, die in den BAM- und VCF-Dateien enthalten sind.

QF2 bietet ein zentrales Dateispeichersystem, das für alle genomischen Daten geeignet ist. QF2 verfügt über branchenführende Effizienz bei kleinen Dateien und bietet den Durchsatz für alle Phasen des Workflows.

Genomischer Datenspeicher: NGS-Workflow auf AWS

Hier ist ein Workflow-Beispiel, das zeigt, wie Sie mit QF2 für AWS- und EC2-Spot-Instanzen Analysen in der Cloud durchführen.

Diagramm zur Verwendung einer genomischen Datenspeicherlösung in AWS

QF2 ermöglicht Workflows, die lokale Rechenzentren und die Cloud umfassen. In diesem Beispiel sind der QF2-Cloud-Cluster in AWS und der lokale QF2-Cluster aufgrund der fortlaufenden Replikation Teil der gleichen Speicherstruktur, wodurch beide Cluster synchronisiert bleiben. Ein Unternehmen kann EC2 Spot-Instanzen nutzen, um die Kosten niedrig zu halten.

Unsere Forschungsorganisation stößt bei den meisten Speicheranbietern mit riesigen Imaging-Sets und Millionen winziger genetischer Sequenzierungsfragmente in die Lücke. Es war schwierig, ein System zu finden, das alle unsere komplexen Workflows angemessen behandelte. Am Ende war nur QF2 die richtige Lösung.

Bill Kupiec - IT-Manager, Abteilung für Embryologie Carnegie Institution for Science

Fallstudie: Carnegie Science

Finden Sie heraus, wie die Abteilung für Embryologie Volumen und Vielfalt von Forschungsdaten mit QF2 anpackt

Video: Fahrforschung mit QF2

Sehen Sie, wie das Institut für Wissenschaftliches Rechnen und Bildgebung an der Universität von Utah QF2 nutzt, um ihre Forschung voranzutreiben.

Möchten Sie mehr erfahren?

Geben Sie uns 10-Minuten Ihrer Zeit und wir zeigen Ihnen, wie Sie die Datenspeicherung überdenken.