Speicherung für genomische Daten und Sequenzierung

Müssen Milliarden kleiner Dateien effizient gespeichert werden? Kein Problem mit Qumulo.

Next Generation Sequencing (NGS) hat den Speicherbedarf für Genomdaten drastisch erhöht.

Wenn die Sequenzer weiterentwickelt werden, produzieren sie mehr Daten. Außerdem hat die Effizienz die Kosten gesenkt, sodass mehr Organisationen mehr Sequenzierungen durchführen können.

Sequenzer produzieren so viele Daten, dass es nicht ungewöhnlich ist, dass ein einziges Labor mehr als eine Milliarde Dateien pro Jahr erzeugt. Weltweit verdoppeln sich Sequenzdaten etwa alle sieben Monate und übertreffen YouTube, Twitter und Astronomie in Bezug auf das Speicherwachstum.

Um Schritt zu halten, müssen IT-Administratoren nach Möglichkeiten suchen, um ihre Speicherinfrastruktur zu erweitern und zu verwalten.

Legacy-Storage-Systeme, die auf 15- oder sogar 20-alten Designs basieren, können die Anforderungen moderner NGS-Workflows nicht erfüllen. IT-Organisationen sind nun gezwungen, verschiedene Lösungen für verschiedene Teile ihrer NGS-Workflows zu verwenden, um die Ineffizienzen ihrer Legacy-Systeme zu kompensieren. Mehrere Systeme erhöhen die Komplexität, was zu höheren Wartungskosten führt. Mehrere Systeme können auch Datensilos verursachen, sodass eine Gruppe von Forschern möglicherweise nicht auf Daten zugreifen kann, die ein anderes Team verwendet. Ein Mangel an Zusammenarbeit kann die Dauer des Ergebnisses verlangsamen, wodurch die Zeit bis zur Marktreife eines Produkts verzögert werden kann.

Leistungsherausforderungen

Rohe NGS-Daten, die von einem Sequenzer kommen, bestehen aus vielen kleinen TIFF-Dateien, die jeweils ungefähr 1K groß sind. Die große Anzahl kleiner Dateien verlangsamt die Leistung von Legacy-Speichersystemen. Wenn das passiert, sind die Rechenressourcen von Daten ausgehungert und Forscher können ihre Ergebnisse nicht in Echtzeit erhalten. Die Verlangsamung hochbezahlter Forscher ist nicht nur teuer, sondern kann sich auch auf die Markteinführungszeit auswirken.

Effizienz-Herausforderungen

Kleine Dateien machen den Großteil eines NGS-Datensatzes aus, aber Legacy-Systeme speichern sie ineffizient, weil sie auf Spiegelung angewiesen sind, wodurch Speicherplatz verschwendet wird. Der verschwenderische Speicherplatz bedeutet höhere Kosten, sowohl in Bezug auf die Anzahl der Festplatten, die die IT kaufen muss, als auch hinsichtlich der Infrastrukturkosten wie Rack-Platz, Strom und Kühlung.

Sichtbarkeitsprobleme

NGS-Organisationen können am Ende Milliarden von Dateien speichern. Legacy-Speichersysteme können dem Speichersystem keine Transparenz verleihen, wenn IT-Administratoren so viele Assets verwalten müssen. Legacy-Systeme verwenden separate Off-Cluster-Appliances, die veraltete Methoden zum Sammeln von Daten verwenden. Bei diesen Methoden handelt es sich um sequenzielle Prozesse, z. B. Tree Walks, die in einer angemessenen Zeit keine Ergebnisse liefern können, wenn eine Organisation so viele Assets speichert. Es kann Tage oder Wochen dauern, um Antworten auf einfache Fragen zu erhalten, die lange zurückliegen, wenn diese Antworten von Nutzen sein können.

Cloud-Herausforderungen

NGS-Organisationen blicken aus zwei Gründen auf die Cloud. Zum einen ist die Cloud mit ihren skalierbaren On-Demand-Ressourcen die logische Antwort, wenn eine Organisation zusätzliche Rechenleistung für ein anspruchsvolles oder unerwartetes Projekt benötigt. Zum anderen teilen viele NGS-Organisationen Daten und arbeiten mit Forschern auf der ganzen Welt an Projekten zusammen. Die Cloud ist eine Möglichkeit, Daten leicht zugänglich zu machen. Die Herausforderung besteht darin, dass ältere Anbieter von Dateispeichern entweder keine Cloud-Lösung haben oder Versionen anbieten, die gepatcht wurden, um sie "cloud-fähig" zu machen. Probleme mit vorhandenen Cloud-Lösungen sind unter anderem schlechte Leistung, fehlende Protokollunterstützung und Komplexität.

Datenblatt: Qumulo für die genomische Sequenzierung

Qumulo ist das Dateispeichersystem für NGS.

Das Dateisystem von Qumulo ist eine ideale Lösung zum Speichern, Verwalten und Zugreifen auf genomische Sequenzierungsdaten. Es verarbeitet kleine Dateien effizient, und dank der Unterstützung von SMB, NFS, FTP und REST können alle Phasen der Pipeline für die Genomanalyse denselben Qumulo-Cluster verwenden. Qumulo ist ein modernes Dateispeichersystem, das sich auf Milliarden von Dateien skalieren lässt und im Rechenzentrum und in der öffentlichen Cloud ausgeführt wird.

Performance

Das Dateisystem von Qumulo behandelt kleine Dateien wie TIFF und BCL genauso effizient wie große. Mit Qumulo können Forscher ihre Analysen in Echtzeit durchführen, was sich in Kosteneffizienz und schnellerer Markteinführung niederschlägt

Kosten

Qumulo stellt 100% der vom Benutzer bereitgestellten Kapazität für die Dateispeicherung zur Verfügung. Im Gegensatz zu älteren NAS-Scale-Ups und Scale-Outs, die nur die Verwendung von 70% bis 80% der nutzbaren Kapazität empfehlen.

Skalierbarkeit

Jedes Mal, wenn Kunden einem Qumulo-Cluster einen Knoten hinzufügen, werden sie sowohl hinsichtlich Kapazität als auch Leistung linear skaliert. Die Anzahl der Dateien, die Qumulo speichern kann, ist praktisch nicht begrenzt.

Echtzeit-Sichtbarkeit

Qumulos Echtzeitsichtbarkeit und -kontrolle bietet Informationen über die Vorgänge im Speichersystem bis hin zur Dateiebene. Systemadministratoren können Quoten in Echtzeit anwenden.

Cloud und On-Prem

Durch die fortlaufende Replikation können Sie problemlos Daten von Ihrem On-Prem-Qumulo-Cluster in Ihren Qumulo-Cluster in AWS übertragen, Berechnungen durchführen und die Ergebnisse anschließend wieder in den On-Prem-Speicher übertragen.

Genomischer Datenspeicher: NGS-Workflow

Hier ist ein Beispielworkflow für NGS on locals:

Diagramm der Verwendung einer genomischen Datenspeicherlösung vor Ort

In diesem Beispiel erzeugen die DNA-Sequenzer viele kleine BCL-Dateien oder Basisaufrufe, bei denen es sich um ungeordnete DNA-Sequenzfragmente handelt. Ein Prozess des Demultiplexens assembliert BCL-Dateien in eine FASTQ-Datei, die eine Textdatei ist, die die kombinierten Ausgabeergebnisse der BCL-Dateien zusammen mit entsprechenden Qualitätsbewertungen speichert.

Die Computerfarm führt Ausrichtung und Variantenaufruf aus. In Ausrichtung werden Sequenzfragmente auf Qualität geprüft, vorverarbeitet und auf ein Referenzgenom ausgerichtet. Eine BAM-Datei ist eine Binärdatei, die diese Ausrichtungsdaten speichert. Der Variantenaufruf sucht nach Unterschieden zwischen den Daten und dem Referenzgenom. Die Ergebnisse werden in einer VCF-Datei gespeichert.

Sobald diese Datenspeicher bereit sind, können sie für anwendungsspezifische Analysen verwendet werden, die von Forschern für ihre eigenen Projekte erstellt werden. Zum Beispiel könnte ein Forscher an einer gezielten Therapie für Patienten arbeiten, deren Tumor eine spezifische Genmutation aufweist. Forscher können alle Daten verwenden, die in den BAM- und VCF-Dateien enthalten sind.

Qumulo bietet ein zentrales Dateispeichersystem, das für alle Arten von Genomdaten geeignet ist. Qumulo verfügt über eine branchenweit führende Effizienz bei kleinen Dateien und hat den Durchsatz, um alle Phasen des Arbeitsablaufs abzuwickeln.

Genomischer Datenspeicher: NGS-Workflow auf AWS

Hier ein Workflow-Beispiel, das zeigt, wie in der Cloud mit Qumulo für AWS- und EC2-Spot-Instanzen Analysen durchgeführt werden.

Diagramm zur Verwendung einer genomischen Datenspeicherlösung in AWS

Qumulo ermöglicht Workflows, die lokale Rechenzentren und die Cloud umfassen. In diesem Beispiel sind der Qumulo-Cloud-Cluster in AWS und der lokale Qumulo-Cluster aufgrund der fortlaufenden Replikation Teil derselben Storage-Fabric, wodurch beide Cluster synchron bleiben. Eine Organisation kann EC2-Spot-Instanzen nutzen, um die Kosten niedrig zu halten.

„Unsere Forschungsorganisation befindet sich für die meisten Speicheranbieter mit riesigen Imaging-Sets und Millionen winziger genetischer Sequenzierungsabfälle zwischen den Rissen. Es war schwierig, ein System zu finden, das alle unsere komplexen Workflows angemessen handhabte. Am Ende war nur Qumulo die richtige Lösung. “

Bill Kupiec - IT-Manager, Abteilung für Embryologie der Carnegie Institution for Science

Möchten Sie mehr erfahren?

Geben Sie uns 10-Minuten Ihrer Zeit und wir zeigen Ihnen, wie Sie die Datenspeicherung überdenken.

GET A DEMO