Lösungen

Hochleistungsspeicher für Genomdaten und Sequenzierung

Speichern Sie Milliarden kleiner Dateien effizient.

Das Dateisystem von Qumulo ist eine ideale Lösung zum Speichern, Verwalten und Zugreifen auf Genomsequenzierungsdaten. Es verarbeitet kleine Dateien effizient und unterstützt SMB, NFS, FTP und REST, sodass alle Phasen der Genomanalyse-Pipeline denselben Qumulo-Cluster verwenden können.

Hauptvorteile

Skalierbar auf Milliarden von Dateien

Cloud-basiertes Monitoring

Out-of-the-Box-Einfachheit

Komplette REST API

Legacy-Speicher reicht nicht aus.

Next Generation Sequencing (NGS) hat den Speicherbedarf für Genomdaten drastisch erhöht.

Wenn die Sequenzer weiterentwickelt werden, produzieren sie mehr Daten. Außerdem hat die Effizienz die Kosten gesenkt, sodass mehr Organisationen mehr Sequenzierungen durchführen können.

Sequenzer produzieren so viele Daten, dass es nicht ungewöhnlich ist, dass ein einziges Labor mehr als eine Milliarde Dateien pro Jahr erzeugt. Weltweit verdoppeln sich Sequenzdaten etwa alle sieben Monate und übertreffen YouTube, Twitter und Astronomie in Bezug auf das Speicherwachstum.

Um Schritt zu halten, müssen IT-Administratoren nach Möglichkeiten suchen, um ihre Speicherinfrastruktur zu erweitern und zu verwalten.

Legacy-Storage-Systeme, die auf 15- oder sogar 20-alten Designs basieren, können die Anforderungen moderner NGS-Workflows nicht erfüllen. IT-Organisationen sind nun gezwungen, verschiedene Lösungen für verschiedene Teile ihrer NGS-Workflows zu verwenden, um die Ineffizienzen ihrer Legacy-Systeme zu kompensieren. Mehrere Systeme erhöhen die Komplexität, was zu höheren Wartungskosten führt. Mehrere Systeme können auch Datensilos verursachen, sodass eine Gruppe von Forschern möglicherweise nicht auf Daten zugreifen kann, die ein anderes Team verwendet. Ein Mangel an Zusammenarbeit kann die Dauer des Ergebnisses verlangsamen, wodurch die Zeit bis zur Marktreife eines Produkts verzögert werden kann.

FUNKTIONEN

Qumulo-Speicher für die Genomsequenzierung

Qumulos Dateisystem ist eine ideale Lösung zum Speichern, Verwalten und Zugreifen auf Genomsequenzierungsdaten.

Performance

Das Dateisystem von Qumulo verarbeitet kleine Dateien wie TIFF und BCL genauso effizient wie große. Mit Qumulo können Forscher ihre Analysen in Echtzeit durchführen, was zu Kosteneinsparungen und einer schnelleren Markteinführung führt

Skalierbarkeit

Jedes Mal, wenn Kunden einem Qumulo-Cluster einen Knoten hinzufügen, werden sie sowohl hinsichtlich Kapazität als auch Leistung linear skaliert. Die Anzahl der Dateien, die Qumulo speichern kann, ist praktisch nicht begrenzt.

Kosten

Qumulo stellt 100% der vom Benutzer bereitgestellten Kapazität für die Dateispeicherung zur Verfügung. Im Gegensatz zu älteren NAS-Scale-Ups und Scale-Outs, die nur die Verwendung von 70% bis 80% der nutzbaren Kapazität empfehlen.

Echtzeit-Sichtbarkeit

Die Echtzeitsichtbarkeit und -steuerung von Qumulo liefert Informationen darüber, was im Speichersystem bis auf Dateiebene geschieht. Systemadministratoren können Kontingente in Echtzeit anwenden.

Cloud und On-Prem

Durch die fortlaufende Replikation können Sie problemlos Daten von Ihrem On-Prem-Qumulo-Cluster in Ihren Qumulo-Cluster in AWS übertragen, Berechnungen durchführen und die Ergebnisse anschließend wieder in den On-Prem-Speicher übertragen.

Unterstützung für gemischte Protokolle

Durch die Unterstützung von SMB, NFS, FTP und REST können alle Phasen der Genomanalyse-Pipeline denselben Qumulo-Cluster verwenden.

So Funktioniert’s

Genomischer Datenspeicher: NGS-Workflow

Hier ist ein Beispielworkflow für NGS on locals:

In diesem Beispiel erzeugen die DNA-Sequenzer viele kleine BCL-Dateien oder Basisaufrufe, bei denen es sich um ungeordnete DNA-Sequenzfragmente handelt. Ein Prozess des Demultiplexens assembliert BCL-Dateien in eine FASTQ-Datei, die eine Textdatei ist, die die kombinierten Ausgabeergebnisse der BCL-Dateien zusammen mit entsprechenden Qualitätsbewertungen speichert.

Die Computerfarm führt Ausrichtung und Variantenaufruf aus. In Ausrichtung werden Sequenzfragmente auf Qualität geprüft, vorverarbeitet und auf ein Referenzgenom ausgerichtet. Eine BAM-Datei ist eine Binärdatei, die diese Ausrichtungsdaten speichert. Der Variantenaufruf sucht nach Unterschieden zwischen den Daten und dem Referenzgenom. Die Ergebnisse werden in einer VCF-Datei gespeichert.

Sobald diese Datenspeicher bereit sind, können sie für anwendungsspezifische Analysen verwendet werden, die von Forschern für ihre eigenen Projekte erstellt werden. Zum Beispiel könnte ein Forscher an einer gezielten Therapie für Patienten arbeiten, deren Tumor eine spezifische Genmutation aufweist. Forscher können alle Daten verwenden, die in den BAM- und VCF-Dateien enthalten sind.

Qumulo bietet ein zentrales Dateispeichersystem, das für alle Arten von Genomdaten geeignet ist. Qumulo verfügt über eine branchenweit führende Effizienz bei kleinen Dateien und hat den Durchsatz, um alle Phasen des Arbeitsablaufs abzuwickeln.

Genomischer Datenspeicher: NGS-Workflow auf AWS

Hier ein Workflow-Beispiel, das zeigt, wie in der Cloud mit Qumulo für AWS- und EC2-Spot-Instanzen Analysen durchgeführt werden.

Qumulo ermöglicht Workflows, die lokale Rechenzentren und die Cloud umfassen. In diesem Beispiel sind der Qumulo-Cloud-Cluster in AWS und der lokale Qumulo-Cluster aufgrund der fortlaufenden Replikation Teil derselben Storage-Fabric, wodurch beide Cluster synchron bleiben. Eine Organisation kann EC2-Spot-Instanzen nutzen, um die Kosten niedrig zu halten.

„Unsere Forschungsorganisation befindet sich für die meisten Speicheranbieter mit riesigen Imaging-Sets und Millionen winziger genetischer Sequenzierungsabfälle zwischen den Rissen. Es war schwierig, ein System zu finden, das alle unsere komplexen Workflows angemessen handhabte. Am Ende war nur Qumulo die richtige Lösung. “

Bill Kupiec - IT-Manager, Abteilung für Embryologie der Carnegie Institution for Science

Möchten Sie mehr erfahren?

Geben Sie uns 10 Minuten Ihrer Zeit und wir zeigen Ihnen, wie Sie die Speicherdaten überdenken.

GET A DEMO