Macierz RAID, Flash i wymazywanie

Jakie poziomy RAID najlepiej sprawdzają się w przypadku dysków półprzewodnikowych

Kiedy kodowanie wymazywania jest dobrym wyborem?

Systemy RAID stanowią elementy składowe pamięci masowej dla przedsiębiorstw od lat 90. XX wieku. Ale RAID – nadmiarowa macierz niedrogich dysków – powstała dekadę wcześniej w badaniach Uniwersytetu Kalifornijskiego w Berkeley.

Badacze z Berkeley byli pionierami w wykorzystaniu tanich dysków do komputerów osobistych do przechowywania danych o znaczeniu krytycznym. Łącząc dyski w macierz, pokonali ograniczenia szybkości i niezawodności dysków twardych do komputerów PC i zbliżyli je do wydajności znacznie droższych dysków typu mainframe.

Od trzech dekad dyski połączone w macierze RAID zapewniają większość pamięci masowej dla serwerów, tworzenia kopii zapasowych i archiwizacji, a nawet przetwarzania w chmurze. Ale cena pamięci masowej Flash spada, a jej pojemność rośnie, czy macierz RAID nadal ma znaczenie?

Coraz częściej dostawcy opracowują bardziej złożone poziomy RAID dostosowane do nośników SSD, podczas gdy alternatywne protokoły ochrony danych, takie jak kodowanie wymazywania, zyskały popularność wśród dostawców chmury oraz operatorów hybrydowych i obiektowych pamięci masowych.

Poziomy RAID

Systemy RAID chronią dane na dwa główne sposoby — albo przez tworzenie kopii lustrzanej całego dysku fizycznego, albo przez przechowywanie danych o parzystości na jednym lub kilku dyskach używanych do odbudowy uszkodzonego dysku .

Projektanci systemów, którzy budują macierze RAID, muszą zrównoważyć wydajność, odporność i obciążenie pojemnościowe danych lustrzanych lub parzystości. W najprostszej postaci, RAID 1, czyli dublowanie, jednocześnie kopiuje wszystkie dane na dwa lub trzy dyski. Wzrost pojemności — ilość dodatkowej pamięci potrzebnej na serwery lustrzane — wynosi zatem 100% lub 200% użytecznej pamięci.

Inne poziomy RAID mają na celu zmniejszenie obciążenia pamięci masowej, a tym samym kosztów bez nadmiernej utraty wydajności. RAID 1 zapewnia najlepszą wydajność i, co najważniejsze, najkrótszy czas odbudowy bez konieczności odtwarzania danych przy użyciu bitów parzystości.

RAID 4 wykorzystuje paski na poziomie bloków i przechowuje dane parzystości na jednym dysku. RAID 5 wykorzystuje striping z rozproszoną parzystością bez potrzeby stosowania dedykowanego dysku z parzystością. RAID 6 wykorzystuje podwójną rozproszoną parzystość dla dodatkowej ochrony danych. RAID 10 łączy w sobie mirroringstriping .

Poziomy RAID 2 i 3 są obecnie rzadko używane w systemach korporacyjnych. Wielu dostawców ma teraz własne systemy RAID, których celem jest zmniejszenie obciążenia pojemnościowego jeszcze bardziej niż RAID 5 lub RAID 6.

Czy RAID jest odpowiedni dla pamięci Flash?

Pod względem samej wydajności macierz RAID nie jest oczywistym wyborem dla pamięci masowej opartej na pamięci Flash. Wydajność pojedynczego nośnika z łatwością pokonuje macierz RAID w prawie wszystkich typowych scenariuszach korporacyjnych.

„Dyski SSD SAS wykorzystujące pamięć Flash NAND oferują o rząd wielkości mniejsze opóźnienia i o jeden do dwóch rzędów wielkości wyższą przepustowość, w zależności od tego, czy mówimy o odczytach losowych, czy sekwencyjnych”, mówi Eric Burgener, wiceprezes ds. badań w dziale infrastruktury korporacyjnej IDC. .

Ale pod względem kosztów nośniki Flash są nadal znacznie droższe niż dyski mechaniczne.

Pomijając ogólnie mniejszą pojemność nośników Flash na dysk, co wymaga użycia większych macierzy, dyski SSD są od siedmiu do ośmiu razy droższe niż ich odpowiedniki mechaniczne.

Chociaż nie wyklucza to RAID 1 lub RAID 10 dla macierzy opartych na pamięci Flash, ograniczy to do aplikacji z niewielką tolerancją na utratę danych i koniecznością krótkiego czasu przywracania.

„RAID 1 zapewnia najlepszą wydajność, jeśli używasz go lokalnie — masz tylko dwa lub trzy zapisy, jeśli używasz trzech serwerów lustrzanych” — mówi Burgener. „Zapewnia najmniejszy wpływ w trybie odzyskiwania, ponieważ wystarczy odczytać tylko z jednego urządzenia i nie trzeba wykonywać żadnych obliczeń, aby „zrekonstruować” dane. Ale to najdroższe.

RAID 5 i 6: Praktyczna opcja dla Flash

Te wysokie koszty skłoniły naukowców do opracowania macierzy RAID 4, 5 i 6. Technologie są teraz dojrzałe, ponieważ dostawcy systemów pamięci masowej zacinają zęby, gdy wirujące dyski są mniejsze i droższe niż obecnie. Wiele z tych prac dobrze przekłada się na świat pamięci Flash.

„Ten wysoki koszt nadmiarowości jest jednym z powodów, dla których opracowano poziomy RAID, takie jak RAID 4, 5 lub 6 lub metody kodowania wymazywania”, mówi Burgener. „Oferują znacznie mniejszą pojemność, ale mają większy wpływ w trybie odzyskiwania, ponieważ dane muszą być odczytywane z wielu urządzeń, a obliczenia muszą być wykonywane na tych danych przy użyciu jednego lub więcej pasków parzystości”.

Jednak te wady są do pewnego stopnia przezwyciężane przez wyższą wydajność pamięci Flash, zwłaszcza w przypadku odczytów. Minusem jest to, że znaczna część drogiej pamięci Flash jest zarezerwowana na dane parzystości. W systemie RAID 6, ze standardowym układem 4+2 (cztery bity danych i dwa bity parzystości), narzut wynosi jedną trzecią pamięci.

W przypadku popularnych systemów i tam, gdzie potrzeby w zakresie przechowywania danych są stosunkowo skromne – do około 20 TB – RAID 6 prawdopodobnie wystarczy. Większość architektów IT oblicza, że ​​większa odporność RAID 6 jest warta wzrostu kosztów lub zmniejszenia pojemności w porównaniu z RAID 5 . RAID 10 jest również opcją, zwykle dla aplikacji najbardziej wrażliwych na opóźnienia i wysokiej dostępności.

Ochrona danych dla macierzy All-Flash i chmury

Mimo to dostawcy opracowują nowe formy ochrony danych, które są lepiej dostosowane do pamięci masowej opartej na pamięci Flash, zmniejszając narzuty na pojemność. Systemy te wykorzystują również mniejszy średni rozmiar dysku dla pamięci Flash, aby rozprowadzać dane o parzystości na większej liczbie woluminów.

Do tej pory producenci macierzy All-Flash w dużej mierze oferowali macierz RAID 6, ale wiele firm zakwestionowało to za pomocą nowych technologii.

Na przykład Kaminario używa formatu 22+2 dla swoich tablic All-Flash. Zmniejsza to obciążenie, ale działa tylko z macierzami z 24 lub więcej dyskami.

VAST Data łączy dyski SSD Intel Optane i dyski SSD QLC i wykorzystuje bardzo ekonomiczną konstrukcję 150 + 4, która działa na poziomie około 2%. Ale minimalna pojemność systemu to 1 PB.

Wymazywanie kodowania

Wprowadzenie kodowania wymazywania było napędzane przez duże platformy chmurowe, ale staje się coraz bardziej powszechne w hybrydowej i lokalnej pamięci masowej obiektów. Kodowanie wymazywania będzie prawdopodobnie bardziej powszechne, nie tylko dlatego, że daje przedsiębiorstwom większą kontrolę nad żądanym poziomem ochrony, a także nad nadmiarowością fizyczną.

Wadą kodowania wymazywania była w dużej mierze wydajność, chociaż przy wydajności pamięci masowej All-Flash ta luka się zmniejszyła.

Zanik danych: różne architektury

Systemy Flash mają jednak pewne kluczowe różnice techniczne, które wpływają na projektowanie schematów RAID.

Pamięć Flash pogarsza się, im częściej jest używana, i dotyczy to bardziej zapisów niż odczytów. Nowsze, ale tańsze nośniki Flash, takie jak ogniwa czteropoziomowe (QLC), mają krótszą żywotność zapisu niż poprzednie generacje pamięci Flash NAND. Jednak aplikacje korporacyjne mogą wymagać intensywnego zapisu, więc projektanci sprzętu muszą opracować techniki minimalizacji liczby zapisów i wydłużenia żywotności systemu.

To nie jest coś, co dzieje się z wirującym dyskiem, więc działy IT nie mogą po prostu „podnosić i przenosić” obciążeń z konwencjonalnych na macierze Flash i oczekiwać tego samego poziomu ochrony.

„Projektując algorytmy ochrony danych dla danych opartych na pamięci Flash, masz do dyspozycji nowe dane wejściowe — znacznie mniejsze opóźnienia i większą przepustowość, ale znacznie mniejszą wytrzymałość” — mówi Burgener. „Tak więc schematy, które minimalizują liczbę zapisów, są bardziej interesujące”.

Adresy punktów przyjmujących zlecenia można zobaczyć pod tym linkiem “Punkty przyjmowania zleceń

Odzyskiwanie danych z macierzy Raid to zaawansowana usługa oferowana przez MiP Data & Forensic, posiadająca bardzo bogate doświadczenie w odzyskiwaniu danych z macierzy RAID w Centrum analiz i odzyskiwania danych w Warszawie