Temat przechowywania i odzyskiwania danych przez fotografa powraca jak bumerang na wielu grupach. Spróbowałem zebrać swoje doświadczenie i wiedzę w kilka zdań i mam nadzieję komuś pomóc. Cała sprawa rozbija się o to, aby nie być klientem odzyskiwania danych (sorry Marek Socha) a jednocześnie nie pójść z torbami.

Główne cele:

  • Dobre zarządzanie dyskami i miejscem w komputerze
  • Praktycznie 100% bezpieczeństwo danych możliwie najniższym kosztem.

Najpierw opiszę jak robię to sam, co dla mnie jest sposobem referencyjnym. Później postaram się opisać jak można to zrobić trochę taniej ale mniej bezpiecznie oraz lepiej ale znacznie drożej.

 

Workflow

Dane do naszego komputera wchodzą bardzo regularnie, są przetwarzane przez relatywnie długi okres czasu (nawet kilka miesięcy) i wychodzą, w postaci archiwum. Niestety często zapomniany jest ostatni etap, co powoduje notoryczne zapychanie “komputera”.

Sprawnie działającemu i sumiennemu fotografowi, jeżeli jego RAW są do 30MB wystarcza 4TB powierzchni do pracy. Jeżeli masz pliki większe, to przelicz odpowiednio. Większości wystarczy 2TB, ale to już będzie bardzo zapełnione, i mogą się zdarzyć problemy z miejscem na zgranie materiału. 4TB powierzchni raczej się nie przepełni dużo ponad połowę, co daje duży margines na odłożenie w czasie zarządzania danych w zbyt gorącym okresie.

 

No to po kolei.

Zlecenie trafia na kompa – nie wymaga wyjaśnień. Robimy to codziennie. Struktura katalogów, to temat na osobny tutorial. Następnie, przez jakiś czas zlecenie jest przetwarzane. Są tutaj 2 zdarzenia ważne ze względu na magazynowanie danych.

Pierwszy to selekcja. W tym momencie generujemy dużą część plików zlecenia, którą można by w sumie od razu wyrzucić. Nasze odrzuty, dla naszego biznesu, to wcale nie kosz z dwóch względów – ludzki błąd oraz dodatkowe zamówienia klientów. Raz – możemy niechcący odrzucić wartościowy plik, dwa czasem klienci pytają czy np. mamy jeszcze jakieś inne zdjęcie bukietu, samochodu – cokolwiek. Może się przydać, a kosztuje 0 PLN.
Wszystkie odrzuty trafiają na jeden ze starszych dysków, przeznaczony tylko na usunięte RAWy, pojemność 1TB-2TB, pliki znajdują się tam w pętli. Tzn, dysk jest non stop prawie zapełniony, wrzucamy najnowsze odrzuty i mniej więcej podobną ilość plików kasujemy z najstarszych. U mnie takie pliki mają czas życia około 3-5 miesięcy, potem zostają nadpisane kolejnymi. Zwalniam ⅔ miejsca zajmowanego przez zlecenie a jednocześnie nie tracę tych plików od razu. Dysk RAW-OLD jest nie backupowany – padnie to trudno, jakoś to przełknę, ale szkoda mi czasu i pieniędzy na backupowanie “śmieci”. Niestety nie znalazłem programu do automatycznego tworzenia “pętli” plików, trzeba ręcznie usunąć 1-2 stare katalogi i wgrać najnowszy.

Drugie zdarzenie, to zakończenie zlecenia. Klienta obsłużyliśmy, pora zrobić porządek. Zdjęcia muszą trafić w dwa miejsca – do portfolio (jak mamy zgodę) oraz do archiwum.

Portfolio to wybrane pliki, które chcemy w jakikolwiek sposób udostępniać. Ja zostawiam oryginalne RAWy (najczęściej skonwertowane do DNG – zawsze kilka MB mniej) lub tiffy (spłaszczone), gdyż mogę je używać w różnych miejscach i różnych celach, więc potrzebne będą różne rozdzielczości, a więc przechowywanie JPGa odpada.

Dysk portfolio zapełnia się dość wolno, nie musi być duży – zapewne 500gb styknie na lata.

Archiwum. Temat rzeka, część nagrywa na płyty BR, część wyrzuca na zawsze, ja wysyłam w chmurę jako ostateczne miejsce leżakowania. Robi to za mnie NAS, automatycznie. Owszem zgranie np. ślubu z powrotem na dysk może zająć i 20h, ale mówimy o materiale dawno oddanym, który potrzebny jest w razie W, nigdy nie jest wtedy potrzebny od ręki, dobrze, że w ogóle jest.

Tyle w temacie przepływu danych. Zlecenie trafia na PC, jest obrabiane i z niego znika praktycznie całkowicie.

 

Dane w komputerze

Dane w naszych PC są na fizycznych dyskach, te są podzielone na wirtualne partycje – czyli to co widzimy w menedżerze. Banał? Nie do końca. Formalnie potrzebujemy jeden fizyczny dysk, na którym jest jedna partycja. To wystarczy – w teorii, w praktyce to najgorsze z możliwych rozwiązanie, z każdego punktu widzenia.

 

Pierwszy to partycja na system – i tylko system. Koniecznie SSD. Dobrze zorganizowany dysk systemowy to w zupełności wystarczy 120GB – powinien po 2-3 latach wciąż mieć 30-40 GB wolne, czyli tyle ile SSD powinien mieć wolne.

Jeden dysk, jedna partycja.

 

Druga partycja to cache – też SSD, najlepiej M.2, ale to już wydatek większy, choć warto. To powinien być najszybszy dysk w systemie i 1,5GB/s nie jest przesadą. Optymalna wielkość to 250GB, nie powinien się zapchać. Trzymamy tam: plik wymiany windows, cache PSa, cache CameraRaw (70GB), plik bazy Lightrooma wraz z previews (mam ustawione na 1 tydzień), eksporty z Lightrooma (u mnie mają krótki żywot, eksport, wysyłka, delete albo nadpisanie kolejnym), cache innych programów jakie macie, u mnie Davinci.

Drugi dysk, jedna partycja.

 

Trzeci to ogólny dysk na dane. Każdy będzie miał inaczej, ale każdy ma jakieś dane, jakie przechowuje. Muzyka, filmy, gry, etc. Niektórzy inna praca. Dodatkowo MUSZĄ tam siedzieć pliki z profilu windows: obrazy, pulpit, muzyka, pobrane, dokumenty etc. Łatwo się to przestawia w systemie tuż po instalacji. Dzięki temu nie zapycha się dysku systemowego a jednocześnie łatwo zarządza backupem takich danych.

 

Czwarty to Workflow – czyli główny dysk fotografa. Trafiają tam wszystkie sesje, odpowiednio katalogowane. Nic więcej, tylko RAWy i ich obróbka. Dysk największy.

 

Piąty to Portfolio – jak sama nazwa wskazuje są tam pliki, które chcę (i mogę używać), kopie oryginałów. Mógłby być po prostu katalogiem na dysku Dane, ale jakoś mi tak wygodniej, przejrzyściej. Wraz z plikami siedzi tam też osobny katalog LR, na który się przełączam jak chcę coś z portfolio. Niewielki dysk.

 

Partycje trzecia, czwarta i piąta to u mnie jeden wielki dysk 8TB podzielony na: 2TB na Dane, 500GB na Portfolio i 4 z hakiem na Workflow. Dane i Portfolio zajęte w niewielkim stopniu, Workflow utrzymuje się powyżej połowy zajętości.

Proste nie? Nie do końca, bo przechodzimy do bezpieczeństwa…

Dysk 8TB, to nie fizycznie 8TB tylko 4 dyski 4TB sklejone w macierz RAID10 – czyli pary strip zdublowane mirror’em. Całość dla prędkości i bezpieczeństwa. Czy to jest backup? Absolutnie nie, ale zapewnia ciągłość pracy.

 

Czy RAID10 jest potrzebny? Nie, ale jest tańszy. Po prostu dużo łatwiej kupić 4TB dyski używane (o tym później) niż 8TB, ceny łącznie 16TB też są niższe. W dodatku całość jest szybsza, bo para strip (sklejenie dwóch dysków w jeden) jest ponad 1,5x szybsza niż pojedynczy dysk.

Mirror – czyli kopia lustrzana dysków jest TYLKO po to, aby zapewnić ciągłość pracy. Jak dysk padnie, to kupuje kolejny, ale wciąż mogę pracować, nic się w systemie nie zmienia, nie muszę korzystać z backupu i go mozolnie ściągać (najczęściej PO zakupie dysku, bo nie ma gdzie tego trzymać jak padł dysk). W niesprzyjających warunkach można na tym zaoszczędzić kilka dni…
Wkłada się nowy dysk i macierz się w tle odbuduje, RAID10 akurat dosyć szybko, znacznie szybciej niż raid5 czy 6.

 

Bezpieczeństwo danych 

RAID w komputerze to nie backup. To bardzo ważne. Owszem zabezpiecza względnie przed uszkodzeniem jednego z dysków, ale to jest najrzadszy problem z utratą danych. Skasowanie, uszkodzenie pliku, zawirusowanie – takie zdarzenia są znacznie częstsze a są wpisywane natychmiast w obie kopie macierzy RAID. Ponadto naprawdę ważną zasadą jest trzymanie kopii poza komputerem. Włamanie, zalanie, cokolwiek z pudłem się stanie i można zawijać firmę.

Ideałem jest kopia bezpieczeństwa w innej siedzibie. Ja mam dyski sieciowe NAS na strychu, rozwiązanie mało idealne, ale działa. Złodziej nie znajdzie, nie ma bata, za dużo rzeczy na strychu, ale pożar domu to kaplica… No nic takie ryzyko biorę na klatę, za to mam szybkie gigabitowe połączenie z dyskami, wartość nie do przecenienia.

 

OK, to kupujemy NAS – czemu, jaki, ile…

NAS nie jest konieczny, ale tani i bardzo wygodny. Można go wykorzystać do znacznie większej liczby zadań niż sam backup, bierze mało prądu i dobrze ustawiony wszystko robi automatycznie, nie zagląda się do niego. W zupełności wystarczający do naszej pracy jest 4 dyskowy, minimalny to 2 dyskowy. Z prostej przyczyny – minimalna powierzchnia to 10-12TB na backup. Qnap, synology – małe znaczenie, synology jest łatwiejszy na start i ma chyba więcej wtyczek do obsługi firm backupowych – Amazon, backblaze, etc.

Osobiście używam stare serie 13j, można je kupić relatywnie tanio. Kiedyś 213j, teraz mam 413j. O dziwo wydajnościowo podobnie jak dzisiejsze tanie serie, ot księgowi synology.

Czterodyskowy NAS zapełniamy 4x4TB połączone w macierz RAID5. Uzyskujemy 12TB miejsca z minimalną redundancją danych. Ważne, tutaj muszą siedzieć dyski do NASa lub ew. do monitoringu. Muszą mieć specyfikację 24/7 inaczej nie nadąży się z wymianami.

RAID5 jest dość wolny i bardzo długo odbudowuje macierz zniszczoną, ale zapewnia podstawowe bezpieczeństwo i daje duża powierzchnię 10TB+, która jest konieczna aby dobrze działał backup.

Czemu min 10TB na jednej partycji na dysku sieciowym? Bo poprawny backup, to nie prosta kopia plików, tylko backup przyrostowy lub różnicowy z minimalną liczbą dwóch wersji (wersjonowanie w opcji minimum). Takie rozwiązanie to właśnie około 3 krotność danych do archiwizowania. Ja ustawiłem backup codzienny różnicowy, 2-miesięczny pełny oraz 2 kopie wersji. Jak to rozumieć?

Raz na 2 miesiące jest wykonywany pełny backup – cały dysk workflow. Codziennie wieczorem program wykonuje backup tylko plików zmienionych od wczoraj. Ponadto są przechowywane 2 wersje – kopia pełna nr 3 nadpisuje kopie nr 1.

Takie rozwiązanie daje mi pliki z dziś na PC (z redundancją raid), z wczoraj (oraz kolejne wersje pliku) i z przed 2 miesięcy na NAS (z redundancją raid). Mam nadzieję nie do zajechania.

 

Archiwizacja

Nie wszystkie dane musimy tak paranoicznie chronić. Szkoda czasu i dysków.

System – Windows raz w tygodniu wykonuje obraz dysku systemowego i umieszcza go na NASie. Jak padnie to w godzinę od kupna drugiego mam postawiony idealnie taki sam system, żadnego ustawiania, konfiguracji, instalacji, nic.

Cache – poza jednym plikiem katalogu LR nic nie jest backupowane. To nie są wrażliwe dane, wszystko się samo odbuduje jak będzie potrzebne.

Dane – zwykła kopia różnicowa plików robiona raz na kilka dni. Dla mnie nie aż tak wrażliwe dane, ale to już wg własnego uznania.  Bez wersjonowania.

Portfolio – raz na miesiąc jedna kopia wysyłana w chmurę, mało wrażliwe dane, można to odzyskać z innych miejsc.

Workflow – opisane powyżej, najbardziej wrażliwe dane.

 

Co ciekawe, większość backupów robi komputer, nie NAS. Tak jest łatwiej. U mnie zarządza tym jeden program – Cobian. Działa jako usługa, niezawodny, intuicyjny, konfigurowalny, darmowy. NAS robi jedynie wysyłkę archiwum do chmury – to trwa długo. Po co PC ma chodzić, jak może to zrobić mały, energooszczędny komputerek. Archiwum czyli zlecenie w 100% zakończone trafiają na NAS tylko na chwilę, tam są przechwytywane przez aplet śledzący katalog (Cloud Sync) i wysyłane do chmury.

 

Taniej-gorzej, drożej-lepiej?

Można zrobić system trochę taniej.
Niewiele mniej bezpieczne (ale mniej!), niestety problemy z dyskami lub danymi będą kosztować czas i więcej nerwów.

Można zrezygnować z duplikowania danych w PC – po prostu 8TB na dane, podzielone jak Ci potrzeba. Koszt 2x w dół za same dyski. Jednak jak coś się wysypie to najpierw trzeba kupić dysk do komputera (bo na gwarancji czeka się za długo) a potem zgrać backup na PC. Nie dość, że czas, to zaczynają są nerwy. Transferowanie dużych ilości danych to zawsze jakieś ryzyko. To właśnie wtedy hdd potrafią odmawiać posłuszeństwa.

Można zrezygnować z RAIDa w NASie. Wtedy wystarczy dwudyskowy z 6-8TB dyskami w środku. Mając RAID1 w PC obniżone bezpieczeństwo na NAS jest akceptowalne, dość łatwo się to odbuduje, choć znów transfer 3-5TB zajmie 15h+ minimum. Dodatkowo, niestety, godzimy się z faktem, że mogą wyparować pliki, które już dość dawno usunęliśmy na PC, ich poprzednie wersje etc.

Moim zdaniem nie można zrezygnować z obu RAIDów – to zbyt małe bezpieczeństwo, w razie W zostaje się tylko z jedną, jedyną kopią danych, jest to bardzo wrażliwy moment na transfer wielu terabajtów danych. Oszczędność nie warta ryzyka.

 

Na pewno można zrobić lepiej, ale już znacznie drożej.

W PC – dobry kontroler RAID – znacznie szybszy raid, dobra obsługa z korekcją błędów macierzy 5 i 6 albo nawet 50 lub 60. Ceny mniej więcej od 250$ za rozsądne karty 4-8 portowe.

Można przerzucić się wtedy na RAID5 lub lepiej RAID6 w komputerze. Więcej miejsca z tych samych dysków i równie dobra wydajność przy dobrym kontrolerze. RAID6 zapewnia bezpieczeństwo do dwóch uszkodzonych dysków, w pewnym sensie niweluje to problem z URE. Niestety kosztem jest ogromny czas odbudowy macierzy, nawet tydzień może się zdarzyć.

NAS – jedynym rozsądnym rozwiązaniem jest magazyn większy niż 4 dyskowy, jak mówimy o zwiększonych możliwościach. Wtedy całość jako RAID6 (lub 50, 60), duże bezpieczeństwo, spora wydajność, w dobrych NASach nawet na poziomie 300MB/s.

Możemy dodatkowo całość wysyłać do chmury w czasie rzeczywistym lub prawie rzeczywistym – potrzebne bardzo dobre łącze, większość czasu nasaturowane danymi oraz dobry magazyn backupowy. Temat rozległy.

 

Możemy w końcu kupować dyski nowe. Pewnie temat wywoła najwięcej komentarzy 😉

Dlaczego w ogóle używane? Jakim prawem, skoro mówimy o bezpieczeństwie? Ano dlatego, że dyski padają relatywnie rzadko. Ceny używanych to czasem raptem 40-50% wartości nowych. Powyżej zbudowałem system odporny na pady dysków, i to nawet w kilku warstwach. Szybka wymiana dysku nie wiąże się z przerwą w pracy. Przez 3 lata wymieniłem jeden dysk zepsuty – co mnie kosztowało jakieś 300 PLN. Zaoszczędzone wielokrotnie więcej.

Podobnie z ssd – w sumie to już kupiłem z 6 czy 7 ssd – wszystkie to 740 lub 750 evo, do różnych komputerów, laptopów. Wszystkie używane, śmigają, smarty czyste, pracują nominalnie. Przy cenie używek, w czasie 3 letniego życia u mnie, bo tak wymieniam wszystkie dyski, musiałby każdy min raz paść aby używane straciły sens.

W wersji droższej kupujemy nowe, WDRed czy dobre barracudy mają 3 letnią gwarancję. Po 3 latach sprzedajemy, kupujemy nowy komplet.

 

Słowem podsumowania

Przyszłość naszego biznesu fotograficznego w dużej mierze zależy od bezpieczeństwa naszych danych. Więcej – praktycznie zwijamy biznes jak zniknie nasz główny dysk ze zleceniami. Panicznie wiele osób boi się awarii karty, które najczęściej dość tanio i prawie w 100% można odzyskać (jeżeli ktoś nie spuszcza ich w kiblu, wcześniej jeżdżąc po nich autem…) a jednocześnie bezpieczeństwo naszych danych na PC stoi pod znakiem zapytania. Dolary przeciw orzechom, że wielu wciąż leci na zwykłym RAID1 (mirror) i jest przekonana, że ma zabezpieczone dane. No nie ma, tragicznie nie ma.

Najgorsze jest to, że żaden system nie jest bez wad, wiele z pojedynczych zabezpieczeń jest bardzo wątpliwe, a prawie 100% bezpieczne są tylko rozwiązania korporacyjne, cenowo całkowicie poza naszym zasięgiem. Wydawałoby się, że dobrym rozwiązaniem będzie backblaze czy inny crashplan z ich systemem abonamentowym. Za relatywnie niewielkie pieniądze (kilkadziesiąt-kilkaset $$ rocznie) mamy super pewny backup. Są tylko dwa ale. Pierwsze to 100GB+ (tu już każdy wie ile produkuje) tygodniowo wysyłanych danych, drugi to odzyskanie danych. Ściągnąć szybko się nie da, łącza backupów do ściągania są bardzo wolne, trzeba zamawiać usługę nagrania całości na kilka dysków i wysłanie kurierem. To ogromny koszt. I czas.

Zostajemy więc z kilkuwarstwowym zabezpieczeniem, które powinno zapewnić blisko 100% bezpieczeństwo.

RAID1 czy RAID10 to w ogóle nie backup, to tylko zabezpieczenie przed awarią dysku, kosztuje 50% powierzchni, ale za to sprawnie się odbudowuje.

RAID5 – w teorii bardzo dobre zabezpieczenie przed padem pojedynczego dysku. Praktyka jest trochę gorsza. Po pierwsze jest dość wolny (bez super kontrolerów), łączna prędkość całej macierzy jest bliska prędkości pojedynczego dysku lub niższa. Po drugie może się bardzo długo odbudowywać – mówimy o długich godzinach lub nawet dniach. Ostatni problem jest znacznie poważniejszy. Według czystej matematyki dyski większe niż 2-3TB nie mają prawa się odbudować W OGÓLE. Związane jest to z tajemniczym parametrem URE (unrecoverable read error) na poziomie 10^14 bajtów w większości dysków. Tzn w teorii w macierzy 12TB+ wystąpi zawsze minimum jeden, nienaprawialny błąd odczytu. Co to oznacza? Ano w przypadku tanich raidów (wbudowane na płytę główną) proces odbudowy zostanie zatrzymany całkowicie – mimo posiadania danych nie uda się ich odzyskać. Można odbudować macierz na porządnym kontrolerze RAID, ale to kolejne dni i koszty. Lepsze kontrolery pominą błąd i odbudują macierz z pominięciem jakiegoś sektora – najczęściej jeden plik.
WD wprowadził do dysków konsumenckich na szczęście wdRED z poziomem 10^15 co częściowo rozwiązuje problem, ale zagrożenie wciąż istnieje.

Życie na szczęście rozmija się z parametrem URE – macierze się regularnie odbudowują i problem występuje znacznie rzadziej niż wynika z prostej matematyki.

 

Jak spojrzymy na system jako całość to oba systemy (PC+NAS) w połączeniu z prawdziwym, wersjonowanym backupem dają bardzo dobre zabezpieczenie, wymagające minimalną obsługę, kosztujące relatywnie niewiele oraz zapewniające dużą prędkość komputera jak i archiwizacji.

 

Ile to wszystko kosztuje?

NAS 4 dyskowy można spokojnie kupić za ok 1000-1200 PLN bez dysków.
8 dysków 4TB – lekko używane z czystym SMARTem chodzą po 300-350 za sztukę – 2400-3000.
dwa SSD – 150-180 za mniejszy i 250-350 za większy.
Programy są bezpłatne, kosztuje tylko backup online (aktualnie mam Amazon no-limit, który się niedługo skończy, przeskakuje na Amazon Prime – 100$/rok)

Tyle, cały koszt bezpieczeństwa w mojej wersji. A jaki Ty masz pomysł na magazyn i bezpieczeństwo danych?