ریکاوری ESXi | نجات اطلاعات از خطای VMFS
عدم دسترسی به Datastore ، مشاهده صفحه بنفش (PSOD)، نمایش ارور I/O یا حتی تغییر نام فایلها به پسوند args، نشانه های خرابی یا حتی حمله باج افزاری در سیستم عامل است.
در چنین شرایطی، اصلی ترین دلیل از بین رفتن اطلاعات، خرابی اولیه نیست ، بلکه تصمیمات اشتباه و عجولانه کاربر است. اقداماتی که در ظاهر، راه حل بنظر میرسند اما در واقع ممکن است امکان بازیابی اطلاعات را برای همیشه از بین ببرد.
با این حال نگران نباشید،در اغلب موارد تا زمانی که روی هارد ها عملیات مخرب انجام نشود اطلاعات هنوز از بین نرفته و امکان ریکاوری ESXi به طور کامل وجود دارد.
در ادامه به بررسی مهمترین اقدامات، جهت رفع خرابی سرور و سیستم عامل Esxi میپردازیم سپس با شناسایی دقیق علائم خرابی ، راهکار های تخصصی ارائه خواهیم داد.
اقدامات ممنوع در زمان خرابی سرور
در صورت از کار افتادن سرور یا عدم دسترسی به آن، از انجام اقدامات زیر خودداری کنید:
- هرگز RAID را Rebuild نکنید: اگر یک یا دو هارد از RAID 5 یا 6 خارج شدهاست ، Rebuild روی هارد معیوب یا هارد جدید، باعث بهم ریختن ترتیب بلوک های دیتا (Parity) میشود.
- Initialize کردن هارد ممنوع: در صورت عدم شناسایی هارد توسط VMware و مشاهده درخواست Initialize هارد در ویندوز، انجام فرایند Initialize باعث از بین رفتن همیشگی متادیتای vmfs خواهد شد.
- نصب مجدد ESXi روی Datastore: نصب مجدد ESXI باعث بازنویسی (Overwrite) سکتورهای ابتدایی هارد شده و شانس ریکاوری ESXi را به شدت کاهش میدهد.
نشانه های خرابی در ESXI
پیش از هرگونه اقدام جهت رفع خرابی در سرور ، لازم است بر اساس نشانه های خرابی، نوع آسیب دیدگی را به صورت دقیق، شناسایی و بررسی کنید. جدول زیر با نشان دادن علائم خرابی کمک میکند تا وضعیت فعلی سیستم خود را به درستی ارزیابی کنید .
| نشانه خرابی | تشخیص فنی | سطح خطر |
|---|---|---|
| Purple Screen (Exception 13/14) | خطای کرنل PSOD (معمولاً سختافزاری یا درایور) | بحرانی |
| Datastore Inaccessible | خرابی متا دیتای فایل سیستم VMFS یا آسیب Partition Table | بالا |
| I/O Error / Device Busy | وجود Bad Sector در هارد فیزیکی یا قفل شدن فایل VMDK (جهت رفع بدستکور ، لازم است هارد توسط کارشناس بررسی شود) | بالا |
| Files Renamed to .args | حمله باجافزار ESXiArgs یا مشابه آن | فوق بحرانی |
| VM Invalid / Won’t Start | آسیب دیدن فایلهای تنظیمات (.vmx) یا هارد فلت | متوسط |
1.صفحه بنفش (PSOD):
سرور با نمایش خطای PSOD ، به طور واضح نشان میدهد که یک قطعه سخت افزاری (معمولا RAM یا CPU) یا یک ماژول نرم افزاری دچار خرابی شده است.
2.عدم دسترسی به Datastore:
گاهی ممکن است سرور روشن باشد اما در vSphere Client هیچ درایوی مشاهده نشود. این وضعیت نشان دهنده آسیب دیدن فهرست فایل ها (Metadata) می باشد، در حالی که محتوای فایل ها سالم است.
3.فایلهای قفل شده (Locked VMDK):
هنگامی که یک فرایند (مانند بکاپ نیمه کاره) باعث قفل شدن فایل ها شود، ارور Device or resource busy دریافت میکنید. در این شرایط تلاش برای باز کردن فایل ها ممکن است باعث تخریب هدر (Header) فایل ها شود.

رایج ترین نوع خرابی در ESXi و راهکار های تخصصی بازیابی اطلاعات
بازیابی فایلهای حذف شده (Deleted VMDK / VMX)
در برخی موارد خطای انسانی باعث بروز مشکل در سرور میشود. مثلا ممکن است مدیر سرور به جای Remove from Inventory، گزینه Delete from Disk را انتخاب کرده باشد.
در فایل سیستم vmfs، هنگام پاک شدن یک فایل، اطلاعات فورا از روی هارد حذف نمیشود.
مرکز هارد ایران با بهره گیری از تکنیک های تخصصی Low‑Level Hex Editing، سکتور های آزاد را بررسی کرده و فایل های Flat.vmdk(که حاوی دیتای اصلی هستند) را بازیابی میکند.
تعمیر و بازیابی پارتیشن VMFS آسیبدیده (Corrupted Metadata)
فایل سیستم vmfs بخصوص نسخه 5 و 6 ساختار پیچیده ای دارد.
در این نوع فایل سیستم استفاده از دستوراتی مانند VOMA (vSphere On-disk Metadata Analyzer) گاهی ممکن است مفید باشد، اما در صورت وجود مشکلات فیزیکی در هارد اجرای این دستورات مانند راه رفتن روی مین است.
کارشناسان مرکز هارد ایران ، ابتدا یک ایمیج کامل از هارد تهیه کرده سپس تمام فرایند تعمیر پارتیشن را روی نسخه کپی انجام میدهند تا ریسک از بین رفتن اطلاعات به صفر برسد.
ریکاوری ESXi بعد از خرابی Raid یا سختافزار (Physical Failures)
سرور های HP G8, HP G9 وHP G10 معمولا از کنترلرهای Smart Array برای مدیریت هارد و RAID ها استفاده میکند. اگر RAID 5، با خرابی همزمان دو هارد مواجه شود (Double Fault)، کنترلر توانایی بازسازی اطلاعات را نداشته و در نتیجه RAID را در وضعیت FAILED قرار میدهد.
راهکار تخصصی: کارشناسان ما با بهرهگیری از دستگاه PC‑3000 SAS، ابتدا از هر هارد بهصورت جداگانه ایمیج تهیه کرده سپس با شبیهسازی الگوریتم RAID بصورت نرمافزاری، اقدام به بازیابی اطلاعات RAID می نمایند .
نجات اطلاعات از باجافزار ESXi Args و حملات سایبری
در حملات RANSOM (باج افزار) به ESXi، معمولاً فایلهای Flat.files که حاوی اطلاعات اصلی هستند، مورد حمله قرار میگیرد.
در این حملات معمولا بخش هایی از هدر و فوتر فایل ها رمزگذاری شده و محتوای اصلی دست نخورده باقی میماند، مرکز هارد ایران با بکارگیری تکنیک های تخصصی، فایل های ویروسی را رمزگشایی (DECRYPT)، سپس اطلاعات را با موفقیت بازیابی میکند.

نمونه بازیابی موفق دیتابیس و VM شرکت کاشان …. نیکان در مرکز هارد ایران
بازیابی فوری ESXI (کمتر از 24 ساعت)
یکی از متداول ترین خطراتی که مدیران سرور را با چالش روبه رو میکند ، آسیب سرور به دلیل نوسانات برق است . شرکت کاشان …. نیکان نیز از این قضیه مثتنی نبود و به دلیل نوسان برق و خرابی کنترلر ، ماشین مجازی حسابداری این مجموعه با خطای زیر رو به رو شد :
The redo log of ACC-00000 1.vmdk is corrupted
در پی بروز این خطا ، دسترسی به اطلاعات اسناد مالی شرکت با مشکل روبرو شده بود .
پس از مراجعه شرکت به مرکز هارد ایران و بررسی وضعیت سرور و هارد ها ، مشخص شد ، نوسان برق ، علاوه بر خرابی کنترلر ، آسیب شدید به زنجیره اسنپ شات ها (Snapshot Chain) وارد کرده بود . مشکل به اینجا ختم نمی شد ، بین فایل اصلی VMDK و فایلهای Delta نیز ناسازگاری شدید به وجود آمده بود .
کارشناسان ما پس از شناسایی دقیق مشکل ، بلافاصله اقدامات زیر را به کار گرفتند :
- آنالیز ساختار فایل سیستم VMFS و شناسایی فایلهای سالم
- احیای هارد های مجازی که به دلیل قطعی برق ، از مدار خارج شده بودن و بازیابی فایل های SQL pooyesh
- بازیابی پوشه AutoBackup از درایو D (بدون ترمیم اسنپ شات معیوب)
ریکاوری دیتای ماشین FTP
خوشبختانه با تلاش های تیم فنی ، تمام اطلاعات دیتابیس حسابداری تا آخرین تراکنش که مربوط به 2 بهمن بود بازیابی و تحویل شرکت گردید .

آیا استفاده از نرمافزارهای ریکاوری موثر است؟
در صورتی که هارد سرور دچار مشکلات فیزیکی مانند بدسکتور و یا ضعف هد شود، استفاده از نرم افزار های ریکاوری در این شرایط باعث وارد شدن فشار زیاد به سرور میشود.
اسکن های سنگین این نرم افزار ها ممکن است منجر به خرابی کامل هارد و از بین رفتن همیشگی اطلاعات شود.
تشخیص اشتباه: نرمافزارهای ریکاوری اتوماتیک قادر به درک دقیق ساختار پیچیده LUN ها و Spanهای مجازیسازی نیستند و ممکن است فایلهای ۱۰۰ گیگابایتی را به هزاران فایل ۱ کیلوبایتی بیمصرف تبدیل کنند.
توصیه تخصصی: به جای اقدامات غیر تخصصی و استفاده از نرمافزارهای ریکاوری معمولی که ممکن است خسارات جبرانناپذیری به سازمانها وارد کند، برای جلوگیری از وقوع هرگونه حادثه و از بین بردن ریسک نابودی همیشگی اطلاعات میتوانید با کارشناسان مرکز هارد ایران تماس بگیرید تا فرایند بازیابی اطلاعات سرور شما را در استانداردترین حالت ممکن انجام دهند.
مراحل اولیه برای بررسی سلامت دیتابیس (قبل از تماس با کارشناسان)
در صورت دسترسی به SSH سرور ، با اجرای چند دستور بی خطر، اطلاعات لازم را کسب کنید تا کارشناسان ما بتوانند در مشاوره تلفنی راهنمایی دقیق تری ارائه دهند.
۱. بررسی وضعیت هاردها:
برای بررسی اینکه آیا ESXi استوریجها را شناسایی میکند یا خیر، دستور زیر را اجرا کنید:
esxcli storage filesystem list
۲. بررسی لاگهای کرنل:
جهت بررسی علت کرش یا ارورهای I/O:
cat /var/log/vmkernel.log | grep -i “error”
۳. لیست کردن فایلهای موجود:
به مسیر دیتا استور بروید و ببینید آیا فایلهای flat وجود دارند؟
cd /vmfs/volumes/
ls -l
نکته مهم: فقط دستورات مربوط به «مشاهده» (List/Show) را اجرا نمایید و از اجرای دستورات «تعمیر» (Fix/Repair) خودداری کنید.

سوالات متداول
هزینه ریکاوری ESXi چقدر است؟
هزینه ریکاوری ESXi به نوع خرابی، تعداد هارد ها و حجم دیتا، بستگی دارد. در مرکز هارد ایران پس از تست و بررسی اولیه بصورت رایگان، هزینه دقیق تعمیر و بازیابی سرور توسط کارشناسان مجموعه به شما اعلام خواهد شد.
چقدر زمان میبرد تا سرور دوباره بالا بیاید؟
مدت زمان ریکاوری اطلاعات معمولا بین 1 تا 3 روز کاری میباشد اما در صورتی که دسترسی سریع به اطلاعات برایتان اهمیت داشته باشد، مرکز هارد ایران، ریکاوری اطلاعات شما را در سرویس اورژانسی قرارداده و فرایند ریکاوری را با توجه به شرایط سرور در کمتر از 3 ساعت با موفقیت به اتمام میرساند.
آیا پس از نصب مجدد ESXi ، اطلاعات قابل بازیابی است؟
بله، ریکاوری ESXi امکانپذیر است ، اما دشوارتر خواهد بود، زیرا بخشی از متادیتا بازنویسی شده است، بنابراین هر چه اطلاعات کمتری روی هارد نوشته شود، شانس موفقیت در ریکاوری ESXi افزایش میابد.


نکتهای که در مورد دستور VOMA گفتید خیلی درست بود. من قبلاً روی یک سرور این دستور رو زدم و کل Datastore پرید
الان روی سرور جدیدمون خطای I/O Error داریم و ماشینها یکییکی دارن (Invalid) میشن.
توی لاگهای vmkernel که گفتید چک کنیم، ارور Medium Error زیاد میبینم که نشونه بدسکتوره.
با توجه به اینکه سرور روشنه ولی کند شده، آیا پیشنهاد میکنید ماشینها رو خاموش کنیم و هاردها رو بفرستیم؟ یا اول سعی کنیم با vMotion ماشینهای سالم رو جابجا کنیم؟ میترسم فشار vMotion باعث بشه هارد کلاً فیل بشه.
باتشکر
سلام
ارور Medium Error معمولاً نشونه مشکل فیزیکی دیسکه.
اگر ماشینها یکییکی Invalid میشن، یعنی وضعیت پایدار نیست.
پیشنهاد ما اینه که اگر اطلاعات حیاتی هست، اولویت با کم کردن فشار روی دیسکهاست.
vMotion خودش عملیات Read/Write سنگین انجام میده. اگر دیسک در آستانه Fail باشه ممکنه شرایط رو بدتر کنه.
در این شرایط معمولاً توصیه میکنیم سرور در سریعترین زمان ممکن خاموش و برای بررسی تخصصی ارسال بشه، مخصوصاً اگر لاگها خطای تکرارشونده سختافزاری نشون میدن.