عیبیابی و تعمیر سرور پس از قطع برق | نجات اطلاعات و سختافزار
نوسانات یا قطع ناگهانی برق یکی از خطرناکترین تهدید ها برای امنیت و سلامت اطلاعات سرور به شمار میرود. تهدیدی که میتواند به صورت مستقیم باعث خرابی RAID ، آسیب فایل سیستم، Corrupt شدن دیتابیس ها و حتی بوت نشدن سیستم عامل شود.
اما جای نگرانی نیست، بازیابی اطلاعات سرور پس از قطع برق امکان پذیر است، به شرط آن که اقداماتی مانند REBUILD، Initialize و نصب مجدد سیستم عامل انجام نشود زیرا ممکن است آخرین شانس بازیابی اطلاعات را از بین ببرد.
در این مقاله به بررسی رایج ترین آسیب های سرور پس از قطع برق و ارائه بهترین راهکار ها به منظور جلوگیری از نابودی اطلاعات می پردازیم.
مهمترین آسیب دیدگی های سرور پس از نوسانات برق
آسیب های ناشی از نوسان و یا قطع ناگهانی برق (Power Outage)، تنها به خرابی منبع تغذیه محدود نمیشود، بلکه ممکن است ساختار نرم افزاری دیتا را نیز دچار آسیب دیدگی کند. طبق گزارش کارشناسان ما، شایع ترین آسیب ها عبارتند از:
- سوختن منبع تغذیه (PSU Failure) : ترکیدن خازنها یا فیوزهای داخلی پاور.
- بهم ریختگی تنظیمات RAID : عدم شناسایی RAID یا مشاهده خطای Foreign Config در کنترلر .
- SQL Corruption: ناتمام ماندن فرایند نوشتن (Write Abort) و خراب شدن فایلهای MDF/LDF.
- آسیب به فایلهای بوت سیستم عامل : بالا نیامدن ویندوز سرور یا ESXi (Blue Screen).
- Cache Damage : تخلیه نشدن اطلاعات موقت روی هارد به دلیل ضعف باتری کش.
اولین اقدامات پس از خاموشی ناگهانی سرور
1.بررسی وضعیت فیزیکی (Physical Check)
به هیچ وجه کابل برق را به سرور متصل نکنید.
احتمالاً مادربرد یا Backplane هاردها اتصالی دارد به همین دلیل، روشن کردن مجدد سرور باعث گسترش خرابی و تهدید سلامت هاردها میشود.
۲. تست سلامت پاور ها و کابلها (PSU)
در صورتی که سرور HP یا Dell دارید، وضعیت چراغ های پشت پاور را چک کنید.
- چراغ سبز: پاور سالم است.
- چراغ خاموش یا نارنجی: پاور آسیب دیده یا کابل ورودی مشکل دارد.
در چنین شرایطی معمولا فقط یکی از پاور ها دچار خرابی میشود و سرور قادر است با پاور دوم به کار خود ادامه دهد، اما باید بدانید کار کردن با سرور در این وضعیت ریسک از بین رفتن اطلاعات را افزایش میدهد.
خطرات Rebuild در RAID و از دست رفتن اطلاعات
در صورت مشاهده چراغ نارنجی در هارد و یا عدم شناسایی RAID ، هرگز اقدام به Rebuild یا Initialize نکنید.
گاهی هارد سرور بر اثر نوسانات برق سالم است اما کنترلر دچار خرابی میشود. در این لحظه اجرای فرایند Rebuild روی هاردی که دیتای آن unstable است منجر به نابودی همیشگی اطلاعات خواهد شد.
3 دلیل رایج خرابی سرور پس از قطع برق و نوسان
بر اساس تجربیات کارشناسان مرکز هارد ایران ، سرور پس از قطع برق معمولاً با سه نوع خرابی شایع مواجه میشوند:
۱. بهم ریختگی RAID و خراب شدن هارد ها (Degraded RAID)
خطا :سرور روشن میشود اما در مرحله بوت ، کنترلر پیامی درباره وضعیت Missing، Offline یا Foreign یک یا چند هارد نمایش میدهد.
قطع ناگهانی برق باعث عدم تطابق اطلاعات موجود در هارد با دیتای ذخیره شده در NVRAM کنترلر خواهد شد. در این حالت هارد های سرور پس از قطع برق ، سالم هستند اما ارتباط آنها با کنترلر قطع میشود.
نکته مهم : به هیچ عنوان هارد و RAID را دستکاری نکنید!
کارشناسان مرکز هارد ایران در مواجهه با چنین خطاهایی، بدون نیاز به کنترلر اصلی، RAID را شبیه سازی و پارامتر ها را اصلاح کرده و در نتیجه پارتیشن ها را بازیابی مینماید.
2.توقف نوشتن و خرابی دیتابیس (SQL Database Corruption)
خرابی دیتابیس، یکی از خطرناک ترین مشکلاتی است که در اثر قطع ناگهانی برق با آن مواجه خواهید شد.
ویندوز بالا میآید اما سرویس SQL START نمیشود و یا دیتابیس در حالت Suspect / Recovery Pending گیر میکند.
این وضعیت نشان میدهد که هنگام قطع برق ، هد هارد در حال نوشتن یک تراکنش روی دیتابیس بوده (Write Abort) که باعث شده فایل لاگ ناقص و ترتیب اطلاعات بهم بریزد.
راهکار: وقتی سرور پس از قطع برق با این مشکل روبه رو میشود ، ابزار های تعمیر خودکار SQL معمولا ، رکورد های ناقص و خراب را شناسایی و آنها را حذف میکند .
این کار ممکن است به حفظ سلامت دیتابیس کمک کند اما اطلاعات مهم و ناقص را از بین میبرد.
مرکز هارد ایران بهجای استفاده از ابزارهای خودکار که باعث حذف اطلاعات مهم میشود، از روشهای تخصصی و تجهیزات پیشرفته برای بازسازی کامل دیتابیس بهره میبرد. کارشناسان ما (Raw Data) را بازیابی و جداول را بهصورت دستی بازسازی میکنند تا حتی آخرین تراکنشها نیز سالم بماند.
3.بوت نشدن ویندوز سرور یا ESXi (OS Boot Failure)
سرور روشن میشود ، اما در مرحله بارگذاری ESXi گیر میکند(Purple/Blue Screen).
این خطا نشان میدهد فایل سیستم در اثر خاموشی ناگهانی، Corrupt شده است.در این لحظه کاربران تلاش میکنند تا سیستم عامل جدیدی را روی سیستم خراب نصب کنند، اما باید توجه داشت، این اقدام باعث نابودی کامل اطلاعات خواهد شد. بنابراین توصیه میشود از هرگونه دستکاری سرور خودداری کرده و فورا با کارشناسان مرکز هارد ایران تماس بگیرید تا از بروز آسیب های بیشتر جلوگیری شود.

چطور بفهمیم آسیب سرور سخت افزاری است و یا نرم افزاری؟
| نشانه آسیب دیدگی | نوع آسیب احتمالی | اقدام فوری پیشنهادی |
|---|---|---|
| سرور روشن نمیشود (No Power) | سختافزاری (پاور، مادربرد، Backplane) | تست و بررسی پاور ، بررسی کابلها، در صورت تکرار حتما با کارشناس تماس بگیرید. |
| بوق ممتد یا چراغ قرمز چشمکزن | سختافزاری (CPU، RAM، FAN) | بررسی لاگهای ILO / iDRAC، تست ماژول رم، اطمینان از سلامت خنککننده |
| سرور روشن است اما درایوها شناسایی نمیشوند | نرمافزاری / خرابی کنترلر RAID | خاموش کردن فوری سرور و تماس با مرکز بازیابی . هرگونه Rebuild یا Initialize باعث از دست رفتن اطلاعات میشود. |
| ریاستارت شدن مداوم / Blue Screen | نرمافزاری (OS Corruption) / خرابی فایلسیستم | ترمیم فایلسیستم با ابزار تخصصی (به هیچ عنوان دستور CHKDSK را اجرا نکنید !) |
| کندی شدید، توقف هنگام کپی | سختافزاری (Bad Sector روی هارد) | توقف کار، جدا کردن هارد |
| داغ شدن غیرعادی سرور | سختافزاری (Cooling Failure) | بررسی فنها، پاکسازی جریان هوا، جلوگیری از خاموشی ناگهانی |
| صدای غیرعادی از هارد | سختافزاری (خرابی هد یا اسپیندل و یا کنترلر) | خاموشی فوری – خطر آسیب به پلاتر بسیار بالاست |
| ناپدید شدن پارتیشنها | لاجیکال / مشکل RAID / Metadata | بررسی RAID بدون انجام Rebuild، هرگز قدام به Rebuild نکنید و با مرکز بازیابی اطلاعات تماس بگیرید . |
| خطای «Inconsistent Virtual Disk» | خرابی پریتی PARITY / Write Hole / قطع برق | به هیچ عنوان rebuild نکنید؛ باید توسط کارشناس بررسی شود . |
| ارور «Power Supply Failure» | سختافزاری (منبع تغذیه) | تعویض پاور و تست ولتاژ، بررسی سلامت Backplane |
بازیابی اطلاعات شرکت ستاره ….. پس از قطع برق در مرکز هارد ایران
خرابی و تغییر ظرفیت هارد سرور در اثر قطع ناگهانی برق
نوسانات شدید و قطعی برق ، هارد های سرور شرکت ستاره …… را در وضعیت بحرانی قرار داد .
سرور با مشکلات زیر روبه رو شده بود :
- نمایش ظرفیت غیرواقعی ( تغییر ظرفیت هارد 10 ترابایتی به 90 گیگابایت )
- نمایش وضعیت Unknown در تنظیمات VMware
- بالا نیامدن ماشین مجازی فایل شیرینگ که حاوی اسناد و آرشیو های حیاتی شرکت بود (به دلیل آسیب سخت افزاری)
اما چالش اصلی این بود که سیستم بک آپ و ماشین مجازی فایل شیرینگ در یک سرور مشابه قرار داشتند ، همین موضوع باعث شد با خرابی هارد ، ریکاوری اطلاعات از بک آپ امکان پذیر نبود و سازمان تمام راه های دسترسی به اطلاعات خود را از دست داده بود .
بازیابی تخصصی اطلاعات VM با مشکل بالا نیامدن در مرکز هارد ایران
کارشناسان مرکز هارد ایران با بررسی هارد معیوب (با نمایش ظرفیت کاذب) متوجه وجود آسیب در ماژول های فریمور شدنده بودند . تیم ریکاوری سرور ما ، با وجود چالش بالا نیامدن VM و عدم دسترسی به اطلاعات و بک آپ به طور همزمان ، Service Area را بازسازی و کرده و توانستند vm و سرور فایل شیرینگ را با موفقیت ریکاوری نمایند .

حفاظت از سرور در برابر قطع برق، آیا UPS و Stabilizer کافیاست؟
یکی از رایج ترین سوالاتی که کاربران هنگام خرابی سرور پس از قطع برق مطرح میکنند این است که:
سرور از UPS برخوردار بود، پس چرا با وجود آن، اطلاعات از بین رفت؟
پاسخ کارشناسان مرکز هارد ایران:
سلامت اطلاعات سرور به قطعه ای کوچک به نام باتری کش (RAID Controller Battery) وابسته است در حالی که UPS فقط برق را تامین میکند.
باتری کش وظیفه حفظ اطلاعات موجود در رم کنترلر (اطلاعاتی که هنوز روی هارد نوشته نشده) را دارد.
بنابراین درصورت ضعیف بودن باتری کش، حتی با وجود UPS، هنگام وقوع یک نوسان لحظه ای ممکن است دیتابیس Corrupt شود.
توصیه مرکز هارد ایران:
علاوه بر استفاده از UPS آنلاین (Double Conversion)، حتماً وضعیت سلامت باتری کش کنترلر را هر ۶ ماه چک کنید.
اگر سرور روشن شد ولی هارد را شناسایی نکرد ، چه کنیم؟
به هیچ عنوان هاردها را خارج نکرده و آنها را جا به جا نکنید. ترتیب هاردها در RAID بسیار مهم است بنابراین بدون هیچگونه دستکاری سرور را خاموش و با کارشناسان مرکز هارد ایران تماس بگیرید.



سلام وقتتون بخیر
بعد از قطع برق دیگه سرور بالا نیومد، مدت زمان بررسی اولیه چقدره؟
سلام وقت بخیر
بررسی اولیه معمولاً همون روز انجام میشه و نتیجه اعلام میشه.
اگر مشکل فقط نرمافزاری باشه سریعتر مشخص میشه، ولی اگر آسیب فیزیکی به هارد وارد شده باشه نیاز به تست تخصصی داره.
مدت زمان دقیق ریکاوری اطلاعات بعد از بررسی اولیه اعلام میشه.
مطلب مفیدی بود! فقط یه سوال وقتی سرور روشن شد ولی هاردها شناسایی نمیشن، بهتره اول سرور رو روشن نگه داریم یا خاموشش کنیم؟
سلام، اگر هاردها شناسایی نمیشن بهتره سرور رو خاموش کنید و دوباره روشن نکنید تا بررسی انجام بشه.
روشن موندن یا ریستهای مکرر ممکنه آسیب رو بیشتر کنه، مخصوصاً اگر اطلاعات مهم دارید.