สรุปงาน ปัญหา ESX ทำงานช้า

เริ่มต้นลูกค้าแจ้งว่า ESX 3.5 ทำงานช้าลงมากหลังจาก Convert Oracle 10G R2 เข้ามา

สิ่งที่เจอ

  • มี VM ทั้งหมด 60 เครื่อง
  • หลังจากมี Oracle เข้ามาในระบบการ Access Disk สูงขึ้นเกือบ ๆ เท่าตัวแต่ยังไม่สูงมาก
  • การเปิด VM ขึ้นมาใช้เวลามากกว่า 10 นาที
  • การ Copy VMDK 10GB ใช้เวลาเกิน 20 นาที
  • ในระบบมี SCSI กับ SATA อยู่ด้วยกันใน MSA 1500
  • มีหลาย VM ที่มี Disk อยู่ใน Luns มากกว่า 1 Luns
  • MSA20 (SATA) มีปัญหาไม่สามารถ Rebuild Luns ที่มีปัญหาได้หลังจากเปลี่ยน Disk
  • MSA 1500 Crash โดยไม่ทราบสาเหตุ 3-4 ครั้งในรอบ 3เดือน
  • MSA 1500 Firmware 5.20 A/P

การวิเคราะห์ปัญหา

  • MSA 1500 มีปัญหา
  • Disk ของ VM อยู่หลาย Luns ทำให้ทำงานหนัก
  • SATA ทำให้ระบบหน่วง
  • Performance ของ MSA 1500 ต่ำเกินไป

แนวทางการแก้ปัญหา

  • แจ้งซ่อมไปทาง HP ซึ่งทาง HP บอกว่าต้อง Update Firmware เป็น Version ล่าสุดก่อนถึงจะยอมเปลี่ยน Hardware
  • Convert VM ให้ Disk ทุกก้อนอยู่ใน Luns เดียวกันใน SCSI และไม่ใช้ SATA โดยจะนำ SATA ไปใช้ Backup VM
  • สั่ง MSA 2000 มาเพิ่มเนื่องจากมีแผนขยายระบบเพิ่ม แต่ MSA1500 ใส่ Disk เต็มแล้ว
  • Upgrade ESX 3.5 ไปเป็น 4.0 u1
  • Update Firmware MSA 1500 เป็น 7.10 A/A เพื่อเพิ่ม I/O

ขั้นตอนการปฏิบัติงาน

  • Convert VM ทั้งหมดให้มาอยู่ใน SCSI และให้ Disk อยู่ใน Luns เดียวกัน
  • Backup VM ทั้งหมดเก็บไว้เนื่องจากไม่เคยมีการ Backup มาเกือบ 2ปี
  • หลังจาก Backup เรียบร้อยเกิดปัญหา Controller A ใน MSA 1500 หน้าจอดับ แจ้งทาง HP มาเปลี่ยน
  • หลังจากเปลี่ยน Controller ปรากฏว่า Performance กลับมาปกติเหมือนก่อนที่ระบบจะเริ่มช้า
  • สรุปได้ว่าปัญหาเกิดจาก Controller A มีปัญหาแต่ไม่มีการแจ้งเตือนใด ๆ
  • Upgrade เป็น ESX 4.0 u1 เกิดปัญหา ESX มองไม่เห็น Luns ทั้งหมด
  • ทำการ Update Firmware MSA 1500
  • เกิดปัญหา ESX เป็น Luns ทั้งหมดเป็น Snapshot เนื่องจากคิดว่าเป็น Luns ใหม่แต่ UUID เดิม
  • หลังจากแก้ไขปัญหาเรียบร้อยทำการปรับแต่ง Storage และ Network เพื่อเพิ่ม Performance
  • Update VM ไปเป็น V7

สรุป
Performance ของ VM ทั้งหมดสูงกว่าการติดตั้งครั้งแรกมาก เนื่องจาก ESX 4.0, Storage A/A

Leave a Reply