สรุปงาน ปัญหา ESX ทำงานช้า

เริ่มต้นลูกค้าแจ้งว่า ESX 3.5 ทำงานช้าลงมากหลังจาก Convert Oracle 10G R2 เข้ามา

สิ่งที่เจอ

  • มี VM ทั้งหมด 60 เครื่อง
  • หลังจากมี Oracle เข้ามาในระบบการ Access Disk สูงขึ้นเกือบ ๆ เท่าตัวแต่ยังไม่สูงมาก
  • การเปิด VM ขึ้นมาใช้เวลามากกว่า 10 นาที
  • การ Copy VMDK 10GB ใช้เวลาเกิน 20 นาที
  • ในระบบมี SCSI กับ SATA อยู่ด้วยกันใน MSA 1500
  • มีหลาย VM ที่มี Disk อยู่ใน Luns มากกว่า 1 Luns
  • MSA20 (SATA) มีปัญหาไม่สามารถ Rebuild Luns ที่มีปัญหาได้หลังจากเปลี่ยน Disk
  • MSA 1500 Crash โดยไม่ทราบสาเหตุ 3-4 ครั้งในรอบ 3เดือน
  • MSA 1500 Firmware 5.20 A/P

การวิเคราะห์ปัญหา

  • MSA 1500 มีปัญหา
  • Disk ของ VM อยู่หลาย Luns ทำให้ทำงานหนัก
  • SATA ทำให้ระบบหน่วง
  • Performance ของ MSA 1500 ต่ำเกินไป

แนวทางการแก้ปัญหา

  • แจ้งซ่อมไปทาง HP ซึ่งทาง HP บอกว่าต้อง Update Firmware เป็น Version ล่าสุดก่อนถึงจะยอมเปลี่ยน Hardware
  • Convert VM ให้ Disk ทุกก้อนอยู่ใน Luns เดียวกันใน SCSI และไม่ใช้ SATA โดยจะนำ SATA ไปใช้ Backup VM
  • สั่ง MSA 2000 มาเพิ่มเนื่องจากมีแผนขยายระบบเพิ่ม แต่ MSA1500 ใส่ Disk เต็มแล้ว
  • Upgrade ESX 3.5 ไปเป็น 4.0 u1
  • Update Firmware MSA 1500 เป็น 7.10 A/A เพื่อเพิ่ม I/O

ขั้นตอนการปฏิบัติงาน

  • Convert VM ทั้งหมดให้มาอยู่ใน SCSI และให้ Disk อยู่ใน Luns เดียวกัน
  • Backup VM ทั้งหมดเก็บไว้เนื่องจากไม่เคยมีการ Backup มาเกือบ 2ปี
  • หลังจาก Backup เรียบร้อยเกิดปัญหา Controller A ใน MSA 1500 หน้าจอดับ แจ้งทาง HP มาเปลี่ยน
  • หลังจากเปลี่ยน Controller ปรากฏว่า Performance กลับมาปกติเหมือนก่อนที่ระบบจะเริ่มช้า
  • สรุปได้ว่าปัญหาเกิดจาก Controller A มีปัญหาแต่ไม่มีการแจ้งเตือนใด ๆ
  • Upgrade เป็น ESX 4.0 u1 เกิดปัญหา ESX มองไม่เห็น Luns ทั้งหมด
  • ทำการ Update Firmware MSA 1500
  • เกิดปัญหา ESX เป็น Luns ทั้งหมดเป็น Snapshot เนื่องจากคิดว่าเป็น Luns ใหม่แต่ UUID เดิม
  • หลังจากแก้ไขปัญหาเรียบร้อยทำการปรับแต่ง Storage และ Network เพื่อเพิ่ม Performance
  • Update VM ไปเป็น V7

สรุป
Performance ของ VM ทั้งหมดสูงกว่าการติดตั้งครั้งแรกมาก เนื่องจาก ESX 4.0, Storage A/A

Oracle RAC on VI3.5 upadate 3

ลูกค้าต้องการติดตั้ง Oracle RAC 10g r2 บน VI3.5 u3 ปัญหาที่เจอคือหลังจากติดตั้ง Clusterware เสร็จแล้ว Node จะ Restart เรื่อย ๆ ลองทั้ง Windows 2003 และ Centos4 ก็ไม่สามารถติดตั้งได้ แต่รู้สึกว่า MSA 1500 ที่ใช้อยู่จะมีปัญหา จึงลองติดตั้ง VI3.5 u3 ใหม่อีกชุดบน MSA1000 ที่ไม่ได้ใช้งาน ปรากฏว่า RAC ใช้งานได้ปกติ

จึงแจ้งเคลมไปทาง HP แต่ทาง HP ให้ Update Firmware ของ MSA1500 ก่อน จึงแจ้งให้ลูกค้าทำการ Backup VM ทั้งหมดที่อยู่บน VI3.5 u3 ซึ่งมีอยู่เกือบ ๆ 40 VM รู้สึกว่าจุดอ่อนอย่างหนึ่งของ Virtualization ก็คือ Storage ต้อง Stable และควรจะมี Backup ไว้ตลอด

Update : Jan 13, 2010

HP เข้ามาเปลี่ยน Controller MSA 1500 ให้ก่อนเนื่องจาก LCD ดับไป ผลคือ ESX หลุด แต่หลังจาก Restart กลับมา Performance สูงขึ้นมาก ก่อนหน้านี้ไม่สามารถ Save ได้ก็ทำได้แล้ว