เริ่มต้นลูกค้าแจ้งว่า ESX 3.5 ทำงานช้าลงมากหลังจาก Convert Oracle 10G R2 เข้ามา
สิ่งที่เจอ
- มี VM ทั้งหมด 60 เครื่อง
- หลังจากมี Oracle เข้ามาในระบบการ Access Disk สูงขึ้นเกือบ ๆ เท่าตัวแต่ยังไม่สูงมาก
- การเปิด VM ขึ้นมาใช้เวลามากกว่า 10 นาที
- การ Copy VMDK 10GB ใช้เวลาเกิน 20 นาที
- ในระบบมี SCSI กับ SATA อยู่ด้วยกันใน MSA 1500
- มีหลาย VM ที่มี Disk อยู่ใน Luns มากกว่า 1 Luns
- MSA20 (SATA) มีปัญหาไม่สามารถ Rebuild Luns ที่มีปัญหาได้หลังจากเปลี่ยน Disk
- MSA 1500 Crash โดยไม่ทราบสาเหตุ 3-4 ครั้งในรอบ 3เดือน
- MSA 1500 Firmware 5.20 A/P
การวิเคราะห์ปัญหา
- MSA 1500 มีปัญหา
- Disk ของ VM อยู่หลาย Luns ทำให้ทำงานหนัก
- SATA ทำให้ระบบหน่วง
- Performance ของ MSA 1500 ต่ำเกินไป
แนวทางการแก้ปัญหา
- แจ้งซ่อมไปทาง HP ซึ่งทาง HP บอกว่าต้อง Update Firmware เป็น Version ล่าสุดก่อนถึงจะยอมเปลี่ยน Hardware
- Convert VM ให้ Disk ทุกก้อนอยู่ใน Luns เดียวกันใน SCSI และไม่ใช้ SATA โดยจะนำ SATA ไปใช้ Backup VM
- สั่ง MSA 2000 มาเพิ่มเนื่องจากมีแผนขยายระบบเพิ่ม แต่ MSA1500 ใส่ Disk เต็มแล้ว
- Upgrade ESX 3.5 ไปเป็น 4.0 u1
- Update Firmware MSA 1500 เป็น 7.10 A/A เพื่อเพิ่ม I/O
ขั้นตอนการปฏิบัติงาน
- Convert VM ทั้งหมดให้มาอยู่ใน SCSI และให้ Disk อยู่ใน Luns เดียวกัน
- Backup VM ทั้งหมดเก็บไว้เนื่องจากไม่เคยมีการ Backup มาเกือบ 2ปี
- หลังจาก Backup เรียบร้อยเกิดปัญหา Controller A ใน MSA 1500 หน้าจอดับ แจ้งทาง HP มาเปลี่ยน
- หลังจากเปลี่ยน Controller ปรากฏว่า Performance กลับมาปกติเหมือนก่อนที่ระบบจะเริ่มช้า
- สรุปได้ว่าปัญหาเกิดจาก Controller A มีปัญหาแต่ไม่มีการแจ้งเตือนใด ๆ
- Upgrade เป็น ESX 4.0 u1 เกิดปัญหา ESX มองไม่เห็น Luns ทั้งหมด
- ทำการ Update Firmware MSA 1500
- เกิดปัญหา ESX เป็น Luns ทั้งหมดเป็น Snapshot เนื่องจากคิดว่าเป็น Luns ใหม่แต่ UUID เดิม
- หลังจากแก้ไขปัญหาเรียบร้อยทำการปรับแต่ง Storage และ Network เพื่อเพิ่ม Performance
- Update VM ไปเป็น V7
สรุป
Performance ของ VM ทั้งหมดสูงกว่าการติดตั้งครั้งแรกมาก เนื่องจาก ESX 4.0, Storage A/A