资源池裸金属实施管理手册

2 分钟读完

概述

文档包括 “上线实施” —— 含布线规则、BIOS设置、部署流程,三个阶段针对资源池各机型的不同实施方法;

“故障类型及处理办法” —— 含整个生命周期中会出现的 8 类问题、5 种异常状态,对应 28 种故障类型和处理办法

布线规则

千兆网线

1G-1 电口连接带外交换机,交换机端口配置裸金属 PXE Vlan(如 203)

万兆光纤

分为 3 种情况

  1. 两张 10G 卡 A & B

    网卡顺序按照 slot 号从小到大,集成网卡排前

    A 10G-1, 10G-2 –> TOR1

    B 10G-3, 10G-4 –> TOR2

    接线示例如下


10G-1 接 10GE/1/0/21 | 10G-2 接 10GE/1/0/32

10G-3 接 10GE/2/0/21 | 10G-4 接 10GE/2/0/32

  1. 一张 10G 卡 A

    A 10G-1 –> TOR1

    A 10G-2 –> TOR2

    示例如下


10G-1 接 10GE/1/0/21

10G-2 接 10GE/2/0/21

  1. 一张集成卡

    例如华为 RH2288v5 搭载的 X722 网卡,需要注意电口 1G-1 是第三个网口,前两个口为光口

    布线类似 ‘情况 2’

BIOS 设置

BIOS 设置涉及启动模式、启动顺序、特殊机型设置

普适规则

启动模式: Legacy 模式

启动顺序: 1G-1 -> 10G-1 -> 10G-2 -> Hard Disk

特殊设置

不同型号服务器各有一些特殊设置

  1. 惠普 HP

    惠普机型在资源池中包括 DL360 DL380 DL560 DL580

    需关闭该功能,否则单张网卡反复轮询多次,导致部署环节超时报错

Network Boot Retry Support   --- [Disabled]

具体配置文档见 [ 惠普DL系列BIOS设置(裸金属).pdf ]

  1. 戴尔 DELL

    戴尔机型在资源池中包括 R730 R930

    在 IPMI 管理界面开启

iDRAC -> 网络 -> IPMI 设置 -> 启用 LAN 上的 IPMI [√]
  1. 华为 HUAWEI

    华为机型在资源池中包括 RH2288Hv3 RH5288v3 RH5885v3 RH2288Hv5

    需要在 RAID 配置中,指定系统 BOOT 设备

    v3 与 v5 BIOS 版本不同,设置方式有差异

    此外, v3 版本启动顺序为 PXE -> Hard Disk ,不能指定 PXE 内部顺序,v5 版本可以

  2. 浪潮 INSPUR

    浪潮机型在资源池中包括 NF5280m5 NF5288m5

    需要注意 x722 网卡的顺序配置

    具体配置文档见 [ 浪潮 NF5288 BIOS 设置(裸金属).pdf ]

  3. 曙光 SUGON

    曙光机型在资源池中包括 W580 W720

    网卡顺序需要在 ‘Network Drive BBS Priorities’ 处设置,’Boot Option #1’ 默认置为其中第一项(1G-1)

部署流程

整个过程共 7 个阶段,可参照 [ 裸金属部署工作流例表.xlsx ] 逐项递进

安全阶段

  1. 收集信息

    包括 主机名,IPMI IP&Username&Password,机型,1G-1 MAC,共 6 项

  2. Create nodes

    注册节点阶段,将节点的主机名、IPMI 地址和账号录入数据库,指令为

# ironic node-create ...
  1. Register port

    将 1G-1 MAC 与新增节点相匹配,指令为

# ironic port-create ...

易错阶段

  1. Inspect nodes

    检查阶段,通过 1G-1 PXE 电口,传输镜像至目标节点,收集网卡,磁盘,内存等一系列主机信息

    核心指令为

# ironic node-set-provision-state NodeName inspect

此阶段可能出现故障 1, 2

*注: 故障类型见下文

  1. Set ports pxe

    从 Inspect 阶段收集的所有网口中,筛选含有 LLDP 信息的连接端口

    核心指令为 ‘ironic port-update PxePort replace pxe_enabled=true’

    此阶段产生的结果若有问题,会在下一 ‘Create portgroups’ 阶段检查报错

  2. Create portgroups

    根据 10G 光口收集到的交换机端口信息,两两绑定后将信息写入 Neutron

    例如,四个 10GE 光口

10GE/1/0/21 10GE/1/0/32 10GE/2/0/21 10GE/2/0/32

绑定规则

10GE/1/0/21 BOND 10GE/2/0/21 | 10GE/1/0/32 BOND 10GE/2/0/32

此阶段可能出现故障 3, 4, 5

  1. Provide nodes

    预部署阶段,通过 10G 光口,传输部署初始化用镜像,执行磁盘清理工作

    核心指令为

# ironic node-set-provision-state NodeName provide

此阶段可能出现故障 6, 7, 8

故障类型及处理办法

共 8 种故障,及 5 种异常状态,具体分为 28 种故障原因

1 - IPMI 联通故障

状态:

enroll
  1. 故障原因 - 服务器 IPMI 管理线断连

    处理办法: 检修管理电口

  2. 故障原因 - IPMI 上连带外交换机配置有误

    处理办法: 检修带外交换机管理端口配置

2 - Inspect 超时

状态:

inspect failed
  1. 故障原因 - 1G-1 启动项在硬盘启动之后

    处理办法: BIOS 中将网络启动调整至第一位

  2. 故障原因 - 带外交换机 PXE 口配置有误

    处理办法: 检查带外交换机 PXE 端口 Vlan 设置

  3. 故障原因 - 1G 电口断连

    处理办法: 检查接线、网卡状态,确保亮灯

  4. 故障原因 - 插错电口

    处理办法: 检查网卡 port 编号标记,避免误插 2 号电口

  5. 故障原因 - 戴尔服务器 ‘LAN 上的 IPMI’ 未启用

    处理办法: 在 IPMI 设置界面勾选

3 - 缺少网口

状态:

manageable
  1. 故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障

    处理办法: 检查接线、硬件维修,确保亮灯,重新 Inspect

  2. 故障原因 - 10G 光纤上连架顶交换机端口 LLDP 关闭

    处理办法: 打开对应端口 LLDP 功能,重新 Inspect

  3. 故障原因 - inspect 收集信息不全

    处理办法: 删除旧数据,重新 Inspect

4 - 网口数为 0

状态:

manageable
  1. 故障原因 - 环境变量有误

    处理办法: 查看 Openrc 文件,确保 API 变量与当前版本一致

  2. 故障原因 - 新机型 x722 网卡

    处理办法: 使用已补充 x722 网卡驱动的专用镜像

5 - 网口数过多且为偶数

状态:

manageable
  1. 故障原因 - 电口插线过多

    处理办法: 拔除多余电口网线,保留一根 1G-1 即可

6 - Provide 超时

状态:

clean failed
  1. 故障原因 - 10G 光纤布线错误

    处理办法: 参照布线规则重新整理

  2. 故障原因 - 架顶交换机 10GE/1 与 10GE/2 配反

    处理办法: 重新配置架顶交换机端口顺序

  3. 故障原因 - BIOS 启动顺序 10G PXE 在 Hard Disk 之后

    处理办法: 将 10G PXE 调整到 1G-1 之后,Hard Disk 之前

  4. 故障原因 - 单张网卡轮询

    处理办法: 关闭网卡多次轮询选项,避免超时

  5. 故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障

    处理办法: 检查接线、硬件维修,确保亮灯,删除节点,重新添加

  6. 故障原因 - 3008 阵列卡对大硬盘不支持快速格式化

    处理办法: 拔出数据盘,待业务部署完成后插回

  7. 故障原因 - 清理磁盘时间过长超时

    处理办法: 重新 provide

  8. 故障原因 - 10G 光口频繁启停,触发架顶交换机关闭连接端口

    处理办法: 检查 inspect 镜像,检修光口,开启架顶交换机端口

  9. 故障原因 - Provide 镜像不支持华为最新 3508 阵列卡

    处理办法: 暂无法解决,等待 Ubuntu 驱动支持

7 - Kernel Panic

状态:

clean wait
  1. 故障原因 - 磁盘清理出错

    处理办法: 重新 provide

  2. 故障原因 - 清理镜像运行中,硬盘故障

    处理办法: 检修硬盘

8 - Provide 卡死

状态:

clean wait
  1. 故障原因 - PXE 载入镜像阶段卡死

    处理办法: 检修服务器网卡

  2. 故障原因 - 磁盘清理镜像持续运行,未能自动关机

    处理办法: 检查镜像是否匹配,检查硬盘健康状态

  3. 故障原因 - 浪潮 NF5280M5 机型使用 CPU 做系统盘软 RAID

    处理办法: 无法解决

  4. 故障原因 - Conductor 端信息不同步

    处理办法: 将该节点在数据库中状态改为 manageable,重新执行

分类:

更新时间: