分类 Ceph 下的文章

Linux CEPH RAID0 OSD使用MegaCli在线禁用磁盘缓存

作者: admin
时间: 2022-03-25
分类: 管理维护,Linux,Ceph
评论

如果RAID0用作CEPH OSD，则建议禁用磁盘级的缓存，也就是磁盘标签上写的那个256MB缓存：

# /opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp -DisDskCache -Immediate -Lall -aAll
                                     
Set Disk Cache Policy to Disabled on Adapter 0, VD 0 (target id: 0) success
Set Disk Cache Policy to Disabled on Adapter 0, VD 1 (target id: 1) success
Set Disk Cache Policy to Disabled on Adapter 0, VD 2 (target id: 2) success
Set Disk Cache Policy to Disabled on Adapter 0, VD 4 (target id: 4) success
Set Disk Cache Policy to Disabled on Adapter 0, VD 5 (target id: 5) success
Set Disk Cache Policy to Disabled on Adapter 0, VD 7 (target id: 7) success
Set Disk Cache Policy to Disabled on Adapter 0, VD 8 (target id: 8) success

- 阅读剩余部分 -

Linux MegaCli 根据盘符获取 RAID 位置与盘位

作者: admin
时间: 2022-03-25
分类: 管理维护,Linux,Ceph,Python
评论

我的CEPH OSD因为列阵卡不支持直通是基于RAID0的，最近ceph性能不足，排查过程iostat观察发现有一些盘r_await或w_await持续1000多，这就需要换盘了。ceph存储一份数据如果是默认3副本，那么就会3份副本写完才会完成写入，如果有1个osd延迟很高，就会影响整体写入速度。

首先可以运行 ceph-volume lvm list 查看osd对应的盘符，如果是bcache，则需要再运行lsblk查看在哪个盘符下。然后查看是哪个盘符，以及盘位，进行更换重建。

- 阅读剩余部分 -

Samsung 983ZET 480GB和Intel Optane AIC 280GB(傲腾) FIO 4k对比

作者: admin
时间: 2022-02-19
分类: 管理维护,Ceph
2 条评论

机器配置：E5-2680v2*1 / 64GB内存 / Samsung 870 EVO系统盘，均在运行ceph，生产环境下有一定负荷但不在繁忙。2个卡式NVME也都已经作为CEPH WAL/DB/BCACHE拉了一些HDD了，其中三星的带了4-5个HDD，傲腾1-2个，我拿了一个分区来做测试。数据：

- 阅读剩余部分 -

CEPH错误: HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent

作者: admin
时间: 2022-02-18
分类: Ceph
评论

Every 1.0s: ceph -s                Wed Dec  8 10:55:43 2021

  cluster:
    id:     48ff8b6e-1203-4dc8-b16e-d1e89f66e28f
    health: HEALTH_ERR
            1 scrub errors
            Possible data damage: 1 pg inconsistent

  services:
    mon: 3 daemons, quorum ceph-node-1,ceph-node-2,ceph-node-3 (age 12h)
    mgr: ceph-node-2(active, since 4d), standbys: ceph-node-1, ceph-node-3
    osd: 20 osds: 19 up (since 16h), 19 in (since 16h)

  data:
    pools:   2 pools, 513 pgs
    objects: 2.19M objects, 8.1 TiB
    usage:   24 TiB used, 45 TiB / 70 TiB avail
    pgs:     512 active+clean
             1   active+clean+inconsistent

  io:
    client:   3.6 MiB/s rd, 14 MiB/s wr, 896 op/s rd, 1.41k op/s wr

收到CEPH错误报告，一个擦洗错误，CEPH会按设定时间定期检查所有pg校对多副本数据是否一致，而当数据不一致，又无法自身做出决断修复时就会报告错误。常规修复流程：

- 阅读剩余部分 -

CEPH同时应用WAL/DB及BCACHE不同模式下的性能测试

作者: admin
时间: 2021-11-20
分类: Ceph
评论

刚把ceph osd重建，为osd WAL/DB分配ssd专门的分区，同时也应用了bcache。想测试下不同bcache缓存模式下对性能的影响情况。

4个节点，节点配置：E5-2650/ 32GB内存 / 4*4TB ST4000NM0035 128MB缓存 + 三星zet983 480GB + 三星pro 500GB系统盘；zet983为每个hdd分配35GB DB分区、4GB WAL分区、50GB BCACHE分区。

- 阅读剩余部分 -

Ceph 新建/重建OSD Recovery速度加快

作者: admin
时间: 2021-11-20
分类: Ceph
评论

一般情况下可以操作以下参数实现速度控制，但是要留意，速度越快对集群性能的影响越大；可以动态的调整参数值，观察recovery对集群性能影响情况，找到合适自己的值，即不会对client请求造成过大影响的同时保障最优的recovery速度。

osd_recovery_max_single_start：指示每个可同时启动多少线程实现recovery

osd_backfill_retry_interval：osd在重试回填请求之前等待的秒数（默认30秒）

osd_recovery_sleep_hdd：指示hd磁盘在恢复过程中的休眠时间

osd_recovery_sleep_ssd：指示ssd磁盘在恢复过程中的休眠时间

osd_max_backfills：允许进出 OSD 的最大回填操作数。数字越大，恢复越快。

osd_recovery_max_active：OSD恢复请求的数量。数字越大，恢复越快。

osd_recovery_op_priority：恢复操作优先级，取值1-63，值越高占用资源越高，恢复越快。

osd_recovery_priority：同上，恢复操作的优先级，如过不希望影响业务，设置优先级低一些，数字越小，性能影响越小。

- 阅读剩余部分 -

Ceph Bluestore重建OSD应用Bcache及单独划分WAL/DB分区

作者: admin
时间: 2021-11-18
分类: Ceph
8 条评论

我原来CEPH集群的OSD是默认方式创建的，即“ceph-deploy osd create ceph-node-1 --data /dev/bcache0”，因为性能遇到瓶颈，为了充分榨干nvme aic ssd，决定重建osd把WAL/DB分区放到nvme aic ssd上。目前社区和官方说只有重建方式，ceph允许同时存在2种不同的osd，所以可以平滑的过度。

我有4个节点，所以我每次重建4个osd，重建osd数量应保持在总数20%左右，不应一次性操作太多。

- 阅读剩余部分 -

CEPH Bcache优化及与WAL/DB盘型号的选择,预留容量

作者: admin
时间: 2021-11-08
分类: Ceph
评论

为了提高CEPH HDD的性能，我买了Samsung 983ZET用来做Bcache缓存盘。

4个CEPH节点，每个节点OSD配置：4x4TB HDD，Samsung 983ZET一拖四用作Bcache缓存盘。1500个左右VM，平时负荷差不多23MiB/s wr | 1.5k op/s上下wr，rbd上的VM 60以上线程并发写入时经常有500ms以上的io延迟，偶尔延迟达到1000ms以上，如果更高并发写入时有时候甚至超过10000ms延迟，使用影响很大，但是并发读的却非常低的延迟一般保持在0ms，偶尔上个几十ms。

- 阅读剩余部分 -

centos ceph raid0 bcache 故障osd更换

作者: admin
时间: 2021-10-12
分类: Ceph
评论

首先停止故障osd运行:

# ceph osd out osd.4
# systemctl stop ceph-osd@4.service

解除bcache绑定（停用前端缓存），假设故障osd是建立在bcache1上，缓存盘的cset-uuid为805bc5f1-36e9-4685-a86a-3ea8c03f1172，我osd只是偶尔出现错误即将故障，而不是不能识盘，所以正常解除绑定清理脏数据:

# echo 805bc5f1-36e9-4685-a86a-3ea8c03f1172  > /sys/block/bcache1/bcache/detach

- 阅读剩余部分 -

centos raid0掉盘后盘符变化导致bcache故障

作者: admin
时间: 2021-10-05
分类: Ceph
评论

下午收到故障警报，有个ceph节点osd故障。故障osd建立在节点bcache2分区上，但是这分区不见了，bcache2是一个RAID0的前端缓存分区。

通过MegaRAID检查RAID硬盘状态，发现有个RAID0下的硬盘变成外来设备了：

/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL -NoLog|grep "Firmware state"

Firmware state: Unconfigured(good), Spun Up

也就是没有RAID信息列阵不识别这个盘了，也许是高负荷下掉盘又恢复后无法识别了？但起码盘还能识到，也就是说可能盘还没坏，可以尝试RAID导入一下外来配置：

- 阅读剩余部分 -