搭建基于Ceph共享存储的实例
Ceph 是一个统一的分布式存储系统,由于它可以提供较好的性能、可靠性和可扩展性,被广泛的应用在存储领域。以下是在 Ceph 分布式集群上部署 PolarDB-FileSystem 以及 PolarDB for PostgreSQL 的教程。
Ceph 搭建需要 2 台及以上的物理机/虚拟机实现存储共享与数据备份,本教程以 3 台虚拟机机环境为例,介绍基于 ceph 共享存储的实例构建方法。大体如下:
- 获取在同一网段的虚拟机三台,互相之间配置 SHH 免密登录,用作 Ceph 密钥与配置信息的同步;
- 在主节点启动 MON 进程,查看状态,并复制配置文件至其余各个节点,完成 MON 启动;
- 在三个环境中启动 OSD 进程配置存储盘,并在主节点环境启动 MGR 进程、RGW 进程;
- 创建存储池与 RBD 块设备镜像,并对创建好的镜像在各个节点进行映射即可实现块设备的共享;
- 对块设备进行 PolarFS 的格式化与 PolarDB 的部署。
环境准备
操作系统版本要求 CentOS 7.5 及以上。以下步骤在 CentOS 7.5 上通过测试。
使用的虚拟机环境如下:
IP hostname
192.168.1.173 ceph001
192.168.1.174 ceph002
192.168.1.175 ceph003
安装 Docker
本教程使用阿里云镜像站提供的 Docker 包。
安装 Docker 依赖包
yum install -y yum-utils device-mapper-persistent-data lvm2
安装并启动 Docker
yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
yum makecache
yum install -y docker-ce
systemctl start docker
systemctl enable docker
检查是否安装成功
docker run hello-world
配置 SSH 免密登录
密钥的生成与拷贝
ssh-keygen
ssh-copy-id -i /root/.ssh/id_rsa.pub root@ceph001
ssh-copy-id -i /root/.ssh/id_rsa.pub root@ceph002
ssh-copy-id -i /root/.ssh/id_rsa.pub root@ceph003
检查是否配置成功
ssh root@ceph003
下载 Ceph Daemon
docker pull ceph/daemon
MON 部署
ceph001 上 MON 进程启动
docker run -d \
--net=host \
--privileged=true \
-v /etc/ceph:/etc/ceph \
-v /var/lib/ceph/:/var/lib/ceph/ \
-e MON_IP=192.168.1.173 \
-e CEPH_PUBLIC_NETWORK=192.168.1.0/24 \
--security-opt seccomp=unconfined \
--name=mon01 \
ceph/daemon mon
根据实际网络环境修改IP、子网掩码位数。
查看容器状态
$ docker exec mon01 ceph -s
cluster:
id: 937ccded-3483-4245-9f61-e6ef0dbd85ca
health: HEALTH_OK
services:
mon: 1 daemons, quorum ceph001 (age 26m)
mgr: no daemons active
osd: 0 osds: 0 up, 0 in
data:
pools: 0 pools, 0 pgs
objects: 0 objects, 0 B
usage: 0 B used, 0 B / 0 B avail
pgs:
如果遇到
mon is allowing insecure global_id reclaim
的报错,使用以下命令解决。
docker exec mon01 ceph config set mon auth_allow_insecure_global_id_reclaim false
生成必须的 keyring
docker exec mon01 ceph auth get client.bootstrap-osd -o /var/lib/ceph/bootstrap-osd/ceph.keyring
docker exec mon01 ceph auth get client.bootstrap-rgw -o /var/lib/ceph/bootstrap-rgw/ceph.keyring
配置文件同步
ssh root@ceph002 mkdir -p /var/lib/ceph
scp -r /etc/ceph root@ceph002:/etc
scp -r /var/lib/ceph/bootstrap* root@ceph002:/var/lib/ceph
ssh root@ceph003 mkdir -p /var/lib/ceph
scp -r /etc/ceph root@ceph003:/etc
scp -r /var/lib/ceph/bootstrap* root@ceph003:/var/lib/ceph
在 ceph002 与 ceph003 中启动 MON
docker run -d \
--net=host \
--privileged=true \
-v /etc/ceph:/etc/ceph \
-v /var/lib/ceph/:/var/lib/ceph/ \
-e MON_IP=192.168.1.174 \
-e CEPH_PUBLIC_NETWORK=192.168.1.0/24 \
--security-opt seccomp=unconfined \
--name=mon02 \
ceph/daemon mon
docker run -d \
--net=host \
--privileged=true \
-v /etc/ceph:/etc/ceph \
-v /var/lib/ceph/:/var/lib/ceph/ \
-e MON_IP=1192.168.1.175 \
-e CEPH_PUBLIC_NETWORK=192.168.1.0/24 \
--security-opt seccomp=unconfined \
--name=mon03 \
ceph/daemon mon
查看当前集群状态
$ docker exec mon01 ceph -s
cluster:
id: 937ccded-3483-4245-9f61-e6ef0dbd85ca
health: HEALTH_OK
services:
mon: 3 daemons, quorum ceph001,ceph002,ceph003 (age 35s)
mgr: no daemons active
osd: 0 osds: 0 up, 0 in
data:
pools: 0 pools, 0 pgs
objects: 0 objects, 0 B
usage: 0 B used, 0 B / 0 B avail
pgs:
从mon节点信息查看是否有添加在另外两个节点创建的mon添加进来。
OSD 部署
OSD 准备阶段
本环境的虚拟机只有一个
/dev/vdb
磁盘可用,因此为每个虚拟机只创建了一个 OSD 节点。
docker run --rm --privileged=true --net=host --ipc=host \
--security-opt seccomp=unconfined \
-v /run/lock/lvm:/run/lock/lvm:z \
-v /var/run/udev/:/var/run/udev/:z \
-v /dev:/dev -v /etc/ceph:/etc/ceph:z \
-v /run/lvm/:/run/lvm/ \
-v /var/lib/ceph/:/var/lib/ceph/:z \
-v /var/log/ceph/:/var/log/ceph/:z \
--entrypoint=ceph-volume \
docker.io/ceph/daemon \
--cluster ceph lvm prepare --bluestore --data /dev/vdb
以上命令在三个节点都是一样的,只需要根据磁盘名称进行修改调整即可。
OSD 激活阶段
docker run -d --privileged=true --net=host --pid=host --ipc=host \
--security-opt seccomp=unconfined \
-v /dev:/dev \
-v /etc/localtime:/etc/ localtime:ro \
-v /var/lib/ceph:/var/lib/ceph:z \
-v /etc/ceph:/etc/ceph:z \
-v /var/run/ceph:/var/run/ceph:z \
-v /var/run/udev/:/var/run/udev/ \
-v /var/log/ceph:/var/log/ceph:z \
-v /run/lvm/:/run/lvm/ \
-e CLUSTER=ceph \
-e CEPH_DAEMON=OSD_CEPH_VOLUME_ACTIVATE \
-e CONTAINER_IMAGE=docker.io/ceph/daemon \
-e OSD_ID=0 \
--name=ceph-osd-0 \
docker.io/ceph/daemon
各个节点需要修改 OSD_ID 与 name 属性,OSD_ID 是从编号 0 递增的,其余节点为 OSD_ID=1、OSD_ID=2。
查看集群状态
$ docker exec mon01 ceph -s
cluster:
id: e430d054-dda8-43f1-9cda-c0881b782e17
health: HEALTH_WARN
no active mgr
services:
mon: 3 daemons, quorum ceph001,ceph002,ceph003 (age 44m)
mgr: no daemons active
osd: 3 osds: 3 up (since 7m), 3 in (since 13m)
data:
pools: 0 pools, 0 pgs
objects: 0 objects, 0 B
usage: 0 B used, 0 B / 0 B avail
pgs:
MGR、MDS、RGW 部署
以下命令均在 ceph001 进行:
docker run -d --net=host \
--privileged=true \
--security-opt seccomp=unconfined \
-v /etc/ceph:/etc/ceph \
-v /var/lib/ceph/:/var/lib/ceph/ \
--name=ceph-mgr-0 \
ceph/daemon mgr
docker run -d --net=host \
--privileged=true \
--security-opt seccomp=unconfined \
-v /var/lib/ceph/:/var/lib/ceph/ \
-v /etc/ceph:/etc/ceph \
-e CEPHFS_CREATE=1 \
--name=ceph-mds-0 \
ceph/daemon mds
docker run -d --net=host \
--privileged=true \
--security-opt seccomp=unconfined \
-v /var/lib/ceph/:/var/lib/ceph/ \
-v /etc/ceph:/etc/ceph \
--name=ceph-rgw-0 \
ceph/daemon rgw
查看集群状态:
docker exec mon01 ceph -s
cluster:
id: e430d054-dda8-43f1-9cda-c0881b782e17
health: HEALTH_OK
services:
mon: 3 daemons, quorum ceph001,ceph002,ceph003 (age 92m)
mgr: ceph001(active, since 25m)
mds: 1/1 daemons up
osd: 3 osds: 3 up (since 54m), 3 in (since 60m)
rgw: 1 daemon active (1 hosts, 1 zones)
data:
volumes: 1/1 healthy
pools: 7 pools, 145 pgs
objects: 243 objects, 7.2 KiB
usage: 50 MiB used, 2.9 TiB / 2.9 TiB avail
pgs: 145 active+clean
RBD 块设备创建
以下命令均在容器 mon01 中进行。
存储池的创建
docker exec -it mon01 bash
ceph osd pool create rbd_polar
创建镜像文件并查看信息
rbd create --size 512000 rbd_polar/image02
rbd info rbd_polar/image02
rbd image 'image02':
size 500 GiB in 128000 objects
order 22 (4 MiB objects)
snapshot_count: 0
id: 13b97b252c5d
block_name_prefix: rbd_data.13b97b252c5d
format: 2
features: layering, exclusive-lock, object-map, fast-diff, deep-flatten
op_features:
flags:
create_timestamp: Thu Oct 28 06:18:07 2021
access_timestamp: Thu Oct 28 06:18:07 2021
modify_timestamp: Thu Oct 28 06:18:07 2021
映射镜像文件
modprobe rbd # 加载内核模块,在主机上执行
rbd map rbd_polar/image02
rbd: sysfs write failed
RBD image feature set mismatch. You can disable features unsupported by the kernel with "rbd feature disable rbd_polar/image02 object-map fast-diff deep-flatten".
In some cases useful info is found in syslog - try "dmesg | tail".
rbd: map failed: (6) No such device or address
某些特性内核不支持,需要关闭才可以映射成功。如下进行:关闭RBD不支持特性,重新映射镜像,并查看映射列表。
rbd feature disable rbd_polar/image02 object-map fast-diff deep-flatten
rbd map rbd_polar/image02
rbd device list
id pool namespace image snap device
0 rbd_polar image01 - /dev/ rbd0
1 rbd_polar image02 - /dev/ rbd1
此处我已经先映射了一个 image01,所以有两条信息。
查看块设备
回到容器外,进行操作。查看系统中的块设备:
lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
vda 253:0 0 500G 0 disk
└─vda1 253:1 0 500G 0 part /
vdb 253:16 0 1000G 0 disk
└─ceph--7eefe77f--c618--4477--a1ed--b4f44520dfc 2-osd--block--bced3ff1--42b9--43e1--8f63--e853b ce41435
252:0 0 1000G 0 lvm
rbd0 251:0 0 100G 0 disk
rbd1 251:16 0 500G 0 disk
块设备镜像需要在各个节点都进行映射才可以在本地环境中通过
lsblk
命令查看到,否则不显示。ceph002 与 ceph003 上映射命令与上述一致。
PolarDB FileSystem 安装部署
请参考搭建基于NBD共享存储的实例中的PolarDB FileSystem 安装部署。
PolarDB for PostgreSQL 内核编译部署
请参考搭建基于NBD共享存储的实例中的PolarDB for PostgreSQL 内核编译部署。