背景:
当前AI和大模型火热,对算力的需求越来越高,如何高效的利用算力资源问题被凸显出来了。
目标:
在虚拟化场景下,单张显卡的算力能同时被多个虚拟机调度使用。
技术:
cuda虚拟化,一张显卡的cuda算力能同时被多个虚拟机使用。
基于qemu-kvm虚拟化,在虚拟机内实现一个 vcuda-pci 设备,进行 guest 和 host 之间的数据交互;
A guest侧:编写设备驱动,实现 file_ops 相关的接口,承接guest侧应用的 cuda api 请求,支持Linux、Windows虚拟机;
B host侧:接收 guest 过来的api接口及参数数据,将参数重新组装,然后调用物理显卡的cuda api,并将所需结果返回给guest侧;
核心点:整体流程的时延,cuda api的支持个数。
##########################################################################
利用中秋+国庆双节的时间,整了个demo出来
qemu侧(基于6.2.0):
命令行添加如下参数:
-device virtio-vcuda-pci
host侧:
host上有一块1660s的显卡,并且安装了cuda 12.2
启动虚拟机:
/mnt/qemu-debug/bin/qemu-system-x86_64 -enable-kvm -vga std -m 4096 -smp 4 -cpu host -net nic,model=e1000 -net user -hda /home/ubuntu2004.img -vnc 0.0.0.0:0 -device virtio-vcuda-pci
guest侧(只设配了Linux虚拟机,Windows代码移过去就行,都是对device的操作):
可以看到guest虚拟机内是没有显卡的:
虚拟机内的vcuda-pci设备:
加载驱动并生成动态库:
libcudart.so.12.2.140
测试demo程序 test123.c :
- #include
- #include
- #include
-
- #include
- #include
-
-
- int main()
- {
- int a;
- int count;
- //char *name = (char *)malloc(100);
- char name[100];
- int len = 50;
- CUresult cuinit = cuInit(0);
-
- CUcontext pctx;
- cuCtxCreate(&pctx, 0, 0);
-
- const char *err_str;
- cuGetErrorName(cuinit, &err_str);
- printf("----err_name = %s----\n", err_str);
- cuGetErrorString(cuinit, &err_str);
- printf("----err_str = %s----\n", err_str);
-
- cuDriverGetVersion(&a);
- printf("version = %d------\n", a);
-
- CUdevice device;
- cuDeviceGet(&device, 0);
- printf("device = %d---\n", device);
-
- cuDeviceGetCount(&count);
- printf("count = %d------\n", count);
-
- cuDeviceGetName(name, len, device);
- printf("name = %s------\n", name);
-
- CUuuid *uuid = malloc(sizeof(CUuuid));
- cuDeviceGetUuid(uuid, device);
- printf("Uuid = ");
- for (int j = 0; j < sizeof(CUuuid); j++) {
- printf("%02hhX", uuid->bytes[j]);
- }
- printf("\n");
-
- char luid[50];
- unsigned int mask;
- cuDeviceGetLuid(luid, &mask, device);
- printf("----luid=%s---mask=%d----\n", luid, mask);
-
- size_t mem;
- cuDeviceTotalMem(&mem, device);
- printf("TotalMem = %ld------\n", mem);
-
- int pi;
- //CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_MULTIPROCESSOR_COUNT;
- CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR;
- cuDeviceGetAttribute(&pi, attrib, device);
- printf("---pi = %d--\n", pi);
-
- printf("CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR = %d---\n", CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR);
-
- CUdeviceptr dptr;
- size_t memalloc = 225002496;
- cuMemAlloc(&dptr, memalloc);
- printf("---cuda mem alloc = %lld----\n", dptr);
-
-
-
- cuCtxDestroy(pctx);
-
- return 0;
- }
-
-
- // gcc -o test123 test123.c -I /usr/local/cuda/include/ -lm ./libcudart.so.12.2.140
运行效果:
可以看到在虚拟机内调用到了host上的显卡,实现了cuda虚拟化的效果
TODO:
适配更多的cuda api,算力隔离,QoS,灵活调度策略。。。