다음은 IBM Storage Ceph Object S3-Select 기능을 활성화 하여 Trino 에서 수행한 벤치마트 테스트 결과에 대한 내용입니다. 1TB 와 3TB 기준TPC-DS 벤치 마크 쿼리를 사용하여 진행되었으며 평균 2.5배 성능이 향상되었으며 S3-Select 기능을 비활성화 하였을 때 보다 네트워크 데이터 처리량이 144TB 감소하여 최대 9배 이상 향상된 것을 볼 수 있었습니다.
Trino 란?
사용자가 단일 SQL 문을 사용하여 여러 소스의 데이터를 쿼리할 수 있는 분산 SQL 쿼리 엔진입니다.
테스트 방법
다양한 테스트를 위하여 1TB, 2TB, 3TB 세 가지 스케일 팩터에서 72개의 TPC-DS쿼리 를 실행하여 테스트를 진행하였습니다. 데이터는 압축되지 않은 CSV 형식으로 진행되었습니다.
테스트 환경
- Trino Client Nodes
- Version: 405
- 3 x DELL R630
- 2 x E5-2683 v3 (28 total cores, 56 threads)
- 128GB RAM
- IBM Storage Ceph Cluster Nodes
- OS : RHEL 9.2
- Ceph Version : 6.1 (18.2.0-110.el9cp)
- 3 x DELL R630 MON/MGR nodes
- 2 x E5-2683 v3 (28 total cores, 56 threads
- 128 GB RAM
- 8 x Supermicro 6048R OSD/RGW nodes
- 2 x Intel E5-2660 v4 (28 total cores, 56 threads)
- 256 GB RAM
- 192 x OSD (bluestore) : 24 2TB HDD and 2x 800G NVMe for WAL/DB per OSD
S3-Select Options
- hlve.max-split-size : 단일 사용자에게 할당할 수 있는 최대 단일 파일 크기. 대기 시간을 줄이고 오버헤드가 더 증가될 수 있음. (4, 8, 16, 64, 128M 에서 시작하여 128M 설정)
- hlve.max-splits-per-second : 테이블 스캔 당 생성된 초당 최대 분할 병렬 수. 스토리지 시스템의 로드를 줄이는데 사용 됨. Trino가 데이터 액세스의 병렬적으로 최대한 접근할 수 있도록 함. (10K)
테스트 결과 #1
S3-Select 옵션을 사용하지 않았을 때 보다 144TB 의 네트워크 데이터 처리량을 절약하는 것을 확인할 수 있습니다.
테스트 결과 #2
S3-Select 옵션을 사용하였을 때의 쿼리당 속도 향상을 확인할 수 있습니다. X축은 각 쿼리의 속도를 나타내고 있으며 72개의 쿼리 모두 속도가 향상된 것을 확인 할수 있습니다.
테스트 결과 #3
S3-Select 옵션을 사용하였을 때의 IBM Storage Ceph RGW의 CPU 사용량이 크게 증가하지 않는 것을 확인할 수 있습니다. 또한 평균 메모리 사용량은 2.50% 증가하였습니다.
테스트 결과 #4
S3-Select 가 활성화 되었을 때 72개의 쿼리 모두 네트워크 사용량이 감소한 것을 확인할 수 있습니다.
결과적으로 TPC-DS 72쿼리를 실행한 벤츠마크 테스트 결과 IBM Storage Ceph S3-Sect Pushdown 성능 최적화를 활용하여 더 빠르게 쿼리를 실행할 수 있음을 확인하였습니다.
Original
'Software Defined Storage' 카테고리의 다른 글
Ceph Storage Block Device 성능 테스트 방법 (RBD Benchmark) (0) | 2024.04.29 |
---|---|
Ceph Storage 기본 성능 테스트 방법 (Benchmark) (0) | 2024.04.25 |
IBM Ceph Storage 7.0 - NVMe over TCP Gateway (Tech Preview) (0) | 2024.04.13 |
Ceph Reef 성능 테스트 (RBD) (0) | 2024.03.18 |
볼륨 성능 테스트 방법 (0) | 2021.09.27 |