Software Defined Storage

IBM Storage Ceph S3-Select 벤치마크 (Trino을 사용한 TPC-DS)

DaehanCNI 2024. 4. 22. 09:00

다음은 IBM Storage Ceph Object S3-Select 기능을 활성화 하여 Trino 에서 수행한 벤치마트 테스트 결과에 대한 내용입니다. 1TB 와 3TB 기준TPC-DS 벤치 마크 쿼리를 사용하여 진행되었으며 평균 2.5배 성능이 향상되었으며 S3-Select 기능을 비활성화 하였을 때 보다 네트워크 데이터 처리량이 144TB 감소하여 최대 9배 이상 향상된 것을 볼 수 있었습니다. 

 

Trino 란?

 사용자가 단일 SQL 문을 사용하여 여러 소스의 데이터를 쿼리할 수 있는 분산 SQL 쿼리 엔진입니다. 

 

테스트 방법

다양한 테스트를 위하여 1TB, 2TB, 3TB 세 가지 스케일 팩터에서 72개의 TPC-DS쿼리 를 실행하여 테스트를 진행하였습니다. 데이터는 압축되지 않은 CSV 형식으로 진행되었습니다. 

 

테스트 환경

  • Trino Client Nodes 
    • Version: 405
    • 3 x DELL R630
      • 2 x E5-2683 v3 (28 total cores, 56 threads)
      • 128GB RAM
  • IBM Storage Ceph Cluster Nodes
    • OS : RHEL 9.2
    • Ceph Version : 6.1 (18.2.0-110.el9cp)
    • 3 x DELL R630 MON/MGR nodes
      • 2 x E5-2683 v3 (28 total cores, 56 threads
      • 128 GB RAM
    • 8 x Supermicro 6048R OSD/RGW nodes
      • 2 x Intel E5-2660 v4 (28 total cores, 56 threads)
      • 256 GB RAM
    • 192 x OSD (bluestore) :  24 2TB HDD and 2x 800G NVMe for WAL/DB per OSD

 

 

S3-Select Options

  • hlve.max-split-size : 단일 사용자에게 할당할 수 있는 최대 단일 파일 크기. 대기 시간을 줄이고 오버헤드가 더 증가될 수 있음. (4, 8, 16, 64, 128M 에서 시작하여 128M 설정)
  • hlve.max-splits-per-second : 테이블 스캔 당 생성된 초당 최대 분할 병렬 수. 스토리지 시스템의 로드를 줄이는데 사용 됨. Trino가 데이터 액세스의 병렬적으로 최대한 접근할 수 있도록 함. (10K)

 

테스트 결과 #1

S3-Select 옵션을 사용하지 않았을 때 보다  144TB 의 네트워크 데이터 처리량을 절약하는 것을 확인할 수 있습니다. 

 

테스트 결과 #2 

S3-Select 옵션을 사용하였을 때의 쿼리당 속도 향상을 확인할 수 있습니다. X축은 각 쿼리의 속도를 나타내고 있으며 72개의 쿼리 모두 속도가 향상된 것을 확인 할수 있습니다. 

 

테스트 결과 #3

S3-Select 옵션을 사용하였을 때의 IBM Storage Ceph RGW의 CPU 사용량이 크게 증가하지 않는 것을 확인할 수 있습니다. 또한 평균 메모리 사용량은 2.50% 증가하였습니다. 


테스트 결과 #4

S3-Select 가 활성화 되었을 때 72개의 쿼리 모두 네트워크 사용량이 감소한 것을 확인할 수 있습니다. 


결과적으로 TPC-DS 72쿼리를 실행한 벤츠마크 테스트 결과 IBM Storage Ceph S3-Sect Pushdown 성능 최적화를 활용하여 더 빠르게 쿼리를 실행할 수 있음을 확인하였습니다. 

 

Original

https://community.ibm.com/community/user/storage/blogs/daniel-alexander-parkes/2024/02/28/ceph-s3-select-trino-tpcds-benchmark

 

TPC-DS Benchmark using Trino with IBM Storage Ceph Object Storage S3-Select

TPC-DS Benchmark using Trino with IBM Storage Ceph Object Storage S3-select In this Article, we analyze the results of performance benchmarks conducted on Trino with IBM Storage Ceph Object S3-select feature enabled, using TPC-DS benchmark queries at 1TB a

community.ibm.com