Star Schema Benchmark 数据仓库 UDW Doris
内容摘要
线程越大生成数据越快,建议数据量较大时并且在机器条件允许的情况下指定较大的核数。例如以下命令生成千亿级别的数据参数指定为线程,以上数据示例也可以按需指定参数,指定的数
文章正文
线程越大生成数据越快,建议数据量较大时并且在机器条件允许的情况下指定较大的核数。例如以下命令生成千亿级别的数据参数指定为线程,以上数据示例也可以按需指定参数,指定的数字即为分割文件的个数。
Star Schema Benchmark
本篇目录
下载并编译工具生成数据下载并编译工具
[root@xxxxx test]# git clone https://github /electrum/ssb-dbgen.git
[root@xxxxx test]# cd ssb-dbgen
[root@xxxxx ssb-dbgen]# make
CopyErrorSuccess
生成数据
生成6亿数据
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -s 100 -T d
CopyErrorSuccess
表名行数大小描述lineorder6亿(600037902)67.1G商品订单表customer300万(3000000)317M客户表part140万(1400000)135M零部件表supplier20万(200000)19M供应商表date2556272K日期表
生成30亿数据
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -s 500 -T d
CopyErrorSuccess
表名行数大小描述lineorder30亿(3000028242)347G商品订单表customer1500万(15000000)1.6G客户表part180万(1800000)173M零部件表supplier100万(1000000)94M供应商表date2556272K日期表
生成60亿数据
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -s 1000 -T d
CopyErrorSuccess
表名行数大小描述lineorder60亿(5999989709)688G商品订单表customer3000万(30000000)3.2G客户表part200万(2000000)193M零部件表supplier200万(2000000)188M供应商表date2556272K日期表
特别说明:
如果数据量生成较大的话,dbgen命令支持分割文件,指定 -C 参数,即线程数。线程越大生成数据越快,建议数据量较大时并且在机器条件允许的情况下指定较大的核数。例如以下命令生成千亿级别的数据 -C 参数指定为32线程,以上数据示例也可以按需指定 -C 参数,-C 指定的数字即为分割文件的个数。
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T c
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T l
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T p
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T s
[root@xxxxx ssb-dbgen]# ./dbgen -C 32 -s 17500 -T d
CopyErrorSuccess
代码注释
[!--zhushi--]