无服务器架构,是一种云计算的资源模型。开发者无需管理复杂的软硬件配置,只需关注代码和业务逻辑。EMR Serverless 由火山平台提供服务器的维护,控制资源的扩展、保障服务的可用性。
Access Key ID(简称AK)和 Secret Access Key(简称SK)是是请求火山引擎API的安全凭证。在火山云官网注册云账号后,可以在AccessKey管理页面生成该信息,用于标识用户,为访问EMR、其他云产品或连接第三方工具做签名验证。请妥善保管,必须保密,如果存在泄露风险,请及时禁用或更新。
Data Definition Language,数据定义语言。例如创建表、创建视图等操作。
Data Manipulation Language,数据操作语言。例如INSERT、UPDATE、DELETE操作。
Data Query Language,数据查询语言。例如SELECT等操作。
计算引擎支持读取各种格式的数据,数据可能存储在多种存储介质中。本系统推荐使用的存储是火山对象存储TOS。
元数据(Metadata)是用来描述数据信息的数据,提供了关于数据的上下文、结构和含义的信息。本系统的元数据是由LAS Formaiton来管理和提供服务的,
是计算资源的提供形态,通过一种逻辑分组对资源进行隔离和控制。按量付费会开通公共队列的使用,包年包月会开通一个独占队列的使用。
只能执行SQL作业的队列类型,不支持提交Spark Jar作业,由于提供Driver预热能力,实现了SQL作业没有等待时间,提交后马上可以执行的能力。
提供提前拉起的独享SparkSQL服务,提交SQL作业时,会直接提交到这个预热SparkSQL服务,跳过常规的资源申请阶段,有效的降低由于启动时间导致的秒级别作业时效失真。
既包含SQL专用队列资源,也包含普通类型的,用于执行Spark Jar&Spark SQL作业的资源,是一种混合队列类型。用户可以根据需要分别设置两种资源的CU数量(规格)。
CU是资源的计量单位,队列的容量通过CU进行表达。 1CU= 1 vCPU 4GiB Memory。在本系统中,设置资源参数时需要以CU为单位。
独占队列提供的一种容量类型,支持根据队列资源负载进行弹性扩容或缩容,以满足业务随时间波动的业务场景。此时业务只需要购买能满足日常保障需要的固定资源,再次基础上向上波动的资源按弹性资源购买。
直接提交Spark SQL语句的作业,称之为SQL作业。支持通过界面化或JDBC连接等方式提交。
泛指Spark Core/Pyspark/MLlib等作业类型,可以通过可视化界面提交,也可以通过系统提供的SDK提交。
系统提供的开源函数能力,包括Spark内置函数和用户自定义函数(UDF)。