跳至主要内容

Databricks Lakehouse

概述

此目标将数据同步到 Databricks Lakehouse 上的 Delta Lake。每个流都会写入自己的 delta 表

警告

必须使用 Unity Catalog 才能使用此连接器。

信息

请注意,目前 OAuth2 身份验证仅在 AWS 部署中受支持。如果您在 GCP 中运行 Databricks,必须使用访问令牌。

此连接器需要 JDBC 驱动程序才能连接到 Databricks 集群。通过使用驱动程序和连接器,您必须同意 JDBC ODBC 驱动程序许可协议。这意味着您只能使用此连接器将第三方应用程序连接到 Databricks 产品中的 Apache Spark SQL,使用 ODBC 和/或 JDBC 协议。

Airbyte 设置

设置 Databricks 目标时,您需要以下信息

服务器主机名 / HTTP 路径 / 端口

  1. 打开工作区控制台。

  2. 打开您的 SQL 仓库

  3. 打开“连接详细信息”选项卡

  4. 最后,您需要提供 Databricks Unity Catalog 路径,即 Unity Catalog 中您希望使用的数据库的路径。这通常与工作区名称相同。

身份验证

按照 Databricks 文档 中的说明生成客户端 ID 和密钥。

  1. 打开您的工作区控制台。

  2. 单击右上角的图标,然后转到 设置,然后是 开发者,然后在 访问令牌 下面转到 管理

  3. 输入令牌的描述以及它将有效的时间长度(或留空以获取永久令牌)

其他选项

  • 默认模式 - 将包含数据的模式。您以后可以在每个连接的基础上覆盖此设置。
  • 清除暂存文件和表 - Airbyte 是否应该在将文件加载到表中后删除文件。注意:如果取消选择,Databricks 仍将在您的保留期过后删除文件(默认 - 7 天)。

同步模式

功能支持备注
完全刷新同步警告:此模式将删除配置的 bucket 路径中所有先前同步的数据。
增量 - 追加同步
增量 - 追加 + 去重
命名空间

输出模式

每个表将包含以下列,除了您数据中的任何列之外

类型备注
_airbyte_raw_id字符串一个随机 UUID。
_airbyte_extracted_at时间戳源读取记录的时间戳。
_airbyte_loaded_at时间戳将记录写入目标的时间戳
_airbyte_generation_idbigint请参阅 刷新 文档。

Airbyte 还会生成“原始表”(默认情况下在 airbyte_internal 模式中)。我们不建议直接与原始表交互,并且它们的格式可能会在没有通知的情况下发生变化。

参考

配置字段参考

字段
类型
属性名称
布尔值
accept_terms
对象
authentication
字符串
database
字符串
hostname
字符串
http_path
字符串
port
布尔值
purge_staging_data
字符串
raw_schema_override
字符串
schema

变更日志

展开以查看
版本日期拉取请求主题
3.3.72025-07-1563311支持在 findExisitngTable 查询中任意数量的流
3.3.62025-03-2456355升级到 airbyte/java-connector-base:2.0.1 以兼容 M4。
3.3.52025-03-0755232修复表名冲突多个连接相同模式
3.3.32025-01-1051506使用非 root 基础镜像
3.3.22024-12-1849898使用基础镜像:airbyte/java-connector-base:1.0.0
3.3.12024-12-02#48779增加 check 的资源需求
3.3.02024-09-18#45438升级所有依赖项。
3.2.52024-09-12#45439移动到集成部分。
3.2.42024-09-09#45208修复 CHECK 以创建缺失的命名空间(如果不存在)。
3.2.32024-09-03#45115澄清 Unity Catalog 名称选项。
3.2.22024-08-22#44941澄清 Unity Catalog 路径选项。
3.2.12024-08-22#44506处理大写/混合大小写流名称/命名空间
3.2.02024-08-12#40712仅依赖 PAT,而不再需要用户名/密码
3.1.02024-07-22#40692支持 刷新和可恢复的完全刷新。警告:在升级到此连接器版本之前,您必须升级到平台 0.63.7。
3.0.02024-07-12#40689(私有发布,不用于生产)添加 _airbyte_generation_id 列,以及 _airbyte_meta 中的 sync_id 条目
2.0.02024-05-17#37613(私有发布,不用于生产)连接器 Alpha 版本,使用 Unity Catalog
1.1.22024-04-04#36846(与 CDK 不兼容,请勿使用)删除重复的 S3 区域
1.1.12024-01-03#33924(与 CDK 不兼容,请勿使用)添加新的 ap-southeast-3 AWS 区域
1.1.02023-06-02#26942支持模式演化
1.0.22023-04-20#25366修复默认目录为 hive_metastore
1.0.12023-03-30#24657修复对 S3 上的外部表的支持
1.0.02023-03-21#23965添加:托管表存储类型,Databricks Catalog 字段
0.3.12022-10-15#18032在 JDBC URL 中添加 SSL=1 以确保 SSL 连接。
0.3.02022-10-14#15329添加对 Azure 存储的支持。
2022-09-01#16243修复当来自组合限制(anyOfoneOfallOf 字段)的字段名称冲突时,Json 到 Avro 转换
0.2.62022-08-05#14801修复多个日志绑定
0.2.52022-07-15#14494使 S3 输出文件名可配置。
0.2.42022-07-14#14618删除 JDBC 目标连接器中的 additionalProperties: false
0.2.32022-06-16#13852更新任何跟踪消息错误的堆栈跟踪格式
0.2.22022-06-13#13722重命名为“Databricks Lakehouse”。
0.2.12022-06-08#13630重命名为“Databricks Delta Lake”并添加规范中的字段顺序。
0.2.02022-05-15#12861使用新的公共 Databricks JDBC 驱动程序,并开源连接器。
0.1.52022-05-04#12578在 JSON 到 Avro 转换中,记录不遵循 Avro 模式的 JSON 字段值以进行调试。
0.1.42022-02-14#10256添加 -XX:+ExitOnOutOfMemoryError JVM 选项
0.1.32022-01-06#7622 #9153将 Spark JDBC 驱动程序升级到 2.6.21 以修补 Log4j 漏洞;更新连接器字段标题/描述。
0.1.22021-11-03#7288支持 Json additionalProperties
0.1.12021-10-05#6792要求用户接受 Databricks JDBC 驱动程序 条款和条件
0.1.02021-09-14#5998初始私有发布。