Databricks Lakehouse
概述
此目标将数据同步到 Databricks Lakehouse 上的 Delta Lake。每个流都会写入自己的 delta 表。
警告
必须使用 Unity Catalog 才能使用此连接器。
信息
请注意,目前 OAuth2 身份验证仅在 AWS 部署中受支持。如果您在 GCP 中运行 Databricks,必须使用访问令牌。
此连接器需要 JDBC 驱动程序才能连接到 Databricks 集群。通过使用驱动程序和连接器,您必须同意 JDBC ODBC 驱动程序许可协议。这意味着您只能使用此连接器将第三方应用程序连接到 Databricks 产品中的 Apache Spark SQL,使用 ODBC 和/或 JDBC 协议。
Airbyte 设置
设置 Databricks 目标时,您需要以下信息
服务器主机名 / HTTP 路径 / 端口
-
打开工作区控制台。
-
打开您的 SQL 仓库

-
打开“连接详细信息”选项卡

-
最后,您需要提供
Databricks Unity Catalog 路径,即 Unity Catalog 中您希望使用的数据库的路径。这通常与工作区名称相同。
身份验证
OAuth(推荐用于 AWS 部署的 Databricks)
按照 Databricks 文档 中的说明生成客户端 ID 和密钥。
访问令牌(推荐用于 Google Cloud 部署的 Databricks)
-
打开您的工作区控制台。
-
单击右上角的图标,然后转到
设置,然后是开发者,然后在访问令牌下面转到管理
-
输入令牌的描述以及它将有效的时间长度(或留空以获取永久令牌)

其他选项
默认模式- 将包含数据的模式。您以后可以在每个连接的基础上覆盖此设置。清除暂存文件和表- Airbyte 是否应该在将文件加载到表中后删除文件。注意:如果取消选择,Databricks 仍将在您的保留期过后删除文件(默认 - 7 天)。
同步模式
| 功能 | 支持 | 备注 |
|---|---|---|
| 完全刷新同步 | ✅ | 警告:此模式将删除配置的 bucket 路径中所有先前同步的数据。 |
| 增量 - 追加同步 | ✅ | |
| 增量 - 追加 + 去重 | ✅ | |
| 命名空间 | ✅ |
输出模式
每个表将包含以下列,除了您数据中的任何列之外
| 列 | 类型 | 备注 |
|---|---|---|
_airbyte_raw_id | 字符串 | 一个随机 UUID。 |
_airbyte_extracted_at | 时间戳 | 源读取记录的时间戳。 |
_airbyte_loaded_at | 时间戳 | 将记录写入目标的时间戳 |
_airbyte_generation_id | bigint | 请参阅 刷新 文档。 |
Airbyte 还会生成“原始表”(默认情况下在 airbyte_internal 模式中)。我们不建议直接与原始表交互,并且它们的格式可能会在没有通知的情况下发生变化。
参考
配置字段参考
字段
类型
属性名称
布尔值
accept_terms
对象
authentication
字符串
database
字符串
hostname
字符串
http_path
字符串
port
布尔值
purge_staging_data
字符串
raw_schema_override
字符串
schema
变更日志
展开以查看
| 版本 | 日期 | 拉取请求 | 主题 |
|---|---|---|---|
| 3.3.7 | 2025-07-15 | 63311 | 支持在 findExisitngTable 查询中任意数量的流 |
| 3.3.6 | 2025-03-24 | 56355 | 升级到 airbyte/java-connector-base:2.0.1 以兼容 M4。 |
| 3.3.5 | 2025-03-07 | 55232 | 修复表名冲突多个连接相同模式 |
| 3.3.3 | 2025-01-10 | 51506 | 使用非 root 基础镜像 |
| 3.3.2 | 2024-12-18 | 49898 | 使用基础镜像:airbyte/java-connector-base:1.0.0 |
| 3.3.1 | 2024-12-02 | #48779 | 增加 check 的资源需求 |
| 3.3.0 | 2024-09-18 | #45438 | 升级所有依赖项。 |
| 3.2.5 | 2024-09-12 | #45439 | 移动到集成部分。 |
| 3.2.4 | 2024-09-09 | #45208 | 修复 CHECK 以创建缺失的命名空间(如果不存在)。 |
| 3.2.3 | 2024-09-03 | #45115 | 澄清 Unity Catalog 名称选项。 |
| 3.2.2 | 2024-08-22 | #44941 | 澄清 Unity Catalog 路径选项。 |
| 3.2.1 | 2024-08-22 | #44506 | 处理大写/混合大小写流名称/命名空间 |
| 3.2.0 | 2024-08-12 | #40712 | 仅依赖 PAT,而不再需要用户名/密码 |
| 3.1.0 | 2024-07-22 | #40692 | 支持 刷新和可恢复的完全刷新。警告:在升级到此连接器版本之前,您必须升级到平台 0.63.7。 |
| 3.0.0 | 2024-07-12 | #40689 | (私有发布,不用于生产)添加 _airbyte_generation_id 列,以及 _airbyte_meta 中的 sync_id 条目 |
| 2.0.0 | 2024-05-17 | #37613 | (私有发布,不用于生产)连接器 Alpha 版本,使用 Unity Catalog |
| 1.1.2 | 2024-04-04 | #36846 | (与 CDK 不兼容,请勿使用)删除重复的 S3 区域 |
| 1.1.1 | 2024-01-03 | #33924 | (与 CDK 不兼容,请勿使用)添加新的 ap-southeast-3 AWS 区域 |
| 1.1.0 | 2023-06-02 | #26942 | 支持模式演化 |
| 1.0.2 | 2023-04-20 | #25366 | 修复默认目录为 hive_metastore |
| 1.0.1 | 2023-03-30 | #24657 | 修复对 S3 上的外部表的支持 |
| 1.0.0 | 2023-03-21 | #23965 | 添加:托管表存储类型,Databricks Catalog 字段 |
| 0.3.1 | 2022-10-15 | #18032 | 在 JDBC URL 中添加 SSL=1 以确保 SSL 连接。 |
| 0.3.0 | 2022-10-14 | #15329 | 添加对 Azure 存储的支持。 |
| 2022-09-01 | #16243 | 修复当来自组合限制(anyOf、oneOf、allOf 字段)的字段名称冲突时,Json 到 Avro 转换 | |
| 0.2.6 | 2022-08-05 | #14801 | 修复多个日志绑定 |
| 0.2.5 | 2022-07-15 | #14494 | 使 S3 输出文件名可配置。 |
| 0.2.4 | 2022-07-14 | #14618 | 删除 JDBC 目标连接器中的 additionalProperties: false |
| 0.2.3 | 2022-06-16 | #13852 | 更新任何跟踪消息错误的堆栈跟踪格式 |
| 0.2.2 | 2022-06-13 | #13722 | 重命名为“Databricks Lakehouse”。 |
| 0.2.1 | 2022-06-08 | #13630 | 重命名为“Databricks Delta Lake”并添加规范中的字段顺序。 |
| 0.2.0 | 2022-05-15 | #12861 | 使用新的公共 Databricks JDBC 驱动程序,并开源连接器。 |
| 0.1.5 | 2022-05-04 | #12578 | 在 JSON 到 Avro 转换中,记录不遵循 Avro 模式的 JSON 字段值以进行调试。 |
| 0.1.4 | 2022-02-14 | #10256 | 添加 -XX:+ExitOnOutOfMemoryError JVM 选项 |
| 0.1.3 | 2022-01-06 | #7622 #9153 | 将 Spark JDBC 驱动程序升级到 2.6.21 以修补 Log4j 漏洞;更新连接器字段标题/描述。 |
| 0.1.2 | 2021-11-03 | #7288 | 支持 Json additionalProperties。 |
| 0.1.1 | 2021-10-05 | #6792 | 要求用户接受 Databricks JDBC 驱动程序 条款和条件。 |
| 0.1.0 | 2021-09-14 | #5998 | 初始私有发布。 |