BigQuery
设置 BigQuery 目标连接器涉及设置数据加载方法并使用 Airbyte UI 配置 BigQuery 目标连接器。
本页将指导您设置 BigQuery 目标连接器。
先决条件
-
对于使用 Postgres 来源连接器的 Airbyte 开源用户,请升级您的 Airbyte 平台到版本
v0.40.0-alpha或更高版本,并将您的 BigQuery 连接器升级到版本1.1.14或更高版本 -
注意:在 BigQuery 中编写的查询只能引用同一物理位置中的数据集。如果您计划在查询中将 Airbyte 同步的数据与其他数据集中的数据结合起来,请在 Google Cloud 的同一位置创建数据集。有关更多信息,请阅读 数据集简介
-
(适用于 Airbyte Cloud;Airbyte 开源可选)具有
BigQuery 用户和BigQuery 数据编辑器角色的 Google Cloud 服务帐号,以及 JSON 格式的服务帐号密钥。
设置指南
第一步:设置数据加载方法
使用批量标准插入
您可以使用 BigQuery 驱动程序内置的转换功能,将 INSERT 语句转换为文件上传,然后批量加载到 BigQuery 中。这是以高性能方式将数据加载到 BigQuery 的最简单方法。这些暂存文件由 BigQuery 管理,并在加载完成后自动删除。
使用 Google Cloud Storage 存储桶
如果您希望更多地控制暂存文件的存储方式和位置,可以选择使用 GCS 存储桶。
要使用 Google Cloud Storage 存储桶
- 创建一个 Cloud Storage 存储桶,并将保护工具设置为
none或对象版本控制。确保存储桶没有 保留策略。 - 创建 HMAC 密钥和访问 ID.
- 向 Google Cloud 服务帐号授予
存储对象管理员角色。这必须与您在 BigQuery 连接器设置步骤中配置的 BigQuery 访问的服务帐号相同。 - 确保您的 Cloud Storage 存储桶可以从运行 Airbyte 的机器访问。验证 Airbyte 是否能够连接到您的存储桶的最简单方法是使用 UI 中的检查连接工具。
您的存储桶必须使用 Google 管理的加密密钥进行加密(这是创建新存储桶时的默认设置)。我们目前不支持使用客户管理的加密密钥 (CMEK) 的存储桶。您可以在 GCS 存储桶的“配置”选项卡中查看此设置,在 加密类型 行中。
第二步:设置 BigQuery 连接器
- 登录到您的 Airbyte Cloud 或 Airbyte 开源帐户。
- 单击 目标,然后单击 + 新目标。
- 在设置目标页面上,从 目标类型 下拉菜单中选择 BigQuery。
- 输入 BigQuery 连接器的名称。
- 对于 项目 ID,输入您的 Google Cloud 项目 ID。
- 对于 数据集位置,选择 BigQuery 数据集的位置。
您无法稍后更改位置。
- 对于 默认数据集 ID,输入 BigQuery 数据集 ID。
- 对于 加载方法,选择 批量标准插入 或 GCS 暂存。
- 对于 服务帐号密钥 JSON(云端必需,开源可选),输入 Google Cloud 服务帐号密钥 JSON 格式。
请务必复制帐户密钥 JSON 文件中的所有内容,包括方括号。
- 对于 转换查询运行类型(可选),选择 交互式 以让 BigQuery 运行交互式查询作业,或选择 批量 以让 BigQuery 运行批量查询作业。
交互式查询会尽快执行,并计入每日并发配额和限制,而批量查询会在 BigQuery 共享资源池中空闲资源可用时执行。如果 BigQuery 在 24 小时内未启动查询,BigQuery 会将作业优先级更改为交互式。批量查询不计入您的并发速率限制,从而更容易同时启动许多查询。
- 对于 Google BigQuery 客户端块大小(可选),使用默认值 15 MiB。稍后,如果您在同步过程中遇到网络或内存管理问题(尤其是在目标端),请尝试减小块大小。在这种情况下,同步速度会变慢,但更有可能成功。
支持的同步模式
BigQuery 目标连接器支持以下 同步模式
- 完全刷新同步
- 增量 - 追加同步
- 增量 - 追加 + 去重
输出 schema
最终表包含以下字段,除了流模式中声明的列之外
airbyte_raw_id_airbyte_generation_idairbyte_extracted_at_airbyte_meta
再次参见 此处,了解有关这些字段的更多信息。
BigQuery 中的输出表按时间单位列 airbyte_extracted_at 以每日粒度进行分区,并按 airbyte_extracted_at 和表主键进行聚类。分区边界基于 UTC 时间。这对于限制扫描这些分区表的数量很有用,方法是使用谓词过滤器(WHERE 子句)。分区列上的过滤器用于修剪分区并降低查询成本。(Airbyte 不启用 需要分区过滤器 参数,但您可以更新生成的表来切换它。)
旧版原始表模式
如果您启用了“旧版原始表”选项,连接器将以这种格式写入表。
默认情况下,Airbyte 将每个流输出到 airbyte_internal 数据集中的自己的原始表中(您可以通过 Airbyte 内部表数据集名称 选项覆盖此设置)。原始表中的内容不会进行去重。
原始表包含以下字段
_airbyte_raw_id_airbyte_generation_id_airbyte_extracted_at_airbyte_loaded_at_airbyte_meta_airbyte_data
_airbyte_data 是一个包含记录数据的 JSON blob。有关其他字段的更多信息,请参阅 此处。
BigQuery 命名约定
遵循 BigQuery 数据集命名约定。
Airbyte 将任何无效字符转换为 _ 字符来写入数据。但是,由于以 _ 开头的数据集在 BigQuery Explorer 面板中是隐藏的,Airbyte 会将命名空间前缀为 n 以进行转换后的命名空间。
数据类型映射
| Airbyte 类型 | BigQuery 类型 |
|---|---|
| STRING | STRING |
| STRING (BASE64) | STRING |
| STRING (BIG_NUMBER) | STRING |
| STRING (BIG_INTEGER) | STRING |
| NUMBER | NUMERIC |
| INTEGER | INT64 |
| BOOLEAN | BOOL |
| STRING (TIMESTAMP_WITH_TIMEZONE) | TIMESTAMP |
| STRING (TIMESTAMP_WITHOUT_TIMEZONE) | DATETIME |
| STRING (TIME_WITH_TIMEZONE) | STRING |
| STRING (TIME_WITHOUT_TIMEZONE) | TIME |
| DATE | DATE |
| OBJECT | JSON |
| ARRAY | JSON |
解决权限问题
服务帐户没有适当的权限。
- 确保 BigQuery 服务帐户具有
BigQuery 用户和BigQuery 数据编辑器角色或与这两个角色等效的权限。 - 如果选择了 GCS 暂存模式,请确保 BigQuery 服务帐户具有访问 GCS 存储桶和路径的正确权限,或者具有
Cloud Storage 管理员角色,其中包括所需的权限的超集。
HMAC 密钥错误。
- 确保 HMAC 密钥是为 BigQuery 服务帐户创建的,并且该服务帐户有权访问 GCS 存储桶和路径。
教程
现在您已经设置了 BigQuery 目标连接器,请查看以下 BigQuery 教程
- 将 Google Analytics 数据导出到 BigQuery
- 将 Facebook Ads 数据加载到 BigQuery
- 将 Salesforce 数据复制到 BigQuery
- 使用 Airbyte 和 dbt 对 BigQuery 表进行分区和聚类
参考
配置字段参考
变更日志
展开以查看
| 版本 | 日期 | 拉取请求 | 主题 |
|---|---|---|---|
| 3.0.16 | 2025-11-25 | 67401 | 在 SQL 生成中为列名添加反引号,以防止语法错误。 |
| 3.0.15 | 2025-11-13 | 69307 | 处理超出范围的时间戳/时间。 |
| 3.0.14 | 2025-11-11 | 69231 | 升级到 Bulk CDK 0.1.74。 |
| 3.0.13 | 2025-11-05 | 69126 | 升级到 Bulk CDK 0.1.61。 |
| 3.0.12 | 2025-10-31 | 69083 | 如果 Bigquery 检测到错误的记录,则大声报错。 |
| 3.0.11 | 2025-10-28 | 68671 | 记录每个加载作业的记录数。 |
| 3.0.10 | 2025-10-21 | 67153 | 实现新的 proto 模式实现 |
| 3.0.9 | 2025-10-17 | 68152 | 更新到新的 TableOperationsClient 接口。 |
| 3.0.8 | 2025-10-06 | 67078 | 删除同步作业的内存限制,以提高性能和资源利用率。 |
| 3.0.7 | 2025-09-03 | 65905 | 将发布候选版本 3.0.7-rc.1 提升到主版本。 |
| 3.0.7-rc.1 | 2025-08-27 | 65114 | 实现 SOCKET+PROTO 模式支持。 |
| 3.0.6 | 2025-07-24 | 63700 | 改进计费错误的错误报告。 |
| 3.0.5 | 2025-07-15 | 63312 | 引入上游修复,以支持 GCS 暂存模式中的空字符。 |
| 3.0.4 | 2025-07-15 | 63327 | 改进计费错误的错误报告。 |
| 3.0.3 | 2025-07-02 | 62495 | 改进配置错误的连接的错误报告;改进对复杂类型支持。 |
| 3.0.2 | 2025-06-26 | 62106 | 改进模式演化期间的错误报告。 |
| 3.0.1 | 2025-06-26 | 62085 | 正确处理以数字开头的流名称/命名空间和列名称。 |
| 3.0.0 | 2025-06-25 | 59752 | 升级到直接加载表;添加软 CDC 删除选项。 |
| 2.12.4 | 2025-06-24 | 62045 | 将发布候选版本 2.12.4-rc.6 提升到主版本。 |
| 2.12.4-rc.6 | 2025-06-24 | 62041 | 2.12.4 RC 6 更多的重试更好 |
| 2.12.4-rc.5 | 2025-06-23 | 62016 | 2.12.4 RC 5 处理高达 20MiB 的记录 |
| 2.12.4-rc.4 | 2025-06-23 | 62014 | 2.12.4 RC 4 改进 JSON 模式解析器在无效源模式上的行为 |
| 2.12.4-rc.3 | 2025-06-18 | 61702 | 2.12.4 RC 3 修复批量加载器上具有特殊字符的流的问题 |
| 2.12.4-rc.2 | 2025-06-18 | 61700 | 2.12.4 RC 2(在无效目录上抛出更具信息量的错误) |
| 2.12.4-rc.1 | 2025-06-16 | 61637 | 2.12.4 RC 1(理论上等同于 2.12.0,但修复了 CDK 中的全局状态处理) |
| 2.12.3 | 2025-06-16 | 61648 | 这不是您要查找的版本。与 2.10.2 相同 |
| 2.12.1 | 2025-06-13 | 61588 | |
| 2.12.0 | 2025-06-06 | 61432 | 通过写入 GZIP 压缩的文件来提高 GCS 暂存模式中的性能。 |
| 2.11.4 | 2025-05-30 | 61018 | 在同步启动期间出错时,始终发出有用的错误消息。 |
| 2.11.3 | 2025-06-02 | 61321 | CHECK 操作不再需要删除数据集。 |
| 2.11.2 | 2025-05-29 | 60986 | CHECK 操作使用配置的默认数据集,而不是 airbyte_internal_test。 |
| 2.11.1 | 2025-05-29 | 60973 | 改进在流的同步模式和模式都发生更改且先前的同步未干净退出的情况下的错误恢复。 |
| 2.11.0 | 2025-05-27 | 60922 | 将发布候选版本 2.11.0-rc.7 提升到主版本。 |
| 2.11.0-rc.7 | 2025-05-22 | 60865 | 为检查同步命名空间添加随机元素 |
| 2.11.0-rc.6 | 2025-05-22 | 60859 | 改进标准插入流的 BigQuery 配额使用情况,这些流负载较重 |
| 2.11.0-rc.5 | 2025-05-21 | 60841 | 改进具有许多状态消息的同步中的行为 |
| 2.11.0-rc.4 | 2025-05-19 | 60791 | 修复在没有列的流中检测模式更改时的错误 |
| 2.11.0-rc.3 | 2025-05-16 | 60324 | 修复许多状态消息同步中的错误 |
| 2.11.0-rc.2 | 2025-05-15 | 60302 | 修复处理特殊字符/大写字符的列名中的错误 |
| 2.11.0-rc.1 | 2025-05-08 | 59729 | 版本 2.11.0 RC 1 |
| 2.10.2 | 2025-04-29 | 59142 | 添加 europe-north2 区域。 |
| 2.10.1 | 2025-04-14 | 57569 | 删除 StringSubstitutor 的使用 |
| 2.10.0 | 2025-04-02 | 56982 | 将默认原始表分区方案更改为 _airbyte_extracted_at;升级 CDK |
| 2.9.3 | 2025-03-24 | 56355 | 升级到 airbyte/java-connector-base:2.0.1 以兼容 M4。 |
| 2.9.2 | 2025-01-10 | 51482 | 使用非 root 基础镜像 |
| 2.9.1 | 2024-12-18 | 49902 | 使用基础镜像:airbyte/java-connector-base:1.0.0 |
| 2.9.0 | 2024-09-18 | 45433 | 升级所有依赖项 |
| 2.8.9 | 2024-08-20 | 44476 | 增加消息解析限制到 100mb |
| 2.8.8 | 2024-08-22 | 44526 | 还原协议合规性修复 |
| 2.8.7 | 2024-08-15 | 42504 | 修复刷新逻辑中的错误(平台已缓解,只是修复协议合规性) |
| 2.8.6 | 2024-07-30 | 42511 | 添加了一个复制操作,用于在检查函数中验证复制权限 |
| 2.8.5 | 2024-07-22 | 42407 | 批量标准插入是默认加载模式 |
| 2.8.4 | 2024-07-15 | 41968 | 不要在空流列表上永久挂起;缩短 INCOMPLETE 流状态的错误消息 |
| 2.8.3 | 2024-07-12 | 41674 | 升级到最新 CDK |
| 2.8.2 | 2024-07-08 | 41041 | 修复截断刷新中的恢复逻辑,以防止数据丢失 |
| 2.8.1 | 2024-06-25 | 39379 | 删除冗余权限 bigquery.datasets.create 权限的要求 |
| 2.8.0 | 2024-06-21 | 39904 | 将所有生产代码转换为 kotlin |
| 2.7.1 | 2024-06-17 | 39526 | 内部代码更改,用于改进源/平台失败情况下的错误报告(INCOMPLETE 流状态/空 ConfiguredCatalog)。 |
| 2.7.0 | 2024-06-17 | 38713 | 支持 刷新和可恢复的完全刷新。警告:在升级到此连接器版本之前,您必须升级到平台 0.63.7。 |
| 2.6.3 | 2024-06-10 | 38331 | 内部代码更改,为未来的功能发布做准备 |
| 2.6.2 | 2024-06-07 | 38764 | 将消息长度限制增加到 50MiB |
| 2.6.1 | 2024-05-29 | 38770 | 内部代码更改(切换到 CDK 工件) |
| 2.6.0 | 2024-05-28 | 38359 | 传播 airbyte_meta 来自源;添加 generation_id 列 |
| 2.5.1 | 2024-05-22 | 38591 | 修复在清理阶段包含斜杠的错误 |
| 2.5.0 | 2024-05-22 | 38132 | 现有代码的重大重写,适应 38107 中引入的 CDK 更改 |
| 2.4.20 | 2024-05-13 | 38131 | 清理 BigQueryWriteConfig 并重用 StreamConfig;适应 StreamConfig 签名更改 |
| 2.4.19 | 2024-05-10 | 38125 | 采用最新的 CDK 代码 |
| 2.4.18 | 2024-05-10 | 38111 | 无功能更改,删除未使用的代码 |
| 2.4.17 | 2024-05-09 | 38098 | 内部构建结构更改 |
| 2.4.16 | 2024-05-08 | 37714 | 采用 CDK 0.34.0 |
| 2.4.15 | 2024-05-07 | 34611 | 采用 CDK 0.33.2 |
| 2.4.14 | 2024-02-25 | 37584 | 删除 CDK 中未使用的不安全依赖项 |
| 2.4.13 | 2024-02-25 | 36899 | 采用最新的 CDK |
| 2.4.12 | 2024-03-04 | 35315 | 采用 CDK 0.23.11 |
| 2.4.11 | 2024-02-22 | 35569 | 修复日志错误。 |
| 2.4.10 | 2024-02-15 | 35240 | 采用 CDK 0.20.9 |
| 2.4.9 | 2024-02-15 | 35285 | 采用 CDK 0.20.8 |
| 2.4.8 | 2024-02-12 | 35144 | 采用 CDK 0.20.2 |
| 2.4.7 | 2024-02-12 | 35111 | 采用 CDK 0.20.1 |
| 2.4.6 | 2024-02-09 | 34575 | 采用 CDK 0.20.0 |
| 2.4.5 | 2024-02-08 | 34745 | 采用 CDK 0.19.0 |
| 2.4.4 | 2024-02-08 | 35027 | 升级 CDK 到 0.17.1 |
| 2.4.3 | 2024-02-01 | 34728 | 升级 CDK 到 0.16.4;0.14.2、0.15.1 和 0.16.3 的重要更改 |
| 2.4.2 | 2024-01-24 | 34451 | 改进无法解析的输入日志记录 |
| 2.4.1 | 2024-01-24 | 34458 | 改进错误报告 |
| 2.4.0 | 2024-01-24 | 34468 | 升级 CDK 到 0.14.0 |
| 2.3.31 | 2024-01-22 | #34023 | 将 DDL 操作合并到一个执行中 |
| 2.3.30 | 2024-01-12 | #34226 | 升级 CDK 到 0.12.0;清理依赖项 |
| 2.3.29 | 2024-01-09 | #34003 | 修复从 GCP Env 加载凭据 |
| 2.3.28 | 2024-01-08 | #34021 | 在检查调用中为虚拟插入添加幂等性 ID |
| 2.3.27 | 2024-01-05 | #33948 | 如果设置失败,则跳过检索初始表状态 |
| 2.3.26 | 2024-01-04 | #33730 | 内部代码结构更改 |
| 2.3.25 | 2023-12-20 | #33704 | 更新到 java CDK 0.10.0(无更改) |
| 2.3.24 | 2023-12-20 | #33697 | 停止创建不必要的临时表 |
| 2.3.23 | 2023-12-18 | #33124 | 将模式创建与表创建分开 |
| 2.3.22 | 2023-12-14 | #33451 | 删除旧的规范选项 |
| 2.3.21 | 2023-12-13 | #33232 | 仅当流有任何记录时才运行类型化和去重 |
| 2.3.20 | 2023-12-08 | #33263 | 采用 java CDK 版本 0.7.0 |
| 2.3.19 | 2023-12-07 | #32326 | 更新通用的 T&D 接口 |
| 2.3.18 | 2023-12-04 | #33084 | T&D SQL 语句移动到调试日志级别 |
| 2.3.17 | 2023-12-04 | #33078 | 进一步增加 gcs COPY 超时时间 |
| 2.3.16 | 2023-11-14 | #32526 | 清理内存管理器日志。 |
| 2.3.15 | 2023-11-13 | #32468 | 进一步的错误分组增强 |
| 2.3.14 | 2023-11-06 | #32234 | 删除未使用的配置选项。 |
| 2.3.13 | 2023-11-08 | #32125 | 修复编译器警告 |
| 2.3.12 | 2023-11-08 | #32309 | 撤销:使用 Typed 对象进行连接配置 |
| 2.3.11 | 2023-11-07 | #32147 | 使用 Typed 对象进行连接配置 |
| 2.3.10 | 2023-11-07 | #32261 | 进一步改进错误报告 |
| 2.3.9 | 2023-11-07 | #32112 | GCS 暂存模式:为了更有效地使用速率限制,降低刷新频率 |
| 2.3.8 | 2023-11-06 | #32026 | 将 SAFE_CAST 事务移动到单独的事务 |
| 2.3.7 | 2023-11-06 | #32190 | 进一步改进错误报告 |
| 2.3.6 | 2023-11-06 | #32193 | 采用 java CDK 版本 0.4.1。 |
| 2.3.5 | 2023-11-02 | #31983 | 改进错误报告 |
| 2.3.4 | 2023-10-31 | #32010 | 添加更多数据中心。 |
| 2.3.3 | 2023-10-30 | #31985 | 延迟升级截止日期至 11 月 7 日 |
| 2.3.2 | 2023-10-30 | #31960 | 采用 java CDK 版本 0.2.0。 |
| 2.3.1 | 2023-10-27 | #31529 | 性能增强(切换到增量去重同步的 merge 语句) |
| 2.3.0 | 2023-10-25 | #31686 | 选择退出类型化和去重表的标志 |
| 2.2.0 | 2023-10-25 | #31520 | 停止去重原始表 |
| 2.1.6 | 2023-10-23 | #31717 | 删除意外的目的地 v2 检查 |
| 2.1.5 | 2023-10-17 | #30069 | 暂存目的地异步 |
| 2.1.4 | 2023-10-17 | #31191 | 通过在提取时间上过滤新的原始记录来提高类型化和去重性能 |
| 2.1.3 | 2023-10-10 | #31358 | 字符串化数组和对象类型以进行类型:string最终表中的列 |
| 2.1.2 | 2023-10-10 | #31194 | 释放空闲的每流缓冲区内存 |
| 2.1.1 | 2023-10-10 | #31083 | 修复异步目标中数值的精度 |
| 2.1.0 | 2023-10-09 | #31149 | 不再因主键为空而导致同步失败 - 尝试进行去重 |
| 2.0.26 | 2023-10-09 | #31198 | 澄清配置组 |
| 2.0.25 | 2023-10-09 | #31185 | 将暂存文件上传超时时间增加到 5 分钟 |
| 2.0.24 | 2023-10-06 | #31139 | 升级 CDK 版本 |
| 2.0.23 | 2023-10-06 | #31129 | 减小异步缓冲区大小 |
| 2.0.22 | 2023-10-04 | #31082 | 撤销空主键检查 |
| 2.0.21 | 2023-10-03 | #31028 | 更新超时时间 |
| 2.0.20 | 2023-09-26 | #30779 | 最终表主键列变为非空,并跳过原始记录中空主键的检查(性能) |
| 2.0.19 | 2023-09-26 | #30775 | 增加异步块大小 |
| 2.0.18 | 2023-09-27 | #30739 | 修复列名冲突检测 |
| 2.0.17 | 2023-09-26 | #30696 | 尝试不安全的类型化操作,并带有异常子句 |
| 2.0.16 | 2023-09-22 | #30697 | 提高在模式更改期间不干净退出的弹性 |
| 2.0.15 | 2023-09-21 | #30640 | 处理具有相同名称和命名空间的流 |
| 2.0.14 | 2023-09-20 | #30069 | 暂存目的地异步 |
| 2.0.13 | 2023-09-19 | #30592 | 内部代码更改 |
| 2.0.12 | 2023-09-19 | #30319 | 改进测试 |
| 2.0.11 | 2023-09-18 | #30551 | GCS 暂存是第一个加载方法选项 |
| 2.0.10 | 2023-09-15 | #30491 | 改进错误消息显示 |
| 2.0.9 | 2023-09-14 | #30439 | 修复一个瞬态错误 |
| 2.0.8 | 2023-09-12 | #30364 | 添加日志消息 |
| 2.0.7 | 2023-08-29 | #29878 | 内部代码更改 |
| 2.0.6 | 2023-09-05 | #29917 | 通过将 ARRAY_CONCAT 更改为 ARRAY_AGG 来提高性能,以构建元数据错误数组 |
| 2.0.5 | 2023-08-31 | #30020 | 并行运行类型化和去重任务 |
| 2.0.4 | 2023-09-05 | #30117 | 在同步开始时以及每 6 小时进行类型化和去重 |
| 2.0.3 | 2023-09-01 | #30056 | 内部重构,无行为更改 |
| 2.0.2 | 2023-09-01 | #30120 | 通过跳过字符串上的 SAFE_CAST 来提高非常宽流的性能 |
| 2.0.1 | 2023-08-29 | #29972 | 发布新版本以取代旧的 v2.0.0 |
| 2.0.0 | 2023-08-27 | #29783 | Destinations V2 |
| 1.10.2 | 2023-08-24 | #29805 | 目的地 v2:不要在迁移中进行软重置 |
| 1.10.1 | 2023-08-23 | #29774 | 目的地 v2:不要在覆盖同步中进行软重置 |
| 1.10.0 | 2023-08-21 | #29636 | 目的地 v2:几个关键的错误修复(无光标去重、改进浮点处理、改进特殊字符处理;改进错误处理) |
| 1.9.1 | 2023-08-21 | #28687 | 在幕后:添加对 Java CDK v0.0.1 的依赖。 |
| 1.9.0 | 2023-08-17 | #29560 | 目的地 v2:在不允许的列名之前抛出错误 |
| 1.8.1 | 2023-08-17 | #29522 | 迁移 BugFix - 确保创建原始数据集 |
| 1.8.0 | 2023-08-17 | #29498 | 修复 GCS 暂存模式中的检查点逻辑 |
| 1.7.8 | 2023-08-15 | #29461 | 迁移 BugFix - 确保在 GCS 暂存之前发生迁移。 |
| 1.7.7 | 2023-08-11 | #29381 | 目的地 v2:添加对没有列的流的支持 |
| 1.7.6 | 2023-08-04 | #28894 | 目的地 v2:添加 v1 -> v2 迁移逻辑 |
| 1.7.5 | 2023-08-04 | #29106 | 目的地 v2:处理不寻常的 CDC 删除边缘情况 |
| 1.7.4 | 2023-08-04 | #29089 | 目的地 v2:改进列名中的特殊字符处理 |
| 1.7.3 | 2023-08-03 | #28890 | 内部代码更新;改进测试 |
| 1.7.2 | 2023-08-02 | #28976 | 修复 v1 模式中的复合主键处理 |
| 1.7.1 | 2023-08-02 | #28959 | 目的地 v2:修复非去重模式下的 CDC 同步 |
| 1.7.0 | 2023-08-01 | #28894 | 目的地 v2:开放早期访问计划加入 |
| 1.6.0 | 2023-07-26 | #28723 | 目的地 v2:更改原始表数据集和命名约定 |
| 1.5.8 | 2023-07-25 | #28721 | 目的地 v2:处理跨同步的光标更改 |
| 1.5.7 | 2023-07-24 | #28625 | 目的地 v2:将聚类列限制为 4 个 |
| 1.5.6 | 2023-07-21 | #28580 | 目的地 v2:在用户指定的位置创建数据集 |
| 1.5.5 | 2023-07-20 | #28490 | 目的地 v2:修复在 OVERWRITE 模式下现有表为空时的模式更改检测;其他代码重构 |
| 1.5.4 | 2023-07-17 | #28382 | 目的地 v2:模式更改检测 |
| 1.5.3 | 2023-07-14 | #28345 | 增加补丁以触发重建 |
| 1.5.2 | 2023-07-05 | #27936 | 内部脚手架更改,为未来的开发做准备 |
| 1.5.1 | 2023-06-30 | #27891 | 撤销有错误的更新 |
| 1.5.0 | 2023-06-27 | #27781 | 许可证更新:Elv2 |
| 1.4.6 | 2023-06-28 | #27268 | 内部脚手架更改,为未来的开发做准备 |
| 1.4.5 | 2023-06-21 | #27555 | 减小镜像大小 |
| 1.4.4 | 2023-05-25 | #26585 | 日志中的小调整,以提高清晰度 |
| 1.4.3 | 2023-05-17 | #26213 | 修复解析文件缓冲区配置计数中的错误 |
| 1.4.2 | 2023-05-10 | #25925 | 测试更新。规范化测试现在在目标容器中完成。 |
| 1.4.1 | 2023-05-11 | #25993 | 内部库更新 |
| 1.4.0 | 2023-04-29 | #25570 | 内部库更新。提高版本以与 BigQuery-denormalized 保持同步。 |
| 1.3.4 | 2023-04-28 | #25588 | 内部脚手架更改,为未来的开发做准备 |
| 1.3.3 | 2023-04-27 | #25346 | 内部代码清理 |
| 1.3.1 | 2023-04-20 | #25097 | 内部脚手架更改,为未来的开发做准备 |
| 1.3.0 | 2023-04-19 | #25287 | 添加参数以配置在使用 GCS 作为加载方法时文件缓冲区数量 |
| 1.2.20 | 2023-04-12 | #25122 | 添加更多数据中心 |
| 1.2.19 | 2023-03-29 | #24671 | 在某些错误情况下更快地失败 |
| 1.2.18 | 2023-03-23 | #24447 | 将服务帐户密钥 JSON 字段设置为 always_show: true,以便它不会折叠到可选字段部分 |
| 1.2.17 | 2023-03-17 | #23788 | S3-Parquet:添加处理数组中空值的处理程序 |
| 1.2.16 | 2023-03-10 | #23931 | 添加了定期缓冲区刷新支持 |
| 1.2.15 | 2023-03-10 | #23466 | 更改 S3 Avro 类型为 Int 到 Long |
| 1.2.14 | 2023-02-08 | #22497 | 修复表已存在错误 |
| 1.2.13 | 2023-01-26 | #20631 | 添加了对使用暂存进行目标检查点的支持 |
| 1.2.12 | 2023-01-18 | #21087 | 将身份验证错误包装为配置异常 |
| 1.2.11 | 2023-01-18 | #21144 | 添加了明确的错误消息,如果同步因配置问题而失败 |
| 1.2.9 | 2022-12-14 | #20501 | 报告在连接检查期间发生的 GCS 暂存失败 |
| 1.2.8 | 2022-11-22 | #19489 | 添加了非计费项目的处理方式,用于检查连接阶段 |
| 1.2.7 | 2022-11-11 | #19358 | 修复了检查方法,以捕获不匹配的数据集位置 |
| 1.2.6 | 2022-11-10 | #18554 | 改进了检查连接方法,以处理更多错误 |
| 1.2.5 | 2022-10-19 | #18162 | 改进了错误日志 |
| 1.2.4 | 2022-09-26 | #16890 | 添加了 user-agent 头 |
| 1.2.3 | 2022-09-22 | #17054 | 尊重流命名空间 |
| 1.2.1 | 2022-09-14 | #15668 | (有缺陷,请勿使用) 将日志包装在 AirbyteLogMessage 中 |
| 1.2.0 | 2022-09-09 | #14023 | (有缺陷,请勿使用) 仅在数组嵌套时覆盖数组 |
| 1.1.16 | 2022-09-01 | #16243 | 修复当来自组合限制(anyOf、oneOf、allOf 字段)的字段名称冲突时,Json 到 Avro 转换 |
| 1.1.15 | 2022-08-22 | #15787 | 如果作业失败,则抛出异常 |
| 1.1.14 | 2022-08-03 | #14784 | 启用应用程序默认凭证 |
| 1.1.13 | 2022-08-02 | #14801 | 修复多个日志绑定 |
| 1.1.12 | 2022-08-02 | #15180 | 修复标准加载模式 |
| 1.1.11 | 2022-06-24 | #14114 | 删除带有暂存的连接器的规范中的 "additionalProperties": false |
| 1.1.10 | 2022-06-16 | #13852 | 更新任何跟踪消息错误的堆栈跟踪格式 |
| 1.1.9 | 2022-06-17 | #13753 | 弃用并删除基于 StreamTransferManager 的连接器中的 PART_SIZE_MB 字段 |
| 1.1.8 | 2022-06-07 | #13579 | 始终检查 GCS 存储桶,以针对 GCS 加载方法捕获无效的 HMAC 密钥。 |
| 1.1.7 | 2022-06-07 | #13424 | 重新排序了规范中的字段。 |
| 1.1.6 | 2022-05-15 | #12768 | 明确服务帐户密钥 json 字段在云端是必需的。 |
| 1.1.5 | 2022-05-12 | #12805 | 更新到最新的 base-java,以便在发生错误时发出 AirbyteTraceMessage。 |
| 1.1.4 | 2022-05-04 | #12578 | 在 JSON 到 Avro 转换中,记录不遵循 Avro 模式的 JSON 字段值以进行调试。 |
| 1.1.3 | 2022-05-02 | #12528 | 更新了数据集位置字段描述 |
| 1.1.2 | 2022-04-29 | #12477 | 数据集位置是一个必需字段 |
| 1.1.1 | 2022-04-15 | #12068 | 修复了 GCS 存储桶条件绑定的错误 |
| 1.1.0 | 2022-04-06 | #11776 | 使用序列化缓冲策略以减少内存消耗。 |
| 1.0.2 | 2022-03-30 | #11620 | 更新了规范 |
| 1.0.1 | 2022-03-24 | #11350 | 改进了检查性能 |
| 1.0.0 | 2022-03-18 | #11238 | 更新了规范和文档 |
| 0.6.12 | 2022-03-18 | #10793 | 修复了包含无效字符的命名空间 |
| 0.6.11 | 2022-03-03 | #10755 | 确保杀死子线程并停止 JVM |
| 0.6.8 | 2022-02-14 | #10256 | 添加 -XX:+ExitOnOutOfMemoryError JVM 选项 |
| 0.6.6 | 2022-02-01 | #9959 | 修复了缓冲流消费者中的空指针异常。 |
| 0.6.6 | 2022-01-29 | #9745 | 与 Sentry 集成。 |
| 0.6.5 | 2022-01-18 | #9573 | BigQuery 目标:更新某些输入字段的描述 |
| 0.6.4 | 2022-01-17 | #8383 | 支持数据集 ID 前缀为项目 ID |
| 0.6.3 | 2022-01-12 | #9415 | BigQuery 目标:修复 Facebook 数据的 GCS 处理 |
| 0.6.2 | 2022-01-10 | #9121 | 修复了 GCS 模式的检查方法,以验证是否已向用户分配所有角色 |
| 0.6.1 | 2021-12-22 | #9039 | 为 GCS 暂存添加了 part_size 配置到 UI |
| 0.6.0 | 2021-12-17 | #8788 | BigQuery/BiqQuery denorm 目标:添加使用不同类型 GCS 文件的可能性 |
| 0.5.1 | 2021-12-16 | #8816 | 更新数据集位置 |
| 0.5.0 | 2021-10-26 | #7240 | 输出分区/聚类表 |
| 0.4.1 | 2021-10-04 | #6733 | 支持以数字开头的 Dataset |
| 0.4.0 | 2021-08-26 | #5296 | 添加了 GCS 暂存上传选项 |
| 0.3.12 | 2021-08-03 | #3549 | 添加可选参数,以使更改 BigQuery 客户端的块/缓冲区大小成为可能 |
| 0.3.11 | 2021-07-30 | #5125 | 启用 spec.json 中的 additionalPropertities |
| 0.3.10 | 2021-07-28 | #3549 | 添加了扩展日志,并使 JobId 填充了区域和项目 ID |
| 0.3.9 | 2021-07-28 | #5026 | 添加了原始表中清理后的 json 字段,以处理列名中的引号 |
| 0.3.6 | 2021-06-18 | #3947 | 服务帐户凭证现在是可选的。 |
| 0.3.4 | 2021-06-07 | #3277 | 添加数据集位置选项 |