许多Teradata客户都有兴趣将Teradata Vantage与Amazon AWS First Party Services集成。本入门指南将帮助您将Teradata Vantage与AWS Kinesis服务连接起来。
尽管这种方法已经在内部实施和测试,但它是按现有状况提供的。AWS和Teradata均不提供通过AWS服务提供Teradata Vantage的验证。
我们鼓励您提供反馈。我们希望了解您认为有用的内容以及我们如何改进本指南。
请将您的反馈发送给shamira.joshua@teradata.com和wenjie.tehan@teradata.com。
免责声明:本指南包含AWS和Teradata产品文档中的内容。
概述
AWS Kinesis是一项流式处理服务,可让您轻松收集、处理和分析实时流式处理数据。
Kinesis流数据平台提供Kinesis Data Streams、Kinesis Data Firehose、Kinesis Data Analytics和Kinesis Video Streams。Kinesis Data Streams是手动管理的,可以在流中存储数据长达七天,在此期间可以对数据进行转换。Kinesis Firehose是完全托管的,它收集数据并将其存储在Amazon S3、Redshift、Splunk和Elasticsearch中。Kinesis视频流用于流式传输实时视频,Kinesis Data Analytics可以使用标准SQL处理和分析流数据。
借助Teradata Vantage本地对象存储(NOS),用户可以使用标准SQL和ODBC、JDBC、.NET、Python和R原生驱动程序等应用程序接口,轻松地探索Amazon S3等外部对象存储中的数据。使用NOS不需要特殊的对象存储端计算基础结构。您只需创建NOS表定义即可指向您有权访问的存储桶,从而浏览位于Amazon S3存储桶中的数据。
本指南介绍了通过AWS Kinesis Firehose将数据从源流式传输到Amazon S3的过程,通过AWS Glue ETL作业将其转换为JSON格式,然后使用Teradata NOS访问Amazon S3中的数据。还创建了Lambda函数和CloudWatch事件规则,以自动执行整个过程。
先决条件
您需要熟悉AWS Kinesis、Lambda、CloudWatch服务和Teradata Vantage。
您将需要以下帐户和系统:
• AWS账户
• 一个采用SQLE 17.0+的Teradata Vantage实例
• 用于存储流数据的Amazon S3存储桶
• 用于存储JSON文件的Amazon S3存储桶
• 允许Glue爬网程序、ETL和Lambda服务的IAM角色
• AccessKeyId和SecretAccessKey
开始
创建Amazon S3存储桶
可以使用此处的说明创建Amazon S3存储桶。在此示例中需要两个存储桶:一个用于存储流数据(即ptctstoutput),另一个用于在转换后存储JSON文件(即awspilbucket)。
创建IAM角色
AWS服务要求您使用不同角色来允许服务代表您访问其他服务中的资源。在此示例中,需要三个角色——Kinesis Firehose的角色、Glue的角色和Lambda的角色。
Kinesis Firehose角色将随时创建。以下说明为Glue和Lambda服务创建角色。
创建消防水带输送系统






创建胶水 ETL 转换作业





使用 NOS 访问流数据



创建 Lambda 函数、触发器和 CloudWatch 事件







跑


连续 20 年:被公认为数据分析领域的领导者
随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解