亚马逊网络服务的maian Tomsen Bukovec正在为一个数据永远存在的未来做准备

导读 从管理硬件的负担中解脱出来是公司将其技术基础设施转移到云计算的主要原因之一。但是,既然计算和存储是分别购买和管理的,那么消除这一负担也开启了新的可能性。 Amazon Web Services S3数据存储服务副总裁兼总经理Mai-Lan Tomsen Bukovec上周在贝尔维乌举行的2019年GeekWire云峰会上说,这是向云计算的转变带来的最激动人心的发展之一。独立扩展计算和存储的能力,而

从管理硬件的负担中解脱出来是公司将其技术基础设施转移到云计算的主要原因之一。但是,既然计算和存储是分别购买和管理的,那么消除这一负担也开启了新的可能性。

Amazon Web Services S3数据存储服务副总裁兼总经理Mai-Lan Tomsen Bukovec上周在贝尔维乌举行的2019年GeekWire云峰会上说,这是向云计算的转变带来的最激动人心的发展之一。独立扩展计算和存储的能力,而不是每年为自己的数据中心购买更大、更强大的盒子,即使你只需要升级其中的一个,允许公司更仔细地花钱,并围绕这一现实设计新的应用程序。

但是,新接触云的公司通常需要帮助了解如何利用这种自由,他们也需要帮助了解如何管理他们的数据在云上的安全性。与所有云公司一样,AWS在安全方面使用“共享责任”模型,这意味着客户需要确保他们使用S3等存储服务提供的安全工具。

我们在会议期间讨论了这些主题和更多内容,这是云峰会上美好一天的一部分。下面是我们对话的文字记录,稍作编辑。

GeekWire云和企业编辑汤姆Krazit:宣布微软后(约其女性在云计划),我在想如果你能谈谈如何在云计算和女性的机会科技行业一般来说,改变了对时间你一直在这个行业工作。还有什么需要做的?

迈兰·托姆森·布科维茨:我认为我们在女性科技领域已经取得了一些进步,主要是在教育方面,汤姆。如果你想想本科生和研究生的计算机科学毕业班,现在许多主要的技术学院的毕业班大约有一半是女性。

卡内基梅隆大学:非常棒的大学,而且他们有非常棒的科技项目。她们的毕业率稳定在50%甚至更高。所以,如果我想想我们在教育方面所取得的进步,那真是太了不起了。如果我想一下我们在高中教育和初中教育上取得的进步,其实也很不错。对STEM活动的大量关注已经产生了很大的影响。

AWS也认识到了这一点。我们有一个名为AWS教育的项目,在世界各地举办14岁以上的活动。我们要么与韩国的一所女子技术大学合作,要么与菲律宾的年轻人合作,举办黑客松活动,举办竞赛,开展各种云技能教育。因为我们知道,为了改变人口结构,为了增加技术劳动力的多样性,你必须尽早开始。你必须从中学开始,然后再继续。

汤姆,我认为,作为一个行业,我们真正需要做得更好的地方,是那些女性在开始组建家庭时经历的转变,例如。我们让这些女性直接从学校毕业,因为学校在争取平等方面做得很好。

但当他们有了第一个孩子,我们这个行业如何更欢迎新父母?我说的不只是女人。我也说男人。对我来说,这又回到了这个房间里每个人的行为,你和我。

当我们回来看到有人休完陪产假或产假回来他们没有得到足够的睡眠,他们回到工作中他们想要摆脱困境?一个简单的动作,比如“欢迎回来”,就能起到很大的作用。

很多都是文化上的。根据我在亚马逊的经验,我们当然相信这一点,但在场的每一个人都可以帮助建立这样一种文化,不仅欢迎新妈妈,也欢迎新父母重返工作岗位。帮助他们度过我们认为的生命过渡阶段。

Tom Krazit:是的,我认为这也会促进整个科技行业的发展。

我想是的。

汤姆·克拉兹特:让我们来谈谈今天的话题。凯文(斯科特,微软首席技术官)在他的演讲中提到了这一点,但是他谈到了与10年前相比,现在生成的海量数据。我昨晚查了一个估计,到2020年,地球上所有人将产生44兆字节的数据。在座的各位,如果没有帮助,像我一样数不过来的人,一泽字节是一万亿字节。我做对了吗?(Mai-Lan点点头。)

好吧。这些数据从何而来,我们将如何处理?

是的,我认为这是令人惊奇的观看。真的,我认为我们所看到的数据的增长和爆炸是由数据来源的爆炸所驱动的。

你有物联网传感器:约翰迪尔(John Deere)的拖拉机正在把有关田间情况的物联网数据发回云端,存储在S3中,然后在此基础上运行分析。你有人类基因组测序,这是一个非常有趣的领域,(而且)由于云存储的成本,它正在爆炸。

例如,在S3中,我们有一个客户,HLI,它是人类寿命公司,他们的任务是测序100万个人类基因组。现在一个基因组有了所有你需要建立和维持一个有机体的信息。如果你对人类基因组进行排序,那就是100g的数据。这是原始数据,没有注释,没有显型来源,没有类似的东西。如果你只是从每个人类基因组100g的数据开始,你从那里开始,你可以看到像医学研究和基因组测序本身是如何推动你所谈论的一些体积。

但自动驾驶汽车的名单还在继续。每次自动驾驶汽车回来停车时,都会上传大量的数据。这些数据对于安全,分析,以及各种各样的事情都是必要和重要的。说实话,我想我们才刚刚开始,汤姆。我们谈论的是数据爆炸,你们谈论的数字。但实际上,随着这些数据来源的增加,不仅是在美国或欧洲,而且是在整个东南亚和东亚,并走向全球,这是一个惊人的数据量。

汤姆·克拉兹特:人们是如何改变处理这些数据的方式的?我的意思是,我们不只是把这些(数据)扔到磁带驱动器上,然后把它扔到某个地方的壁橱里,然后再把它忘掉。我的意思是,与你的数据有更积极的关系。根据您的经验,当人们在业务中生成越来越多的数据时,他们希望做什么?

迈兰·托姆森·布科维茨:我认为我们现在看到了一些非常有趣的趋势。我认为我们现在看到的一个趋势是,客户现在能够,特别是像S3这样的云技术,他们能够分离计算和存储。这是一个非常基本的概念。因为如果你能把你的计算和存储分开,你就能独立地扩展它们。

我们现在讨论的数据爆炸,数据爆炸可以弹性增长,这是我们为S3所做的,我们是专门为弹性尺度设计的。它可以弹性增长,然后根据你今天的计算需要,不管是分析还是别的什么,你都可以构建它。但是您可以将计算应用程序的构建与存储本身的增长分开。

我们发现,顾客确实喜欢把它看作两个不同的模型。因为到最后,他们不知道10年后他们要构建的计算应用程序会是什么样子。但是他们想要确保有足够的数据让他们去做。机器学习就是一个很好的例子。

我们有很多客户说,“今天我需要分析。今天,我需要在我的数据腿上进行某种类型的日志潜水。但我想在一年内学习机器学习,我需要知道我的数据在那里。“我认为计算机和存储的分离是客户想要的。

另一件事是,我们的客户有exabyte的存储空间。我们发现,在我们的存储系统中建立能力是非常重要的,它能让你同样轻松地管理1tb或1tb的存储。因此,当数据爆炸时,你如何确保你的能力的简单性在进化,这样数据的增长并不意味着管理它的额外复杂性?

Tom Krazit:是什么使计算和数据分离?这是怎么发生的?

答:嗯,我认为云的本质就是这个想法……当然,对于AWS来说,当我们想到它时,我们想到的是专门构建的系统。我们现在有超过140种不同的服务。的一件事,我们发现,当我们建立一个特定的服务,擅长的东西- S3是擅长存储数据的表的股权,这是安全、耐用性、可用性、可靠性和性能,这是一个持续发展的核心竞争力。

我认为,客户发现他们也有自己的核心竞争力。当他们能够将存储的增长与他们在计算方面的业务逻辑分离开来时,他们就能够更快地迭代,更快地创新,也能够进行实验,这是AWS的核心。他们能够尝试新事物,并在一个行业中真正成名。

我们有很多这样的例子。Airbnb在旅游方面,有很多这样的网站。但真正的核心是这种分离让公司做他们想做的事,即创新未来的新模式,使他们在自己的领域成为长期的业务。

汤姆·克拉兹特:人们想用我们今天无法做到的数据做什么?我想,如果客户想用他们的数据做一些事情,但是没有技术,或者业务模型不正确,他们会有什么要求呢?你发现了什么?

maio - lan Tomsen Bukovec:我们很少听到客户不能用他们的数据做什么。我想我们听到的是很多客户来找我们,他们说,“我想用我的数据做这件事。”

当我们想到这一点时,你可能听说过,顾客至上是我们的基因。

汤姆:我听说了。

我给你举个例子。数字地球收集并提供卫星图像。数字地球几年前就出现了。他们说,看,我有18年的卫星图像档案,有100拍字节。我不想构建一个将所有数据上传到S3的应用程序,我该怎么办?”

所以我们造了雪地摩托,我们造了一辆卡车,一辆数据卡车,如果你愿意的话。数据车,数据车的第一批客户之一,数字地球有一个很好的博客和图片。我们开车到数字地球的数据中心,把卡车连接起来,我们把他们需要的所有数据放到卡车上,然后我们把数据带到他们真正想要的AWS地区。

这种想法或模式在存储、计算、数据库或机器学习中不断重复。客户会来找我们说,“我想做这个。我们怎么做呢?“真正有趣的事情之一是,你已经看到了,在云端工作,现在可能性的精神非常强大。原因是所有这些技术都在飞速发展,只要你用心去做,你几乎可以做任何你想做的事情,你可以为它建立专门的应用程序。

汤姆·克拉兹特:如果人们想把他们的数据转移到另一个地方,你会把那辆卡车开到你的数据中心吗?

迈兰·托姆森·布科维茨:我们现在没有。

汤姆:也许有一天。让我们来谈谈存储桶,因为我觉得这是我听到人们谈论S3时经常提到的一件事。你们大多数人可能都见过这样的故事,不幸的或疏忽的人把他们的存储桶放在S3上,在互联网上发现,导致客户数据或个人数据被破坏。我知道AWS已经做了很多来帮助人们处理这个问题,但是它还在继续发生。首先,为什么人们总是把桶开着?你还能做些什么来帮助他们呢?

迈兰·托姆森·布科维茨:我认为这是一个艰难的情况下的客户,当他们进入那个位置。我觉得如果你思考一下我们的安全模型,当我们设计的时候,我们从头开始设计安全。我们在共享责任模型中操作,AWS负责主机操作系统和虚拟化层,一直到数据中心的物理资产。客户负责使用工具并应用适合其应用程序的权限。

因此,当我们在13年前创建S3时,我们开始并继续维护当您第一次创建bucket时,它被锁定为只有该帐户的所有者。今天这是真的。你去建一个桶,唯一能进去的人就是你自己。

随着时间的推移,会发生的情况是,客户让其他人进来,可能会修改权限。有时他们会修改权限,把权限放在别人可以做你说的地方。虽然我们知道这是一个共同的责任模式,但我们也在做很多事情来帮助客户。

例如,去年年底我们构建了一个称为块公共访问的功能。我们建立这个的原因是我们希望每个人,每个人除了那些做基于网络的资产的人他们需要为他们的应用程序,每个人都应该使用block公共访问。每一个人。这样做的原因是,当您将块公共访问放在帐户级别时,您现在和将来都将锁定该帐户中每个S3资源、对象和bucket的所有公共访问。

这是非常强大的。这是任何云存储中惟一允许您这样做的功能。这是未来的打样。这意味着在该帐户所有权下创建的任何bucket或对象都不会具有公共访问权限。

这是我们在S3中构建的一种帮助客户的功能。这是一个控制。但我们也有像CloudTrail这样的服务,它可以监控访问。我们还有Amazon Macie,这是一个机器学习驱动的服务,可以查找个人身份信息或知识产权。我们在资源层为S3建立了整个生态系统,并提供其他服务,以帮助客户使用它。但是在一天结束时,应用程序开发人员必须了解权限并为其应用程序适当地应用它们。

汤姆·克拉兹特:为什么人们总是让这些桶开着?需要这种访问的应用程序类型或业务类型是什么?

maio - lan Tomsen Bukovec:嗯,刚开始的时候,我们出去和很多客户谈过。因为我们说,“看,我们有所有这些能力来控制你的权限。这是怎么回事?“我们发现了一些东西。

一个是我们发现,随着越来越多的公司采用云存储,存储桶的所有权开始在不同的组之间共享。有人可能会想到暂时开放bucket权限来交换文件,来回共享文件。当我们听到这个消息时,我们构建了SFTP。是的,这是真的。这是一个老的,但好吃。至少是SFTP。我们建立了一整套服务,致力于帮助客户更安全地传输文件。那是我们去年或前年推出的,非常受欢迎。

所以文件交换是一个原因。然后人们有时会忘记更改它的权限。另一个是,可能你会有一个承包商或者其他不属于公司的人进来可能他们不理解许可模式。这是我们建立block public access的主要原因之一,因为我们认为它是一种控制。如果它是你的bucket和storage,不管谁在上面工作,你都要应用一个控件。

因此,我们将继续沿着构建更多控件的道路前进,就像我们构建审计服务,如CloudTrail,或分析服务,如Macie。但是在一天结束的时候,很多问题又回到了客户对“我想要的数据安全性是什么,它是否合适?”的理解上。

汤姆·克拉兹特:感觉这一切都源于移民。刚接触云计算的人不一定了解最佳操作方式或最安全的操作方式。但是,随着越来越多的不熟悉云的公司迁移到it,您在考虑哪些事情来帮助他们进行迁移并保持数据安全呢?

mike - lan Tomsen Bukovec:对AWS来说,安全是第一项工作,就像对我们所有的客户一样。它的工作。你问任何一个CIO, CEO,他们都会告诉你这个。最重要的是,如果你要存储客户数据,你必须保护它。

我们已经建立了良好的基础。在S3中存储数据的每个服务默认都有加密选项。默认或作为客户的选项。我们将继续在安全领域建立更多的服务,让人们可以进行这种类型的控制。我认为,我在与处于云之旅开始阶段的客户打交道时看到的一件事是,我认为非常有用的一件事是,当您为云迁移的第一步进行架构时。

我将告诉你,发生的一件事是,当一些公司的安全办公室坐下,开始真正学习和在AWS打破所有的安全模型,实际发生的一件事就是安全办公室最终被云计算项目的冠军。而不是担心或反复检查的人。

当他们深刻理解AWS安全的深度时,它实际上会对您的云计算之旅产生相当大的变革。因为他们可以在迁移到云的所有不同组和不同应用程序之间设置控制。它消除了摩擦力。因为每一个不同的组都需要考虑它。

如果建立一个中心模型,因为安全办公室说这是放置数据最安全的地方,就像Capital One那样。Capital One对AWS的安全性进行了分析,并表示:“你比我们更安全地运行你的数据中心。所以我们把一切都压在你身上。“这是一种真正能释放迁移速度的东西,但也消除了所有不同应用程序之间的摩擦。”提前想好,把它当作适用于整个公司的东西,这样你就可以同时得到这些好处。

汤姆·克拉兹特:如果你展望存储技术的未来,我觉得存储技术有一点不好的名声。这种进步的方式并不一定是摩尔定律。但很明显,你在想办法,你在做的事情,你认为会给未来的客户带来突破性的存储收益。你在看什么?你认为这些将如何实施?

maio - lan Tomsen Bukovec:嗯,我认为有两个部分。一个是汤姆,回到这个概念,存储和计算的分离。

我们有一整套的计划,使得在规模上管理存储变得更容易,因为我们看到的是exabytes和exabytes的存储。我发现,我们考虑在那里建造什么东西的很多方式实际上都是由客户的需求决定的。例如,客户希望在将存储从一个区域复制到另一个区域方面具有更大的灵活性。因此,您将看到更多关于复制来自AWS的任何存储类的功能。

我认为另一个主要的创新领域是;这是你在其他云存储提供商中看不到的。我认为S3的一个特点是,我们已经有13年的历史了,我们与很多客户合作过,我们听说过很多关于他们的发展方向。就像你之前说的,“他,我想做这个。我怎么去那儿?“我们现在真正创新的地方是将计算能力引入存储领域。

我们在客户应用程序和客户数据方面讨论了计算和存储的分离。但我们所观察到的是,有些特定类型的计算是客户反复对其存储进行的。

汤姆:比如?

我给你举个例子。几年前,我们发现数据湖的很多客户,例如,正在提取大量的存储空间,数以百计的拍字节,以便过滤掉他们想要分析的数据的10%。本质上,他们把钱花在计算集群上以进行过滤。因此,几年前,我们发布了一个S3 API,称为S3 Select,这是一个本机S3 API,允许您在对象存储API中使用SQL语句过滤对象,以(本机)带回您需要的东西。

如果你有一个Apache Parquet文件对象,你可以使用S3 API从该对象的列中拉回数据。它非常强大。这是将计算从集群转移到S3的一个方面。所以我们为你做计算,或者我们为你提取数据然后我们把它作为检索的一部分带回来存储。

我们做这件事的另一种方式是,今年我们基本上推出了一批。我们称之为批量操作。在S3上的批处理引擎,您可以在服务中在S3上运行批处理作业,而不必自己支付任何计算费用。执行诸如设置aql、复制存储或运行Lambda函数等操作。如果您考虑到这一点,您将在S3上运行Lambda函数作为S3操作的一部分。而不是自己付钱。这是非常强大的。

Tom Krazit:这是一件值得思考的有趣的事情。serverless会改变数据的等式吗?如果你从函数和事件的角度来考虑serverless,我的意思是很明显,它会生成大量的数据。这会导致数据存储需求的指数级增长吗?

maii - lan Tomsen Bukovec:是的,我认为serverless真正有趣的地方是,我不知道它是否对存储的增长有很大的影响。它对用法有很大的影响。因为serverless让你做的是实验。它允许您构建与业务工作流连接的应用程序,并且允许您以您以前可能想不到的方式利用您的存储。很多这样的容器和服务器,其他形式的计算都是基于相同的数据湖原理,人们在此基础上构建他们的下一代应用程序。

Tom Krazit:人们在S3上使用数据的方式最让您感到惊讶的是什么?比如,“我不敢相信A客户会那么做。有什么事情是亚马逊甚至没有想到的,然后看到一个客户想要沿着这些路线做一些事情,然后说,“哇!”这真的很有趣。”

我觉得每天都是这样。在AWS上工作非常有趣,因为我们有这么多不同类型的客户在做这么多不同类型的事情。我要告诉你一件几年前让我吃惊的事。然后我再举一个最近的例子。

几年前,作为美国证券交易所的监管机构,FINRA的使命是成为消费者的监督者。它是为了寻找在美国各地股票市场的日常交易中存在的欺诈行为。他们做得非常好的一件事是,他们在几年前的发展中很早就意识到,他们将重新架构他们的关键任务应用程序。

这将使您感到惊讶,有多少公司首先开始使用他们的关键任务应用程序。他们不会从一个更小的应用开始,在一些部门作为实验。他们从主应用程序开始因为他们意识到主应用程序将得到最大的好处。他们的任务需要AWS云所提供的好处。

现在,FINRA每天对超过5000亿笔股票交易进行验证。所有的操作都在S3和EMR中进行,因为他们很早就做了这样的决定。我一直对这些公司的创新能力和领导能力感到惊讶很多公司都将关键任务应用到云上。

最近,我认为一些真正有趣的用例是关于机器学习的。人们把数据放在S3中,有些人现在在做机器学习,有些人想在一年后做机器学习。但是Marinus Analytics是一家位于波士顿的公司,他们制造人工智能工具。他们现在正在做的是运行Amazon reko,这是一个图像识别机器学习服务,将图像存储在S3中以帮助识别和找到人口贩卖的受害者。

像这样的故事,像人类基因组排序的故事,以及这对预防性医疗意味着什么。这对我来说是非常鼓舞人心的。因为它不仅仅是关于技术,它是关于把技术和人类结合在一起,使人类的条件变得更好。汤姆,我是和平队的,我以前是和平队的志愿者。我认为这是当今科技的一大进步。

汤姆·克拉兹特:我敢肯定,有很多客户对这些未来的可能性感到非常兴奋。另一类顾客会说,“我想要更便宜的。“当我们谈论数据爆炸,当我们谈论将被吸收的所有数据时,你对此有何看法?这会让顾客付出一些代价。随着时间的推移,价格将如何适应这种数据爆炸?

不管客户的目标是什么,我想说的是,对我们所有的客户来说,成本是第一位的。现在,我们有时看到客户最初来到AWS,是因为他们被较低的成本所吸引。然后他们发现敏捷的好处。

但说到底,成本很重要。当数据增长时,成本就变得很重要。我想你会继续看到越来越多的低成本存储的选择。

我们在今年早些时候推出了Deep Archive。深度存档每个月的存储空间不到0.1美分。正是这种价格点让人们想,“为什么我要删除我的数据?”

当我们推出Deep Archive的时候,有很多客户来找我们说,“在这个价位,我不会删除。”因为我要做的就是把它保留下来。它比磁带便宜,比磁带好。我只会在需要的时候使用S3 API。我可以把它放在我的数据湖中。我只是不会删除它。”

我认为你会发现最低成本的价格点,就像深度存档,将会改变人们对数据湖的演变的看法,以及他们在未来可以做什么应用,并保持开放的大门,因为他们不必删除。他们的指尖有活动的东西,不再被锁在磁带里。