根据麻省理工学院和密歇根州立大学的一篇新论文,一个新的自动化机器学习系统可以分析数据,并提出一个比人类快100倍的解决方案。这可能有助于企业以更快、更容易的方式利用机器学习的能力,同时也填补数据科学人才缺口。
据TechRepublic的姊妹网站ZDNet报道,该系统还可能成为企业机器学习应用的转折点,预计2018年将翻一番。
当寻找一个问题的解决方案时,数据科学家必须涉猎庞大的数据集,并选择他们认为最有效的建模技术。问题是,有数以百计的技术可供选择,包括神经网络和支持向量机,而选择最佳的技术可能意味着数百万美元的广告收入或零收入之间的差额,或者是否发现医疗设备的缺陷。
麻省理工学院和密歇根州立大学的研究人员最近在IEEE国际大数据会议上发表了一篇名为“自动调模型(ATM)”的论文,展示了一个新的自动化系统如何比人类更好地选择建模技术。
根据麻省理工学院新闻的一篇文章,atm使用基于云的按需计算来执行高吞吐量搜索,并为给定的问题寻找最佳的建模技术。系统还调整模型的超参数,或指定如何训练模型的值,以获得最佳结果。
研究人员通过协作众包平台Open-ml.org对该系统进行了测试,数据科学家在该平台上共同努力解决问题。ATM分析了来自该平台的371个数据集。研究人员发现,该系统能够找到比人类30%的时间更好的解决方案。
自动取款机的工作速度也比人类快得多:人类开放式ml用户平均需要200天才能交付解决方案,而自动取款机只需不到一天就能创建出性能更好的模型。
密歇根州立大学计算机科学与工程系教授阿伦·罗斯(Arun Ross)在接受麻省理工学院新闻(MIT News)采访时表示,自动取款机可以增强数据科学家的工作,为他们选择合适的模型提供更多的安全感。他是密歇根州立大学计算机科学与工程系的教授。
“有这么多的选择,”罗斯告诉麻省理工学院新闻。“如果一位数据科学家选择支持向量机作为一种建模技术,那么她是否应该选择一个神经网络来获得更好的准确性,这个问题一直萦绕在她的脑海中。”
自动取款机通过并行测试数千个模型来进行搜索,评估每个模型,并将更多的计算资源分配给最适合问题的模型。然后,该系统将其结果显示为分布,因此研究人员可以比较不同的方法。罗斯对麻省理工学院新闻说,因此,它并不是试图将人类从这个过程中自动化出来。
研究人员指出,通过自动化简化模型选择过程,可以让数据科学家对问题中更复杂的部分进行研究。他说:“我们希望我们的体系能够自由
专家们要花更多的时间在数据理解、问题制定和特点上
麻省理工学院信息与决策系统实验室的主要研究科学家、该论文的合著者卡利扬·韦拉马沙尼告诉麻省理工学院新闻。
目前,ATM作为一个开源平台可供企业使用。它可以在单机、本地计算集群或云中的按需集群上运行,并且可以使用
麻省理工学院指出,多个数据集和多个用户同时存在。Veeramachaneni告诉麻省理工学院新闻,“一个中小型数据科学团队可以仅仅几步就建立并开始制作模型。