我们生活在一个充满文件的世界。这是一。
我们创建了很多文档。这是我做的。
这是众多的其中之一;从1990年代到今天充满了写作的硬盘。
但是,如果您要问我如何构造这些发票以及我发送给客户的发票,我将不得不进行搜索以查找所需的内容。我当然无法列出我涵盖的所有主题,已审查的应用程序和硬件,已撰写的报告,已签订的合同的列表。它们就是我们所认为的“暗数据”,只是存在于其中的非结构化内容,静态数据填充了PC上的闪存以及一两个云中的静态数据。
XML的创建者之一让·鲍利(Jean Paoli)如今正在思考大量暗数据,实际上是自两年前离开微软以来。这种想法的结果以及他在Docugami的联合创始人的结果开始浮出水面,因为这家隐身的初创公司慢慢揭露了将文档专家与机器学习融合在一起的团队的工作方式。
他称问题为“文档功能障碍”,即企业创建和使用的文件和单词的混乱。这个问题会影响我们文件的质量以及文件的一致性,并且使我们面临无法遵守法规的风险。这不是故意的,只是我们的业务和PC上存在大量非结构化数据。
该问题的一部分是规模问题,Paoli指出,全球绝大多数企业是中小型组织,它们没有资源或工具来构建大型企业使用的庞大企业内容管理工具公司,当然也没有时间构建模板和形成工具来自动构建常用文档。
Paoli对文档功能障碍问题的评估令人沮丧,他估计有85%的企业数据埋藏在电子邮件,Slack和Teams等工具以及数十亿个临时文档中。尽管我们可以将计算投入到云托管的数据湖中,但这个问题只会变得越来越糟。在2008年金融崩溃的文件灾难中,银行已经不知道谁拥有抵押贷款以及合同的结构如何,我们已经看到了它会变得多么糟糕。在住院后复杂的出院过程中也很容易看到,那里的药物和处方很容易丢失。
正如Paoli指出的那样,尽管文档是为人类编写的,但它们需要计算机才能理解。我们试图构建一种系统,使人们可以使用描述性标记来构建计算机可读文档,但是它们相对不灵活,只能处理一组有限的用例,否则它们很复杂,需要手动标记现有的内容。我们需要一种解决问题的新方法,该方法使用计算机作为辅助技术,帮助我们编写通用文档。
公司名称为Paoli的团队计划如何解决问题提供了一些线索。“文件”的portmanteau和日本的剪纸,kirigami和折纸,折纸艺术。少数客户正在使用Docugami工具的非常早期的版本,但仍需要六到九个月的公开测试版。
Paoli并没有找到索引和存储那些非结构化文档的更好方法,而是在研究使用AI技术构造可重用文档的创建通用文档的新方法。正如他说的那样:“我们从重复中脱颖而出,您可以使用这五分钟来增加创造力。”
他提出的一个重要观点是,这是一个他称之为“小数据”的世界。大数据的数量级约为TB,而不是50左右的合同或NDA。Paoli认为,小型团队需要小型算法,即他们自己的机器学习模型。对于他们来说,这实际上是必不可少的,因为不仅最低公分母方法不可靠,而且它们可能是信息泄漏的媒介。如果一个模型是您自己的,那么它可以是安全的,并且攻击者无法使用它来推断您的文档结构。
如果要使这样的事情成功,它还需要在几个关键约束内进行操作:它不需要昂贵的顾问来工作,并且运行成本也不昂贵。保利将自己可能的听众描述为个人和小团队,例如公安辩护人(拥有太多文件和太多表格以致无法有效地管理案件),以及大型企业。
那么,为什么现在,当我们在过去几十年中多次尝试提出这种想法时呢?Paoli认为这是接受云的关键,这意味着企业可以轻松地选择一种新工具,该工具可以利用云计算来比本地软件和硬件更快,更准确地交付结果。
SEE:传感器的企业:物联网,机器学习和大数据(ZDNet特别报告)| 以PDF格式下载报告(TechRepublic)
Docugami团队无疑非常适合手头的任务,它有一个来自Office和Windows的应用程序开发团队(包括Microsoft表单管理工具InfoPath的许多原始创建者),还有一个纯科学团队,将XML和机器混合在一起,学习技能以及人机/机器学习界面。这是处理文档,将自然语言处理和进化式机器学习技能与深厚的企业历史相结合的一种有趣的方法。
由于尚需一段时间才能发布公开测试版,而且许多技术细节仍处于秘密状态,因此观看Paoli和他的团队提出的建议将很有趣。
我们生活在一个充满文件的世界。
很快,这可能是一台机器帮助我制造的机器。