Amazon正式发布Textract

在最近的一则新闻中，Amazon 宣布正式发布Amazon Textract，这是一种完全托管的、基于机器学习的服务，它可以从文本和结构化文档数据中提取内容。使用 Amazon Textract，客户能以自动化的方式处理文档工作流、索引和目录等重要信息，以便在下游应用程序中使用这些信息。该服务能够在几小时内处理完数百万个文档页面。

Amazon 正寻求将智能文档提取业务推向更大众的市场，以获取更丰富的商业成果。Amazon 主管机器学习的副总裁Swami Sivasubramanian解释：

Amazon Textract 的强大之处在于，它可以从几乎任何文档中精确地提取文本和结构化数据，而不需要任何机器学习经验。除了与其他 AWS 服务的集成之外，围绕 Amazon Textract 进行开发的多方合作社区，能使客户从他们的文件集合中获得更多的实际意义、更高效的操作、更安全合规、更多自动化数据输入和更快速的商业决策。

Amazon Textract 在识别关键字段或内容方面，超越了传统的光学字符识别（OCR）技术。而与之不同的是，可以使用 Textract API 来提取 PDF、图像、文本和表格等多种文件格式，然后再传递给Amazon Comprehend、Amazon Comprehend Medical和Amazon Translate，以更智能的方式提取内容。

从 Textract 提取的数据采用 JSON 格式，包括诸如页码、节、标签和数据类型等元数据。之后，内容和元数据都可以加载到数据库和数据分析服务中，包括 Amazon Elasticsearch Service、 Amazon DynamoDB和Amazon Athena，供会计、审计和合规性审核等领域的其他应用程序使用。

为了衡量数据提取过程的准确性，Textract 为它识别出来的每个数据属性返回一个以百分比表示的置信值。这让开发人员可以为不准确之处做出标记，并将此信息传递给他人执行进一步验证。此外，还提供了边界框坐标定位，以确定数据具体是从何处提取的。

Amazon 已经拥有一些使用 Textract 服务的客户，包括普华永道（PwC）、Healthfirst、Informed Inc、UiPath 和《环球邮报》等公司。《环球邮报》利用 Textract 提高了其记者的工作效率，并从他们此前并未得到充分利用的庞大数据集中，发挥了更大优势。《环球邮报》数字和数据科学的董事总经理 Michael O’Neill 解释：

作为一家新闻媒体公司，我们依赖于大量 PDF 文件或来源于扫描的文件，比如 FOI（信息自由请求），这些文件的重要信息包含在我们以前无法访问的表格中。这些文件没有得到充分利用，因为记者无法轻松访问这些信息，甚至不知道它们的存在。通过使用 Amazon Textract，我们能够从 PDF 格式的表格中提取信息，并轻松地将数据输出到 CSV 中，这样记者就可以对这些文档进行搜索查询，从而轻松便捷地访问这些文档。这使我们的记者获取信息的效率提高了十倍。

标签： Amazon 人工智能

Amazon正式发布Textract

相关文章

ChatGPT 在您所在的国家/地区不可用

索尼新专利：使用AI为PS5玩家推荐武器装备

PornHub 用 AI 将老黄片升级为彩色 4K

Written by

GFW VPN

Supported by