在最近的一则新闻中,Amazon 宣布正式发布Amazon Textract,这是一种完全托管的、基于机器学习的服务,它可以从文本和结构化文档数据中提取内容。使用 Amazon Textract,客户能以自动化的方式处理文档工作流、索引和目录等重要信息,以便在下游应用程序中使用这些信息。该服务能够在几小时内处理完数百万个文档页面。
Amazon 正寻求将智能文档提取业务推向更大众的市场,以获取更丰富的商业成果。Amazon 主管机器学习的副总裁Swami Sivasubramanian解释:
Amazon Textract 的强大之处在于,它可以从几乎任何文档中精确地提取文本和结构化数据,而不需要任何机器学习经验。除了与其他 AWS 服务的集成之外,围绕 Amazon Textract 进行开发的多方合作社区,能使客户从他们的文件集合中获得更多的实际意义、更高效的操作、更安全合规、更多自动化数据输入和更快速的商业决策。
Amazon Textract 在识别关键字段或内容方面,超越了传统的光学字符识别(OCR)技术。而与之不同的是,可以使用 Textract API 来提取 PDF、图像、文本和表格等多种文件格式,然后再传递给Amazon Comprehend、Amazon Comprehend Medical和Amazon Translate,以更智能的方式提取内容。
从 Textract 提取的数据采用 JSON 格式,包括诸如页码、节、标签和数据类型等元数据。之后,内容和元数据都可以加载到数据库和数据分析服务中,包括 Amazon Elasticsearch Service、 Amazon DynamoDB和Amazon Athena,供会计、审计和合规性审核等领域的其他应用程序使用。
为了衡量数据提取过程的准确性,Textract 为它识别出来的每个数据属性返回一个以百分比表示的置信值。这让开发人员可以为不准确之处做出标记,并将此信息传递给他人执行进一步验证。此外,还提供了边界框坐标定位,以确定数据具体是从何处提取的。
Amazon 已经拥有一些使用 Textract 服务的客户,包括普华永道(PwC)、Healthfirst、Informed Inc、UiPath 和《环球邮报》等公司。《环球邮报》利用 Textract 提高了其记者的工作效率,并从他们此前并未得到充分利用的庞大数据集中,发挥了更大优势。《环球邮报》数字和数据科学的董事总经理 Michael O’Neill 解释:
作为一家新闻媒体公司,我们依赖于大量 PDF 文件或来源于扫描的文件,比如 FOI(信息自由请求),这些文件的重要信息包含在我们以前无法访问的表格中。这些文件没有得到充分利用,因为记者无法轻松访问这些信息,甚至不知道它们的存在。通过使用 Amazon Textract,我们能够从 PDF 格式的表格中提取信息,并轻松地将数据输出到 CSV 中,这样记者就可以对这些文档进行搜索查询,从而轻松便捷地访问这些文档。这使我们的记者获取信息的效率提高了十倍。
相关文章
ChatGPT 在您所在的国家/地区不可用
ChatGPT 是由 OpenAI 开发的一个人工智能聊天机器人程序,于 2022 年 11 月推出。该程序使用基于 GPT-3.5 架构的大型语言模型并通过强化学习进行训练。几乎可以做任何事情。无论是生成代码,还是写论文和诗歌等等。目前,有部分地区(例如中国大陆、香港)无法使用此项服务。...
索尼新专利:使用AI为PS5玩家推荐武器装备
索尼互动娱乐公司希望利用人工智能(AI)更容易地给 PS5 新玩家推荐武器或装备。根据一项新的专利申请,索尼发现如果玩家是第一次进行游戏,他们在选择武器或其他可用物品时往往会感到困惑。因此,他们的经验不足可能会导致错误的决定,他们可能会在在游玩过程中感到后悔–有时甚至迫使他们重新开始。
PornHub 用 AI 将老黄片升级为彩色 4K
PornHub 透过机器学习将远至 1896 年的老黑白片带给现代观众。