使用新的网络爬虫为 Amazon Kendra 索引您的网络抓取内容 机器学习博客

如何使用新的 Amazon Kendra 网页爬虫索引您的网络爬取内容

关键要点

Amazon Kendra 是一种高精度、易于使用的智能搜索服务。新推出的网页爬虫可从内部和外部网站提取内容,支持多种身份验证机制。部署新数据源,可通过简单步骤进行配置,快速实现信息索引。测试并运行索引后,可以轻松搜索和分析抓取到的内容。

Amazon Kendra 是一种由机器学习驱动的智能搜索服务,具有高精度和易用性。它提供了一整套数据源连接器,可以简化您从各种数据源中提取和索引内容的过程,帮助企业充分利用其存储在结构化和非结构化库中的有价值数据。在企业中,有效的搜索解决方案应能提供完全托管的体验,并简化多种数据源的内容索引流程。

内部和外部网站通常是一个重要的非结构化数据存储库。网站可能需要被爬取,以生成新闻源、分析语言使用情况,或创建基于网站数据的机器人以回答问题。

我们很高兴地宣布,您现在可以使用新的 Amazon Kendra 网页爬虫,从内部和外部网站提取内容并搜索答案。此外,凭借机器学习驱动的智能搜索,Amazon Kendra 能够准确回答来自非结构化文档的问题,这些文档通常无法通过关键词搜索很快找到答案。

网页爬虫的新功能包括:

功能描述支持基本、NTLM/Kerberos、表单和 SAML 身份验证能够指定最多 100 个种子 URL,并将连接配置存储在 S3支持带有代理凭据的网络和互联网代理支持动态内容爬取,如包含 JavaScript 的网站字段映射和正则表达式过滤功能

解决方案概述

通过 Amazon Kendra,您可以配置多个数据源,在您的文档库中提供集中搜索的地方。我们将在以下步骤中演示如何使用 Amazon Kendra 网页爬虫索引抓取的网站。

选择网站的身份验证机制如需并在 AWS Secrets Manager 中存储详细信息。创建一个 Amazon Kendra 索引。通过 Amazon Kendra 控制台创建一个网页爬虫数据源 V2。运行示例查询以测试解决方案的有效性。

先决条件

要尝试 Amazon Kendra 网页爬虫,您需要以下条件:

一个要爬取的网站。拥有创建 AWS 身份和访问管理IAM角色和策略权限的 AWS 账户。基础的 AWS 知识。

收集身份验证详细信息

对于受保护和安全的网站,支持以下身份验证类型和标准:

一元机场ink基本NTLM/Kerberos表单身份验证SAML

在设置数据源时,您需要身份验证信息。

对于基本或 NTLM 身份验证,您需要提供 Secrets Manager 密钥、用户名和密码。

创建 Amazon Kendra 索引

要创建 Amazon Kendra 索引,请完成以下步骤:

使用新的网络爬虫为 Amazon Kendra 索引您的网络抓取内容 机器学习博客在 Amazon Kendra 控制台上,选择 创建索引。输入索引名称,例如“Web Crawler”。输入可选描述。输入 IAM 角色名称。配置可选的加密设置和标签。选择 下一步。

创建索引并传播 IAM 角色可能需要长达 30 分钟的时间。

创建 Amazon Kendra 网页爬虫数据源

完成以下步骤以创建您的数据源:

在 Amazon Kendra 控制台中,选择 数据源。找到 WebCrawler 连接器 V20,然后选择 添加连接器。输入数据源名称,例如“crawlfda”。选择 下一步。在 源 部分,选择 源 URL 并输入 URL,例如 https//wwwfdagov/。在 身份验证 部分,选择适当的身份验证。配置您的同步设置,然后选择 下一步。

用例:访问受保护的网站

如果您希望爬取带身份验证的网站,请在之前的步骤中指定身份验证详细信息。

测试解决方案

成功抓取网站内容后,您可以进行查询测试:

转到索引并选择 搜索索引内容。输入示例查询并测试搜索结果。

恭喜!您已经成功使用 Amazon Kendra 从抓取的网站中提取答案和洞察。

清理

为了避免未来产生费用,请清理在此解决方案中创建的资源。

结论

借助新的 Amazon Kendra 网页爬虫 V2,组织可以访问任何公共网站或需要身份验证的网站,并利用其智能搜索功能。

有关更多信息,请参考 Amazon Kendra 开发人员指南。

使用 AWS IoT Core MQTT 代理与标准 MQTT 库 官方博客的物联网
< 上一篇
四种在AWS中授予跨账户访问权限的方法 安全博客
下一篇 >

评论