Amazon Kendra 是一种由机器学习驱动的智能搜索服务,具有高精度和易用性。它提供了一整套数据源连接器,可以简化您从各种数据源中提取和索引内容的过程,帮助企业充分利用其存储在结构化和非结构化库中的有价值数据。在企业中,有效的搜索解决方案应能提供完全托管的体验,并简化多种数据源的内容索引流程。
内部和外部网站通常是一个重要的非结构化数据存储库。网站可能需要被爬取,以生成新闻源、分析语言使用情况,或创建基于网站数据的机器人以回答问题。
我们很高兴地宣布,您现在可以使用新的 Amazon Kendra 网页爬虫,从内部和外部网站提取内容并搜索答案。此外,凭借机器学习驱动的智能搜索,Amazon Kendra 能够准确回答来自非结构化文档的问题,这些文档通常无法通过关键词搜索很快找到答案。
网页爬虫的新功能包括:
功能描述支持基本、NTLM/Kerberos、表单和 SAML 身份验证能够指定最多 100 个种子 URL,并将连接配置存储在 S3支持带有代理凭据的网络和互联网代理支持动态内容爬取,如包含 JavaScript 的网站字段映射和正则表达式过滤功能通过 Amazon Kendra,您可以配置多个数据源,在您的文档库中提供集中搜索的地方。我们将在以下步骤中演示如何使用 Amazon Kendra 网页爬虫索引抓取的网站。
选择网站的身份验证机制如需并在 AWS Secrets Manager 中存储详细信息。创建一个 Amazon Kendra 索引。通过 Amazon Kendra 控制台创建一个网页爬虫数据源 V2。运行示例查询以测试解决方案的有效性。要尝试 Amazon Kendra 网页爬虫,您需要以下条件:
一个要爬取的网站。拥有创建 AWS 身份和访问管理IAM角色和策略权限的 AWS 账户。基础的 AWS 知识。对于受保护和安全的网站,支持以下身份验证类型和标准:
一元机场ink基本NTLM/Kerberos表单身份验证SAML在设置数据源时,您需要身份验证信息。
对于基本或 NTLM 身份验证,您需要提供 Secrets Manager 密钥、用户名和密码。
要创建 Amazon Kendra 索引,请完成以下步骤:
在 Amazon Kendra 控制台上,选择 创建索引。输入索引名称,例如“Web Crawler”。输入可选描述。输入 IAM 角色名称。配置可选的加密设置和标签。选择 下一步。
创建索引并传播 IAM 角色可能需要长达 30 分钟的时间。
完成以下步骤以创建您的数据源:
在 Amazon Kendra 控制台中,选择 数据源。找到 WebCrawler 连接器 V20,然后选择 添加连接器。输入数据源名称,例如“crawlfda”。选择 下一步。在 源 部分,选择 源 URL 并输入 URL,例如 https//wwwfdagov/。在 身份验证 部分,选择适当的身份验证。配置您的同步设置,然后选择 下一步。如果您希望爬取带身份验证的网站,请在之前的步骤中指定身份验证详细信息。
成功抓取网站内容后,您可以进行查询测试:
转到索引并选择 搜索索引内容。输入示例查询并测试搜索结果。恭喜!您已经成功使用 Amazon Kendra 从抓取的网站中提取答案和洞察。
为了避免未来产生费用,请清理在此解决方案中创建的资源。
借助新的 Amazon Kendra 网页爬虫 V2,组织可以访问任何公共网站或需要身份验证的网站,并利用其智能搜索功能。
有关更多信息,请参考 Amazon Kendra 开发人员指南。