人工智能研究所 AI2 发布最大的 LLM 开源数据集 Dolma,包含 3 万亿 Tokens

  • A+
所属分类:7*24 快讯

chatGPT账号

据 The Decoder 报道,艾伦人工智能研究所(Allen Institute for AI,简称 AI2)发布包含各种网络内容、科学出版物、代码和书籍的三万亿个 token 的开源数据集 Dolma,是迄今为止最大的公开数据集。Dolma 是开放语言模型 (OLMo) 的基础。OLMo 是 AI2 目前正在开发的语言模型,计划于 2024 年初发布,目标是成为“最佳开放语言模型”。Dolma 的第一个版本主要限于英文文本,开发人员和研究人员现可以通过 Hugging Face 访问该数据集。

免责声明

免责声明:

本文不代表知点网立场,且不构成投资建议,请谨慎对待。用户由此造成的损失由用户自行承担,与知点网没有任何关系;

知点网不对网站所发布内容的准确性,真实性等任何方面做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,知点网对项目的真实性,准确性等任何方面均不做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,知点网不对其构成任何投资建议,用户由此造成的损失由用户自行承担,与知点网没有任何关系;

知点区块链研究院声明:知点区块链研究院内容由知点网发布,部分来源于互联网和行业分析师投稿收录,内容为知点区块链研究院加盟专职分析师独立观点,不代表知点网立场。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的电报
  • 这是我的电报扫一扫
  • weinxin
chatGPT账号
知点

发表评论

您必须登录才能发表评论!