|
标贝(青岛)科技有限公司
联系人:郭女士 先生 (市场经理) |
|
电 话:400-8982016 |
|
手 机:15321344012 |
|
|
|
|
|
AI训练数据集 |
2023年3月14日,OpenAI发布了多模态大模型的*新版本GPT-4:文生视频大模型Sora,Sora通过采用更大规模的AI训练数据集进行训练,其推理能力超过了ChatGPT,已成为目前*成功、*受欢迎的大模型。
Sora的出现,打破了人们对AI技术复杂、使用门槛高的固有思维。虽然谷歌提出了比Sora高10倍参数量的大模型(如Switch Transformer),且Sora的核心算法采用谷歌提出的Transformer架构,但是谷歌却败给了OpenAI。我们分析AI训练数据集的数据规模、数据处理方式、用户数据-模型飞轮是Sora成功的关键。
1、庞大的AI训练数据集规模是Sora成功的基础
Sora训练的AI训练数据集主要包括网站、书籍、社交媒体平台等,80%以上的AI训练数据集来自GPT3使用的AI训练数据集。这些AI训练数据集包含大量的文本数据,用于自然语言处理等领域的研究和应用。
2、高效的数据处理方式是Sora脱颖而出的重要技术
Sora在基础技术方面并未有大的突破,主要是在数据清洗、人工标注反馈和整体系统工程化方面取得了进展,从而使其整体效果相比之前的系统取得了较大飞跃。OpenAI团队也表示他们采用了多项措施确保AI训练数据集的质量和准确性,尤其数据筛选、数据收集、工程化(千亿级token编码、人工标注)等起了关键作用。
3、爆发式的用户数据促进产品质量与用户规模形成飞轮效应保证的Sora的火爆
Sora的服务开放给公众,同时可收集海量、多样化的数据,抢得数据获取先机。几亿用户为Sora贡献数据,进一步训练和微调使得Sora更符合用户需求,吸引更多用户为其免费提供数据。由此模型的数据飞轮快速转动起来,用户数据质量越高,迭代模型效果越好。
由Sora的分析可知,AI训练数据集将是决定模型好坏的关键。据DeepMind 研究团队预测大模型所需AI训练数据集规模随参数量的增加而增加。然而随着AI训练数据集规模增加,相应数据质量将越难控制。AI训练数据集的管理将是大模型发展面临的一大困境。
通 |
|
|