AI 与数据的智能融合丨大模型时代下的存储系统

WOT 全球技术创新大会2024·北京站于 6 月 22 日圆满落幕。本届大会以“智启新纪,慧创万物”为主题,邀请到 60+ 位不同行业的专家,聚焦 AIGC、领导力、研发效能、架构演进、大数据等热门技术话题进行分享。

近年来,数据和人工智能已成为推动各行业创新和增长的关键力量。但如何将数据与人工智能融合,从而创造更大的价值,是企业都在寻找的答案。在 WOT 全球技术创新大会《AI 与数据的智能融合》专场中,来自腾讯云的专家分享了腾讯云在数据管理与人工智能领域的技术成果和成功案例,并探讨二者如何智能融合为企业提供更高效、更智能的数据服务。

图片

大模型时代下的存储系统

在当前时代的发展中,企业正逐步利用大规模的对象存储来构建企业级数据湖和智能存储服务,存储系统正朝着更加弹性、高效和智能的方向发展,以满足企业在数据处理和利用方面日益增长的需求。随着大模型的出现,存储系统还需要满足大模型训练和推理过程中对数据规模、性能和稳定性的多样化需求,以及在处理海量数据的同时保证对高价值数据的高性能访问,实现大规模存储与高性能访问的平衡,确保大模型的高效训练和推理能力。

腾讯云是如何应对多样化的存储需求的呢?首先,腾讯云通过全球基础设施,在 21个地区部署 3200+ 加速节点,为企业提供卓越、稳定的公网接入和传输能力,满足企业安全、高效、可靠的数据迁移需求。在过往的数据迁移案例中,我们曾经支持过数十 PB 甚至上百 PB 数据的稳定迁移。

其次,腾讯云全自研对象存储引擎 YottaStore 能够为大模型训练和推理提供非常坚实的底座支持。在数据接入层面,腾讯云自研了无状态的弹性接入集群,支持丰富的公网接入和弹性伸缩能力;在存储引擎层面,腾讯云提供了原生多 AZ 的特性,提供了高可靠的存储能力;通过元数据分级存储等方式,单集群可以轻松扩展到百 EB 级别。通过深耕软硬件技术优化,腾讯云对象存储一方面可以满足业务不同规模、不同类型的数据存储需求;另一方面,也为业务提供了连续可用的服务,保证数据随时可访问,数据可以永久存储、不坏不丢。

存储系统存在着海量数据,企业如何找到真正需要用的数据?这就需要腾讯云自研的 GooseFS 三级加速服务来提升数据使用效率。GooseFS可以将数据智能存储到内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,提供亚毫秒级的数据访问时延、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。

AI 场景中存在海量文件的存储和访问需求,因此GooseFS 面临着海量元数据存储以及数据亲和性调度的挑战。为了应对海量元数据存储的压力,GooseFS 通过在高性能 KVDB 上实现了元数据分库分表、跨节点硬链等技术手段,有效提升元数据规模和平行扩展能力,当遇到主节点元数据访问故障时,整个元数据的访问可以快速迁移到备节点中。通过这些方式,GooseFS可以为大模型训练场景提供百亿级的热点元数据存储能力,提供百万级 IOPS,并且可以在高压情况下做到秒级故障恢复的能力。

图片

介绍完对象存储COS如何助力大模型框架提效降本,接下来腾讯云存储高级产品经理林楠还介绍了数据万象CI如何利用AI赋能存储系统。

第一个能力是一体化AI审核+存储。在大模型的生产框架中,无论是训练还是推理都会涉及内容安全的问题,因此腾讯云数据万象在存储端提前预置审核能力,通过对用户输入和AIGC模型输出这两个阶段的内容审核,可以充分保障内容安全的合规要求。数据万象的审核能力可以根据数据存储位置智能地调度处理集群,通过近存储侧的处理能力,从而提供更优的数据传输时延和更低的成本。

第二个能力是知识产权保护。现阶段 AIGC 产权并没有明确的标识物,但当 AIGC 的产物被大规模应用时,知识产权保护的需求也会随之而生,这个时候就需要明确声明产出物的模型主权。腾讯云数据万象的数字水印技术提供一站式明暗水印添加能力,可以在图片、视频,文本中嵌入机密信息,保证数字产品的版权保护和侵权溯源。

第三个能力是多模态智能检索。与传统的基于标签的标量检索不同,腾讯云数据万象MetaInsight通过预先计算数据的向量空间并存储于向量数据库中,再利用向量检索技术在向量空间内寻找相似的图片、文本或视频内容,从而实现更精准的全媒体类型跨模态检索能力。MetaInsight支持以文搜图、以图搜图等多种高性能的数据检索手段,覆盖了上千个细分场景,可以帮助客户快速建设检索应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/777869.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

3.pwn 函数调用流程,调用约定

前置准备 pop: Pop指令的作用是弹栈,将栈顶的数据弹出到寄存器,然后栈顶指针向下移动一个单位。 具体来说:如pop rax,作用就是mov rax[rsp];add rsp 8; push: Push指令的作用就是压栈,将栈顶指针向上移动一个单位的距离&#xf…

如何使用uer做多分类任务

如何使用uer做多分类任务 语料集下载 找到这里点击即可 里面是这有json文件的 因此我们对此要做一些处理,将其转为tsv格式 # -*- coding: utf-8 -*- import json import csv import chardet# 检测文件编码 def detect_encoding(file_path):with open(file_path,…

【已解决】“import ... =“ 只能在 TypeScript 文件中使用

现象 在使用 import 语法的时候,代码报红,提示:“import ... “ 只能在 TypeScript 文件中使用 原因 代码被 VSCode 解析成 TypeScript 语法 解决方案: 关闭 JavaScript 的验证启用即可。 mac 快捷方式:comman s…

秋招突击——7/4——复习{}——新作{最长公共子序列、编辑距离、买股票最佳时机、跳跃游戏}

文章目录 引言复习新作1143-最长公共子序列个人实现 参考实现编辑距离个人实现参考实现 贪心——买股票的最佳时机个人实现参考实现 贪心——55-跳跃游戏个人实现参考做法 总结 引言 昨天主要是面试,然后剩下的时间都是用来对面试中不会的东西进行查漏补缺&#xff…

蓝桥杯web组国三选手题纲解析和备赛技巧--经验分享

蓝桥杯web组赛题解析和杯赛技巧 **🎉🎉🎉欢迎来到我的博客,我是一名自学了2年半前端的大一学生,熟悉的技术是JavaScript与Vue.目前正在往全栈方向前进, 如果我的博客给您带来了帮助欢迎您关注我,我将会持续不断的更新文章!!!🙏&am…

51单片机嵌入式开发:2、STC89C52操作GPIO口LED灯

STC89C52操作GPIO口LED灯 1 芯片介绍1.1 芯片类型1.2 芯片系列说明 2 GPIO引脚寄存器说明3 GPIO操作3.1 GPIO输入3.2 GPIO输出3.3 GPIO流水灯3.4 Protues仿真 4 总结 1 芯片介绍 1.1 芯片类型 芯片采用宏晶科技品牌下的STC89C52RC单片机 选择STC89C52RC系列STC89C58RD系列单片…

优雅谈大模型:揭开计算机视觉任务神秘面纱

人工智能在第四次工业革命发挥着至关重要的作用,它广泛的融入日常生活,例如Google助手、Siri、智能手机摄像头、社交媒体过滤器、自动标记、医疗成像、导航等,所有这些技术都切实的改进和增强日常活动的便利性和习惯。 大模型技术发展到现在…

【致知功夫 各随分限】成长需要时间,助人须考虑对方的承受程度

帮助他人需考虑各人的分限所能及的,初学圣学需时间沉淀,存养心性 任何人都应该受到教育,不应受到贫富、贵贱的差异而排除在教育之外,对于不同材质的学生,需要因材施教; 每天都有新的认知,大我…

蓄势高飞逐“新”空,卓翼飞思助力打造低空经济产业领域人才智库

2024年,“低空经济”首次写入政府工作报告,掀开新兴产业的崭新一页,而后迅速在全国各地呈现如火如荼的发展态势。这片蕴藏着巨大潜力和产业的蓝海,正蓄势聚能、乘势而起,站在发展的新风口上,面对新前景和新…

【文献解析】Voxelmap——一种自适应体素地图

Efficient and Probabilistic Adaptive Voxel Mapping for Accurate Online LiDAR Odometry 论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber9813516 代码:GitHub - hku-mars/VoxelMap: [RA-L 2022] An efficient and probabili…

2024年7月6日 (周六) 叶子游戏新闻

自动电脑内部录音器AutoAudioRecorder: 是一款免费的自动音频录制软件,可直接将电脑内部所有的声音录制成 mp3/wav 文件,包括音乐、游戏直播、网络会议、聊天通话等音频源。 卸载工具 HiBitUninstaller: Windows上的软件卸载工具 《不羁联盟》制作人&…

Java中的日期时间类详解(Date、DateFormat、Calendar)

1. Date类 1.1 概述 java.util.Date类表示特定的瞬间,精确到毫秒。Date类的构造函数可以把毫秒值转成日期对象。 继续查阅Date类的描述,发现Date拥有多个构造函数,只是部分已经过时,我们重点看以下两个构造函数 1.2 Date类构造…

【踩坑】探究PyTorch中创建稀疏矩阵的内存占用过大的问题

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录 问题复现 原因分析 解决方案 碎碎念 问题复现 创建一个COO格式的稀疏矩阵,根据计算公式,他应该只占用约5120MB的内存&…

54、一维和二维自组织映射(matlab)

1、一维和二维自组织映射原理 一维和二维自组织映射(Self-Organizing Maps, SOM)是一种无监督的机器学习算法,通过学习输入数据的拓扑结构,将高维输入数据映射到低维的网格结构中,使得相似的输入数据点在映射空间中也…

win7系统快速安装python

下载安装包 建议选择python3.8左右的,我下载的是3.7.8,最新版本的pythonwin7可能不支持 python网址 下拉寻找 安装python 1.双击安装包 更换完地址选择安装(install) 安装完成后点击close即可 测试是否安装成功 1.winr快捷键打开黑窗口输入cmd …

七大排序-冒泡排序,插入排序,希尔排序(一)

目录 排序冒泡排序插入排序冒泡排序和插入排序的对比希尔排序 排序 先写单趟,再写多趟,这样比较好写 排序可以理解为对商品价格的排序,对数字大小的排序,排序再生活中随处可见 冒泡排序 冒泡排序就是两个相邻的数交换&#xff…

跨界客户服务:拓展服务边界,创造更多价值

在当今这个日新月异的商业时代,跨界合作已不再是新鲜词汇,它如同一股强劲的东风,吹散了行业间的壁垒,为企业服务创新开辟了前所未有的广阔天地。特别是在客户服务领域,跨界合作正以前所未有的深度和广度,拓…

mysql 9 新特新

mysql9新特性 新特性Audit Log NotesC API NotesCharacter Set SupportCompilation NotesComponent NotesConfiguration NotesData Dictionary NotesData Type NotesDeprecation and Removal NotesEvent Scheduler NotesJavaScript ProgramsOptimizer NotesPerformance Schema …

微机原理与单片机 知识体系梳理

单片机笔记分享 我个人感觉单片机要记的东西很多,也很琐碎,特别是一些位、寄存器以及相关作用等,非常难以记忆。因此复习时将知识点整理在了一起做成思维导图,希望对大家有所帮助。内容不是很多,可能有些没覆盖全&…

Python人形机踊跃跨栏举重投篮高维数动作算法模型

🎯要点 🎯运动功能: 1 m / s 1 m / s 1m/s上台阶、站立平衡、 1 m / s 1 m / s 1m/s行走、坐椅子、 5 m / s 5 m / s 5m/s跑步、 1 m / s 1 m / s 1m/s爬行、穿越森林、取物、穿越迷宫、 1 m / s 1 m / s 1m/s上滑梯、 5 m / s 5 m / s 5m/s…