首页 > 行业资讯 > 与传统业务场景相比,大模型对数据存储资源的需求有哪些异同?

与传统业务场景相比,大模型对数据存储资源的需求有哪些异同?

时间:2024-01-25 来源: 浏览:

与传统业务场景相比,大模型对数据存储资源的需求有哪些异同?

原创 twt社区 twt企业IT社区
twt企业IT社区

talkwithtrend

talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。

社区探讨,供大家参考:

与传统业务场景相比,大模型对数据存储资源的需求有哪些相同与不同之处?

大模型作为新的应用范式,对数据存储的需求与传统业务有所不同。本议题交流核心是分析大模型应用对数据存储需求的特殊性在哪些方面?又有哪些与传统业务数据存储需求一致的地方?

问题来自社区会员@wanggeng 某银行系统工程师,以下内容来自社区同行探讨

@朱祥磊 某移动公司 系统架构师:

相同之处:

1. 数据存储需求量大:无论是传统业务场景还是大模型场景,都需要大规模存储数据,以满足业务需求。

2. 数据安全性要求高:对于任何业务场景,数据的安全性和隐私保护都是重要的考虑因素。大模型也不例外,需要确保数据的安全性。

3. 数据质量很重要:无论是传统业务还是大模型应用,都需要确保数据的准确性和完整性,以提高模型的准确性和可靠性。

不同之处:

1. 数据规模差异:传统业务场景通常处理的数据量较小,而大模型则需要处理大规模的数据,可能达到数十TB甚至数百TB。

2. 数据处理速度要求:大模型需要快速处理和分析大量数据,对数据处理速度的要求更高。因此,数据存储系统需要具备高性能的读写能力和数据处理能力。

3. 数据存储类型多样化:在大模型场景中,除了结构化数据外,还需要处理大量的非结构化数据,如图像、音频和视频等。因此,数据存储系统需要支持多种类型的存储需求。

4. 数据存储效率要求:由于大模型需要进行大量迭代和训练,对数据存储的效率和响应时间有更高的要求。因此,数据存储系统需要具备高效率和低延迟的特点。

5. 数据存储可扩展性:大模型的应用和发展通常需要不断扩展数据存储容量和性能。因此,数据存储系统需要具备可扩展性,能够随着业务的发展而灵活扩展。

综上所述,虽然传统业务场景和大模型场景在数据存储资源需求方面有一些共同点,但大模型对数据规模、处理速度、存储类型、效率和可扩展性等方面有更高的要求。

@国金证券 AI算法工程师:

相同之处:

1. 数据量大:大模型与传统业务场景都需要处理大量的数据,因此双方对于数据存储资源的需求量都很大。

2. 安全性:无论是大模型还是传统业务场景,数据安全性都是长期关注的话题,特别是内部私有数据和一些敏感数据。

不同之处:

1. 存储方式:大模型需要特定的存储方式来支持模型参数和训练数据的高效读取,而传统行业场景可能更多使用传统数据库和文件存储方式。

2. 访问模式:大模型可能需要频繁的读写访问,而传统的业务场景可能更多涉及到批量处理和定时更新。

3. 数据结构:大模型可能需要更复杂的数据结构来存储模型参数和训练数据,而传统业务场景更侧重于结构化数据存储。

@匿名用户:

1 海量存储:大模型的训练需要海量的高质量数据,但是高质量数据往往从更海量的数据中筛选清洗而来,所以对于原始数据、清洗后数据的存储、分类管理是一个重要变化

2 大规模异构存储:当前路线的多模态大模型的训练仍然需要异构数据,需要类似于数据湖的基础设施作为异构数据的集成管理。

3 日志存储的可控性:大模型服务的可控性一直是大模型应用的重要问题。随之而来的,海量异构的服务日志,如何进行日志记录、筛选、反馈处理以及内容后审查等都与以往服务存在较大的不同。

4 知识存储:RAG的向量化存储、图存储等,均是随着大模型技术发展而发展的,需要考虑异构知识的统一存储和管理等新问题。

@Moson 建信金融科技 架构师:

大模型对数据存储资源的需求与传统业务场景相比,既有相同之处也有不同之处。

相同之处在于,无论是大模型还是传统业务场景,都需要数据存储资源来存储和管理数据。数据存储资源需要具备可靠性、可用性和扩展性等特点,以确保数据的准确性和完整性,以及满足业务增长的需求。

不同之处在于,大模型对数据存储资源的需求更为复杂和多样化。大模型需要处理的数据量通常更大,数据类型更为复杂,需要进行高效的读写操作和数据处理。此外,大模型还需要支持各种算法和计算需求,包括深度学习、机器学习等,对存储性能和I/O吞吐量的要求更高。

因此,大模型需要更加专业和高效的存储解决方案,例如分布式存储系统、高性能存储设备等,以满足其对数据存储资源的需求。同时,大模型也需要更加灵活和可扩展的存储架构,以适应不断变化的数据量和计算需求。

@jinhaibo 昆仑银行 技术管理:

相同之处:

1 存储容量:无论是传统业务还是大模型,都需要一定规模的存储容量来存储数据。

2 读取性能:在许多应用中,快速的数据读取速度是必要的,无论是传统业务还是大模型。

3 数据一致性和完整性需求:无论是传统业务还是大模型,都需要保证数据的准确性和完整性,以避免数据错误或不一致导致的问题。

主要区别在以下方面:

1 数据类型:传统业务通常处理结构化数据,大模型需要处理各种类型的数据,包括结构化、半结构化和非结构化数据。需要不同类型的存储解决方案,如对象存储或分布式文件系统。

2 计算资源:大模型处理的数据量较大,需要更多的计算资源。对存储的性能需求增加,需要更高的I/O吞吐量、更快的处理速度等。

3 数据备份:由于大模型需要处理大量数据,考虑到数据备份的成本和数据本身的价值,需要针对不同价值的数据制定不同的备份策略,以权衡数据的可用性和成本。

@nxdy  系统运维工程师:

大模型更擅长处理的是自然语言文字信息,可以以数据仓库、数据湖等为数据存储。

  您怎么看?

欢迎来探讨

欢迎点击文末 阅读原文 到社区阅读和讨论交流,发表您的看法

觉得本文有用,请 转发 或点击 ,让更多同行看到

 资料/文章推荐:

  • 大模型应用设计与实现最新实践心得

  • ChatGPT vs LLaMa 2 差异性对比【大模型行业应用入门系列】

  • 深度解读:金融行业如何训练大语言模型优化智能客服等AI应用?

  • 知识图谱与大模型之间究竟是什么关系?

  • 如何从零设计大模型基础设施

欢迎关注社区以下   “大语言模型”技术主题  ,将会不断更新优质资料、文章。地址: https://www.talkwithtrend.com/Topic/154263

下载 twt 社区客户端 APP

长按识别二维码即可下载

或到应用商店搜索“twt”

长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
相关推荐