在当今以数据和智能为核心驱动力的时代,数据存储与管理技术正经历着深刻的范式转变。杉岩数据首席技术官邱尚高先生近期指出,随着人工智能(AI)的深度融合与数据湖架构的广泛采纳,对象存储已远非简单的数据存放仓库,其角色正从被动存储向主动、智能的数据服务基石演进。
一、AI与数据湖:驱动存储需求变革的双引擎
人工智能,特别是大规模机器学习与深度学习,对数据提出了前所未有的要求:海量的非结构化数据(如图像、视频、文本)、高吞吐的访问性能、以及跨地域、跨集群的高效数据流转。与此数据湖作为集中存储企业各种原始数据的大型存储库,其核心理念是打破数据孤岛,支持多样化的分析工作负载。这两大趋势共同作用,对底层存储系统的可扩展性、经济性、协议兼容性及元数据管理能力构成了严峻考验。传统的存储方案往往难以兼顾规模、成本与灵活性。
二、对象存储:数据湖的理想底座
对象存储凭借其近乎无限的横向扩展能力、基于策略的自动化数据生命周期管理、以及通过标准S3等API实现的广泛生态兼容性,天然契合数据湖的建设需求。它能够以相对低廉的成本,高效地存储和管理EB级的海量非结构化数据,为上层的数据分析、AI训练提供统一、可靠的数据源。邱尚高强调,对象存储已成为构建现代数据湖事实上的标准存储层。
三、不止于存储:向智能数据服务演进
邱尚高认为,在AI+数据湖的时代,对象存储的价值绝不应止步于“存得住”和“取得出”。其发展的关键方向在于“用得好”,即演变为智能的数据服务平台。这主要体现在以下几个方面:
- 性能与智能加速:针对AI训练等数据密集型场景,对象存储需要通过缓存加速、与计算框架紧耦合、支持GPU Direct Storage等技术,显著降低数据访问延迟,提升整体训练效率。智能的数据预取、分层策略可以进一步优化数据流转。
- 丰富的元数据与标签化:强大的自定义元数据能力,使得对象存储能够为每个数据对象打上丰富的语义标签。结合AI对元数据进行自动分析、分类和标注,可以极大提升数据治理水平和发现效率,让数据更“易理解”、更“可搜索”。
- 内置数据处理能力:下一代对象存储开始探索将部分计算逻辑“下推”到存储层,例如支持在存储侧直接进行图片转码、视频截图、数据过滤等轻量级处理(类似于S3 Select/Object Lambda理念),减少不必要的数据移动,实现“存算融合”。
- 数据安全与合规智能化:利用AI能力,对象存储可以更智能地识别敏感数据,实现自动化的分类分级、加密、脱敏和访问控制,并满足日益严格的数据合规性要求。
- 统一数据视图与流动:作为数据湖的核心,对象存储需要与HDFS、数据库、数据仓库等系统无缝协同,提供统一命名空间,并智能化地调度数据在不同存储层级(热、温、冷)及不同系统间的流动,支撑混合云、多云环境下的数据管理。
四、展望:构建以数据为中心的基础设施
邱尚高道,未来的竞争是数据的竞争,更是数据利用效率的竞争。对象存储作为承载企业核心数据资产的基石,其发展必须与上层应用(尤其是AI)的需求同频共振。杉岩数据等厂商正在推动对象存储向更智能、更融合、更服务化的方向发展,目标是将存储基础设施从成本中心转变为赋能业务创新的数据服务中心。在AI与数据湖的双重浪潮下,对象存储的旅程,才刚刚驶向更广阔的深海。