Koala OSS Club


Lance | 机器学习列式数据结构


Lance 是⼀种为机器学习场景⽽设计的列式数据结构。与⼤数据领域常⽤的列式数据结构 Parquet 相⽐,Lance 可以提供更快的随机读性能、向量搜索等能⼒,同时也可以轻松在 Parquet、pandas.DataFrame、DuckDB 等多种数据源和数据格式之间转换,让使⽤者既能快速浏览数据,也可以基于数据进⾏模型训练等任务。在机器学习场景下,Lance 还提供了实⽤的数据多版本管理能⼒,便于在调试、重现模型时可以切换⾄数据集的任意版本。