Разработчик (и) | Apache Software Foundation |
---|---|
Первый выпуск | 10 октября 2016 г.; 4 года назад (10.10.2016) |
Стабильный выпуск | v2.0.0 / 12 октября 2020 г.; 7 дней назад (12.10.2020) |
Репозиторий | https://github.com/apache/arrow |
Написано на | C, C ++, C#, Go, Java, JavaScript, MATLAB, Python, R, Ruby, Rust |
Тип | Формат данных, алгоритмы |
Лицензия | Лицензия Apache 2.0 |
Веб-сайт | arrow.apache.org |
Apache Arrow - это языковая диагностика программная среда для разработки аналитики данных приложения, обрабатывающие столбчатые данные. Он содержит стандартизованный формат памяти с ориентацией на столбцы, который может представлять плоские и иерархические данные для эффективных аналитических операций на современном оборудовании CPU и GPU. Это уменьшает или устраняет факторы, ограничивающие возможность работы с большими наборами данных, такие как стоимость, непостоянство или физические ограничения динамической памяти с произвольным доступом.
Стрелка может использоваться с Apache Parquet, Apache Spark, NumPy, pandas и другие библиотеки обработки данных. Проект включает собственные программные библиотеки, написанные на C ++, C #.NET, Go, Java, JavaScript и Rust с привязками для других языков программирования, таких как Python, R и Ruby. Arrow обеспечивает чтение с нулевым копированием и быстрый доступ к данным и обмен ими без накладных расходов на сериализацию между этими языками и системами.
Arrow используется в различных областях, включая аналитику, геномику и облачные вычисления. вычисления.
Apache Parquet и Apache ORC - популярные примеры форматов столбчатых данных на диске. Стрелка разработана как дополнение к этим форматам для обработки данных в памяти. Компромиссы при проектировании аппаратных ресурсов для обработки в памяти отличаются от тех, которые связаны с хранением на диске. В проекты Arrow и Parquet входят библиотеки, которые позволяют читать и записывать данные между двумя форматами.
Apache Arrow был объявлен The Apache Software Foundation 17 февраля, 2016, разработкой которой руководила коалиция разработчиков из других проектов анализа данных с открытым исходным кодом. Исходная кодовая база и библиотека Java были засеяны кодом из Apache Drill.