Apache Arrow

редактировать
Программная среда
Apache Arrow
Разработчик (и) Apache Software Foundation
Первый выпуск10 октября 2016 г.; 4 года назад (10.10.2016)
Стабильный выпуск v2.0.0 / 12 октября 2020 г.; 7 дней назад (12.10.2020)
Репозиторий https://github.com/apache/arrow
Написано наC, C ++, C#, Go, Java, JavaScript, MATLAB, Python, R, Ruby, Rust
Тип Формат данных, алгоритмы
Лицензия Лицензия Apache 2.0
Веб-сайтarrow.apache.org

Apache Arrow - это языковая диагностика программная среда для разработки аналитики данных приложения, обрабатывающие столбчатые данные. Он содержит стандартизованный формат памяти с ориентацией на столбцы, который может представлять плоские и иерархические данные для эффективных аналитических операций на современном оборудовании CPU и GPU. Это уменьшает или устраняет факторы, ограничивающие возможность работы с большими наборами данных, такие как стоимость, непостоянство или физические ограничения динамической памяти с произвольным доступом.

Содержание
  • 1 Совместимость
  • 2 Приложения
    • 2.1 Сравнение с Apache Parquet и ORC
  • 3 Управление
  • 4 Ссылки
  • 5 Внешние ссылки
Совместимость

Стрелка может использоваться с Apache Parquet, Apache Spark, NumPy, pandas и другие библиотеки обработки данных. Проект включает собственные программные библиотеки, написанные на C ++, C #.NET, Go, Java, JavaScript и Rust с привязками для других языков программирования, таких как Python, R и Ruby. Arrow обеспечивает чтение с нулевым копированием и быстрый доступ к данным и обмен ими без накладных расходов на сериализацию между этими языками и системами.

Приложения

Arrow используется в различных областях, включая аналитику, геномику и облачные вычисления. вычисления.

Сравнение с Apache Parquet и ORC

Apache Parquet и Apache ORC - популярные примеры форматов столбчатых данных на диске. Стрелка разработана как дополнение к этим форматам для обработки данных в памяти. Компромиссы при проектировании аппаратных ресурсов для обработки в памяти отличаются от тех, которые связаны с хранением на диске. В проекты Arrow и Parquet входят библиотеки, которые позволяют читать и записывать данные между двумя форматами.

Governance

Apache Arrow был объявлен The Apache Software Foundation 17 февраля, 2016, разработкой которой руководила коалиция разработчиков из других проектов анализа данных с открытым исходным кодом. Исходная кодовая база и библиотека Java были засеяны кодом из Apache Drill.

Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-11 20:10:07
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте