Apache Hadoop
Apache Hadoop | |
Информация | |
---|---|
Автор | Дъг Кътинг, Майк Кафарела |
Разработчик | Фондация Апачи софтуер |
Програмен език | Java |
Операционна система | междуплатформен софтуер |
Лиценз | Apache License 2.0 |
Уебсайт | hadoop.apache.org |
Apache Hadoop в Общомедия |
Apache Hadoop е набор от инструменти с отворен код, които улесняват използването на мрежа от много компютри за разрешаването на проблеми, включващи огромно количество данни и изчисления. Предоставя софтуерна рамка за разпределено съхранение и обработване на big data чрез програмния модел MapReduce. Hadoop първоначално е проектиран през 2006 г. за работа с компютърни клъстери, съставени от хардуер за широкото потребление,[1] но по-късно започва да се използва и сред по-високопроизводителните системи.[2][3] Всичките модули в Hadoop са проектирани с презумпцията, че хардуерните повреди са често срещано явление и фреймуъркът следва да се справя с тях автоматично.[4]
Ядрото на Apache Hadoop е съставено от част за съхранение (Hadoop Distributed File System – HDFS) и част за обработка (MapReduce). Софтуерът разделя файловете на големи блокове и ги разпределя по членовете на клъстера. След това прехвърля пакетиран код (JAR) по членовете, който да обработва паралелно данните. Този подход се възползва от референтната локалност,[5] при която машините работят върху данните, до които имат достъп. Това позволява наборът от данни да бъде обработен по-бързо и по-ефикасно, отколкото иначе би било възможно с конвенционалната архитектура на суперкомпютрите, която разчита на паралелната файлова система, където изчисленията и данните се разпределят чрез високоскоростна мрежова инфраструктура.[6][7]
Софтуерната рамка на Hadoop е написана главно на Java с някои части на C.
Източници
[редактиране | редактиране на кода]- ↑ Judge, Peter. Doug Cutting: Big Data Is No Bubble // 22 октомври 2012. Посетен на 11 март 2018.
- ↑ Woodie, Alex. Why Hadoop on IBM Power // Datanami, 12 май 2014. Посетен на 11 март 2018.
- ↑ Hemsoth, Nicole. Cray Launches Hadoop into HPC Airspace // 15 октомври 2014. Посетен на 11 март 2018.
- ↑ Welcome to Apache Hadoop! // Посетен на 25 август 2016.
- ↑ What is the Hadoop Distributed File System (HDFS)? // IBM. Посетен на 12 април 2021.
- ↑ Data Locality: HPC vs. Hadoop vs. Spark // Data Science Association, 19 септември 2014. Посетен на 30 октомври 2014.
- ↑ Characterization and Optimization of Memory-Resident MapReduce on HPC Systems // 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE, октомври 2014. ISBN 978-1-4799-3800-1. DOI:10.1109/IPDPS.2014.87. с. 799 – 808.