Apache Hadoop

Apache Hadoop
	Apache Hadoop
Информация
Автор	Дъг Кътинг, Майк Кафарела
Разработчик	Фондация „Апачи Софтуер“
Начална версия	1 април 2006 г.
Последна версия	3.4.0; 17 март 2024 г.
Програмен език	Java
Операционна система	междуплатформен софтуер
Лиценз	Apache License 2.0
Уебсайт	hadoop.apache.org
	Apache Hadoop в Общомедия

Apache Hadoop е набор от инструменти с отворен код, които улесняват използването на мрежа от много компютри за разрешаването на проблеми, включващи огромно количество данни и изчисления. Предоставя софтуерна рамка за разпределено съхранение и обработване на big data чрез програмния модел MapReduce. Hadoop първоначално е проектиран през 2006 г. за работа с компютърни клъстери, съставени от хардуер за широкото потребление,^[1] но по-късно започва да се използва и сред по-високопроизводителните системи.^[2]^[3] Всичките модули в Hadoop са проектирани с презумпцията, че хардуерните повреди са често срещано явление и фреймуъркът следва да се справя с тях автоматично.^[4]

Ядрото на Apache Hadoop е съставено от част за съхранение (Hadoop Distributed File System – HDFS) и част за обработка (MapReduce). Софтуерът разделя файловете на големи блокове и ги разпределя по членовете на клъстера. След това прехвърля пакетиран код (JAR) по членовете, който да обработва паралелно данните. Този подход се възползва от референтната локалност,^[5] при която машините работят върху данните, до които имат достъп. Това позволява наборът от данни да бъде обработен по-бързо и по-ефикасно, отколкото иначе би било възможно с конвенционалната архитектура на суперкомпютрите, която разчита на паралелната файлова система, където изчисленията и данните се разпределят чрез високоскоростна мрежова инфраструктура.^[6]^[7]

Софтуерната рамка на Hadoop е написана главно на Java с някои части на C.

Източници

↑ Judge, Peter. Doug Cutting: Big Data Is No Bubble // 22 октомври 2012. Посетен на 11 март 2018.
↑ Woodie, Alex. Why Hadoop on IBM Power // Datanami, 12 май 2014. Посетен на 11 март 2018.
↑ Hemsoth, Nicole. Cray Launches Hadoop into HPC Airspace // 15 октомври 2014. Посетен на 11 март 2018.
↑ Welcome to Apache Hadoop! // Посетен на 25 август 2016.
↑ What is the Hadoop Distributed File System (HDFS)? // IBM. Посетен на 12 април 2021.
↑ Data Locality: HPC vs. Hadoop vs. Spark // Data Science Association, 19 септември 2014. Посетен на 30 октомври 2014.
↑ Characterization and Optimization of Memory-Resident MapReduce on HPC Systems // 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE, октомври 2014. ISBN 978-1-4799-3800-1. DOI:10.1109/IPDPS.2014.87. с. 799 – 808.

[1] Judge, Peter. Doug Cutting: Big Data Is No Bubble // 22 октомври 2012. Посетен на 11 март 2018.

[2] Woodie, Alex. Why Hadoop on IBM Power // Datanami, 12 май 2014. Посетен на 11 март 2018.

[3] Hemsoth, Nicole. Cray Launches Hadoop into HPC Airspace // 15 октомври 2014. Посетен на 11 март 2018.

[homepage-4] Welcome to Apache Hadoop! // Посетен на 25 август 2016.

[5] What is the Hadoop Distributed File System (HDFS)? // IBM. Посетен на 12 април 2021.

[6] Data Locality: HPC vs. Hadoop vs. Spark // Data Science Association, 19 септември 2014. Посетен на 30 октомври 2014.

[7] Characterization and Optimization of Memory-Resident MapReduce on HPC Systems // 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE, октомври 2014. ISBN 978-1-4799-3800-1. DOI:10.1109/IPDPS.2014.87. с. 799 – 808.

[1]

[2]

[3]

[4]

[5]

[6]

[7]