Направо към съдържанието

Склад данни

от Уикипедия, свободната енциклопедия
(пренасочване от Склад за данни)

Склад данни, склад за данни или склад от данни (на английски: data warehouse) обикновено се наричат множество от интегрирани, тематично ориентирани и променящи се във времето, устойчиви множества от данни, които могат да имат достъп до цялата информация на дадена компания или организация. Тази система съхранява информация като хранилище за данни, но отива с една крачка по-далеч: дава на потребителите си достъп до данни за извършване на изследователски анализ - аналитична интерактивна обработка (Online Analytical Processing - OLAP). Data Warehouse, по дефиниция, не се води система "бази от данни".

Обща характеристика

[редактиране | редактиране на кода]

Според Уилям Инмон, смятан до голяма степен за баща на съвременния склад данни, складът данни е „тематично ориентирана, интегрирана, времевариантна, неизменчива съвкупност от данни, подпомагаща вземането на решения“.

Складът данни може да се характеризира със следните отличителни черти:

  1. Използва тематично ориентиран пространствен модел на данните
  2. Съдържа годни за публикуване данни от множество източници
  3. Съдържа интегрирани инструменти за отчети

Съвкупност от бази данни и механизми за достъп до данните през един обект

[редактиране | редактиране на кода]

Складът данни може да се разпредели на няколко компютъра и може да съдържа няколко бази данни и информация от многобройни източници в различни формати, а достъпът до него се осъществява чрез сървър. Достъпът до склада данни е прозрачен за потребителя, който може да използва прости команди, за да открие и анализира необходимата информация. Складът данни съдържа и информация за това как е организиран самият склад данни, къде може да се открие информацията и всички връзки между данните. Складът данни съдържа изобилна информация, организирана така, че да оказва помощ при вземане на решения в дадена организация, позволява и́ да организира своите данни, да координира обновяването на данните и взаимовръзките между информацията, събирана от различните части на организацията. Складът данни се обновява пакетно и е конфигуриран за бързи онлайн заявки, даващи кратки и ясни извлечения от данните.

Складът данни е реализация на информационна база данни, използвана за съхранение общодостъпни източници на данни. Множеството бази данни от склада данни се използват за съхраняване на данни само за четене, които могат да се редактират и обновяват от оперативна регистрационна база данни (database-of-record). Складът данни позволява на потребителите да черпят от съхранените данни на дадена организация, като своевременно реагират на бизнес тенденциите и облекчават прогнозирането и планирането.

Софтуерна архитектура

[редактиране | редактиране на кода]

Складът данни обединява данни от множество трансакционни системи и дава възможност на потребителите да получат достъп и да анализират информация на различни нива на дадено предприятие.

Данните в склада данни се зареждат чрез процеса ETL /extraction, transformation, loading/, който включва извличане на данните от първичните източници, почистване и форматиране, проверка за дублиране, проверка за съответствие с ограниченията, зареждане в склада. Към склада данни се обръщат съставители на отчети, инструменти за заявки и за достъп до данни и откриване на данни, OLAP сървъри и информационни системи на предприятия.

Складът данни се състои от компютърна система за съхранение на информация за организационните дейности в базата данни. Дизайнът на базата данни дава предпочитание на съставянето на отчети и анализирането на данните с цел получаване на стратегическа информация и улесняване на вземането на решения.

Складовете данни могат да съдържат големи количества информация, понякога поделена в по-малки логически единици, наречени модули данни (data marts). Схемите на модулите данни често се съхраняват в т.нар. звездообразни схеми или под формата на пространствен модел. Обаче няма стандарт, който да определя в каква точна форма да бъдат тези схеми да модулите данни.

Конвенционалните системи за бази данни използват силно унифицирани (нормализирани) формати на данните, за да осигурят съгласуваността и съвместимостта на данните и използването на минимално пространство. Често това обаче означава бавна обработка на трансакциите. Форматите, които се използват в складовете данни, обикновено са по-свободни. Това ускорява заявките и дава допълнително предимство: схемата може да бъде по-интуитивна за обикновените потребители (не администратори), тъй като те правят проучвания.

Инструментите за аналитична онлайн обработка OLAP в общи линии са проектирани да работят с „денормализирани“ бази данни, въпреки че има инструменти, които работят със специални схеми за складове данни, съхранени в трета нормална форма (third normal form), т.е. нормализирани бази данни.

Данните, които се вкарват в складовете данни, обикновено са „окастрени“. Окастрянето на данните става при периодичните процеси на четене от източниците на данни (обикновено първични бизнес бази данни за онлайн обработка на трансакции, OLTP), когато информацията се пречиства за качество, денормализира се и се записва в склада данни. Процесът обикновено се извършва с инструмент от типа „извлечи, преобразувай, зареди“ (ETL).

В складовете данни обикновено се влиза (правят се заявки за информация) през модули данни (data marts), които представляват целеви точки за достъп или подмножества на даден склад данни. Модулите данни са проектирани да отговарят на евентуалните заявки на даден вид потребители.

Обикновено складът данни не съхранява текуща информация за дадена бизнес дейност, а често се използва за колективна обработка на всички поделения на дадена корпорация.

Работата със складове данни често се нарича аналитична онлайн обработка (OLAP), за разлика от онлайн обработката на трансакции (OLTP), която се използва за обикновени бизнес дейности. Данните от системите за планиране на ресурсите на предприятието (Enterprise resource planning, ERP) и други свързани софтуерни бизнес системи, периодично се внасят в складовете данни за по-нататъшна обработка.

Различни определения на склад данни

[редактиране | редактиране на кода]
  • Тематична база данни, която позволява на потребителите да проникват в огромното хранилище на оперативни данни да дадена компания.
  • Група от взаимодействащи бази данни, системи за управление на бази данни и машини за търсене, която се разпростира върху множество домейни.
  • Съвкупност от софтуер и данни, организирани да събират, изтриват, преобразуват и съхраняват данни от различни източници, както и да анализират и представят информация в подкрепа на вземане на решения в тактически и стратегически бизнес процеси.
  • Съвкупност от интегрирани, тематично ориентирани бази данни, предназначени за оказване на помощ на системните функции за вземане на решения, където всяка единица данни е свързана с даден момент.
  • Голяма база данни, проектирана да ускорява анализа (а не да ускорява обработката на трансакции). Тя съдържа пречистени (идеални) данни и метаданни (данни за данните).
  • Съвкупност от данни, предварително пакетирани или резюмирани според специфични бизнес правила и предназначени да подкрепят вземането на решения от ръководството. Складът данни съдържа голямо разнообразие от данни, които представляват съгласувана картина на бизнес информацията.

Добив на данни и склад данни

[редактиране | редактиране на кода]

Добивът на данни (data mining) и складът данни са тясно свързани. Преди да се осъществи ефективен добив на информация, тя трябва да се постави на едно място – поне временно. Складирането на данни включва интегриране на информация от различни системи, функции и местоположения в дадено предприятие или организация към централна база данни, която да позволи по-точен анализ на нуждите на клиентите, на схемите на покупки, на печалбите и т.н., и да подобри вземането на решения и маркетинга.