MODELAGEM DE DADOS EM DATA WAREHOUSES MODERNOS: COMPARAÇÃO ENTRE MODELOS NO CONTEXTO NAS NOVAS PLATAFORMAS ANALÍTICAS
Artigo
Após a segunda metade da década de 1980, as empresas armazenavam apenas dados provenientes de seus sistemas transacionais. Porém, naturalmente, surgiu a necessidade de se obter métricas baseadas em dados que pudessem apoiar os tomadores de decisão em suas atividades gerenciais. Nessa esteira, foram sendo desenvolvidos diversos tipos de Sistemas de Suporte à Decisão, a exemplo dos Data Warehouses. Trata-se de uma tecnologia em que os dados são extraídos dos sistemas transacionais, subsequentemente transformados e carregados em um banco de dados. Dessa forma, os usuários finais conseguiam realizar análises sob diversas perspectivas através de uma fonte única e integrada de dados. Esse foi um modelo bem-sucedido por muitos tempo, até que, nos anos 2000, presenciou-se um crescimento exponencial na quantidade e variedade de dados gerados pelas organizações. Isso impulsionou o desenvolvimento de tecnologias para armazenamento e processamento distribuído, como Hadoop, e, em seguida, as plataformas de computação em nuvem, como Azure, AWS e Google Cloud. Esse novo contexto dos ambientes analíticos proporcionou mudanças relevantes, como a queda expressiva nos custos de armazenamento de dados e o desacoplamento entre processamento e armazenamento. Diante disso, é natural surgirem questionamentos como: os modelos de dados tradicionais como Star Schema ainda fazem sentido nos tempos atuais ou e a melhor opção é abraçar propostas mais ousadas, como One Big Table? Ao se investigar o que os profissionais de dados estão pensando a respeito do assunto, percebe-se que não há consenso em torno do tema. Isso ocorre porque cada caso concreto apresenta suas peculiaridades, de forma que nenhum modelo irá atender às necessidades de todas as situações. Porém, apesar dessas limitações, é possível obter um resultado equilibrado entre armazenamento, manutenção e desempenho através do conhecimento das vantagens e desvantagens apresentadas por cada um deles.Após a segunda metade da década de 1980, as empresas armazenavam apenas dados provenientes de seus sistemas transacionais. Porém, naturalmente, surgiu a necessidade de se obter métricas baseadas em dados que pudessem apoiar os tomadores de decisão em suas atividades gerenciais. Nessa esteira, foram sendo desenvolvidos diversos tipos de Sistemas de Suporte à Decisão, a exemplo dos Data Warehouses. Trata-se de uma tecnologia em que os dados são extraídos dos sistemas transacionais, subsequentemente transformados e carregados em um banco de dados. Dessa forma, os usuários finais conseguiam realizar análises sob diversas perspectivas através de uma fonte única e integrada de dados. Esse foi um modelo bem-sucedido por muitos tempo, até que, nos anos 2000, presenciou-se um crescimento exponencial na quantidade e variedade de dados gerados pelas organizações. Isso impulsionou o desenvolvimento de tecnologias para armazenamento e processamento distribuído, como Hadoop, e, em seguida, as plataformas de computação em nuvem, como Azure, AWS e Google Cloud. Esse novo contexto dos ambientes analíticos proporcionou mudanças relevantes, como a queda expressiva nos custos de armazenamento de dados e o desacoplamento entre processamento e armazenamento. Diante disso, é natural surgirem questionamentos como: os modelos de dados tradicionais como Star Schema ainda fazem sentido nos tempos atuais ou e a melhor opção é abraçar propostas mais ousadas, como One Big Table? Ao se investigar o que os profissionais de dados estão pensando a respeito do assunto, percebe-se que não há consenso em torno do tema. Isso ocorre porque cada caso concreto apresenta suas peculiaridades, de forma que nenhum modelo irá atender às necessidades de todas as situações. Porém, apesar dessas limitações, é possível obter um resultado equilibrado entre armazenamento, manutenção e desempenho através do conhecimento das vantagens e desvantagens apresentadas por cada um deles.