11 Bases de Dados Para Praticar no Power BI

Uma das principais dificuldades de quem está começando no Power BI é ter uma variedade de dados com qualidade e mais próximo da realidade possível para realmente simular situações prováveis. Com isso em mente, disponibilizaremos nesse artigo uma relação daquelas que podem ser úteis para seu aprendizado.

BANCOS DE DADOS PARA SQL SERVER

Antes de fazer download da base escolhida, é importante conhecer um pouco do conceito de OLTP e DW (Data Warehouse). O primeiro deles, OLTP, significa Online Transaction Processing e simula como um ERP (Enterprise Resource Planning) armazena os dados proveniente de interações com humanas ou não com o sistema, gerando fatos que se relacionam com cadastros, muitas vezes extremamente normalizados com o objetivo de ocupar pouco espaço e ter alta performance.

Já o DW é um “armazém de dados” que é desenhado com base na fonte OLTP. Sua estrutura é mais otimizada para análise de dados, possuindo tabelas fato e dimensão, sendo mais fáceis de serem interpretadas. Ambas fontes podem servir como base para seu estudo, tanto na normalização ou desnormalização de dados OLTP para simplificar a análise, quando na compreensão de sua complexidade e no entendimento prático da necessidade de um DW.

Caso não saiba instalar o SQL Server, veja esse tutorial: https://docs.microsoft.com/pt-br/sql/database-engine/install-windows/install-sql-server?view=sql-server-2017. A seguir, os bancos de dados que recomendamos:

WIDE WORLD IMPORTERS

Descrição: Empresa fictícia importadora de mercadorias em atacado e venda para empresas que revendem para consumidores nos EUA. Seu ano fiscal inicia no dia 1º de novembro.

Tamanho de sua maior tabela:  A tabela Sales.OrderLines tem mais de 321 mil linhas.

Download: https://github.com/Microsoft/sql-server-samples/releases/tag/wide-world-importers-v1.0 (nesse link tem várias versões. Para análise, dê preferencia para aqueles que possuem DW no nome caso queira uma base “mais fácil” e organizada).

ADVENTURE WORKS 2017 OLTP

Descrição: É um banco de dados OLTP presente desde o SQL Server 2005 com dados de uma empresa fictícia que vende materiais esportivos de aventura, como bicicletas, roupas esportivas e acessórios. Possui dados de vendas, produção, recursos humanos e estoque.

Tamanho de sua maior tabela: A tabela SalesOrderDetail tem 121 mil linhas

Download: https://github.com/Microsoft/sql-server-samples/releases/download/adventureworks/AdventureWorks2017.bak

ADVENTURE WORKS 2017 DW

Descrição: É um data warehouse presente desde o SQL Server 2005 com dados de uma empresa fictícia que vende materiais esportivos de aventura, como bicicletas, roupas esportivas e acessórios. Possui dados de vendas, produção, recursos humanos e estoque.

Tamanho de sua maior tabela: A tabela SalesOrderDetail tem 121 mil linhas

Download: https://github.com/Microsoft/sql-server-samples/releases/download/adventureworks/AdventureWorksDW2017.bak

CONTOSO CORPORATION

Descrição: Indústria situada em Paris/França que possui diversas lojas físicas. Produz e vende uma ampla gama de produtos, como eletrodomésticos, computadores e acessórios, mídias, entre outros.

Tamanho de sua maior tabela: A tabela FactSales possui mais de 3.4 milhões de linhas.

Download: https://www.microsoft.com/en-us/download/details.aspx?id=18279

IBGE

Descrição: Possui dados geográficos, populacionais, principais nomes de pessoas utilizados no Brasil, CNAE,  etc.

Disponível em: https://servicodados.ibge.gov.br/api/docs

PORTAL BRASILEIRO DE DADOS ABERTOS

Descrição: 2.938 conjuntos de dados brasileiros divulgados pelo governo: preço de combustível, índices econômicos, orçamento governamental, sistema penitenciário, medicamentos, migração, drogas,  senso escolar, etc.

Disponível em: http://dados.gov.br/

PORTAL DA TRANSPARÊNCIA

Descrição: Portal da Transparência que é um projeto de dados abertos das contas federais brasileiras, como receitas, orçamentos, servidores, gastos, licitações, etc.

Disponível em: http://www.portaltransparencia.gov.br/download-de-dados

CÂMARA DOS DEPUTADOS

Descrição: Muita informação sobre as atividades dos deputados federais brasileiros, como: despesas, proposições, legislaturas, eventos e órgãos.

Disponível em: https://dadosabertos.camara.leg.br/swagger/api.html#staticfile

DADOS ABERTOS DE CNPJ

Descrição: Tabelas de CNPJ cadastrados no Brasil por estado, com informações de

Disponível em: http://idg.receita.fazenda.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-abertos-do-cnpj

WORLD BANK

Descrição: Dados atualizados sobre países no mundo, como população, PIB, mortalidade, fertilidade, saúde, saneamento, etc.

Disponivel em: https://data.worldbank.org/

GERAÇÃO ALEATÓRIA DE DADOS

Mackaroo: Em inglês. É possível escolher dados de nomes de animais, cidades, cores, modelos de carros, nomes de empresas, moedas, data, departamentos, e-mails fictícios, telefones fictícios, nomes de pessoas, cores hexadecimais, endereços de IP, longitude e latitude, gênero de filmes, títulos de filmes, números, senhas, competências profissionais, etc. Gera arquivos em CSV, JSON, SQL, Excel, XML, entre outros.

Disponível em: https://www.mockaroo.com/

KAGGLE

Kaggle é um website que reúne uma comunidade de analistas de dados, cientistas de dados e de machine learning que disponibiliza dados públicos. Foi fundada em 2010.

Disponível em: https://www.kaggle.com/

MINHA SELEÇÃO DE DADOS DO KAGGLE:

Dados de um e-commerce brasileiro (42MB): https://www.kaggle.com/olistbr/brazilian-ecommerce#olist_products_dataset.csv

Dados de multas de estacionamento proibido em Nova York (+8GB): https://www.kaggle.com/new-york-city/nyc-parking-tickets

DATA.WORLD

A Data.World é um site que armazena e disponibiliza centenas de bancos de dados para fins de estudo e investigação. Não apenas para softwares de BI, como também para estudos de Machine Learning, Inteligência Artificial, R, Pyhton, entre outros. No Power BI é disponibilizado um conector exclusivo para o Data.World. Minha seleção de dados da DATA.WORLD para estudo:

ENRON E-MAIL DATASET

Descrição: Banco de dados majoritariamente textual, com mais de 500.000 e-mails reais da empresa Enron Corporation (por causa de uma investigação federal, os e-mails tornaram-se públicos).

Disponível em: https://data.world/brianray/enron-email-dataset

Desejo uma ótima prática. Se criar algum dashboard com essas bases no Power BI, me marque nas redes sociais (@karine lago) para que eu veja 🙂

By |2019-07-12T09:22:56-03:0009 julho 2019|Categories: Eventos|Tags: |0 Comments

Comente!

Informações de Contato

  • Av. Paulista, 171, Andar 4, Bela Vista, São Paulo/SP CEP 01311-904
  • (11) 9 4052 2499
  • comercial@datab.com.br
  • De Segunda à Sexta-feira Das 9:00 às 18:00

Posts recentes