Data Lake

2. Criando uma Tabela


Pata criar uma  tabela no Data Lake é muito simples. Basta clicar no botão "+" localizado no menu superior esquerdo, como exemplo na imagem abaixo:



 O campo "Nome" é referente um nome lógico (1) e o "Nome Interno" é o nome físico (2). O campo "Comentário" é muito importante para a organização dos dados: descrever as tabelas e até os atributos, é importante para que toda a estrutura dos dados esteja organizada. Também podemos utilizar o campo de descrição para informar detalhes relevantes dos dados: sua origem, como se obtém, quais são suas regras e tudo o que precisa estar documentado. Podemos também adicionar Tags as nossas tabelas e/ou colunas, elas podem ser usadas para identificar as tabelas/colunas em uma pesquisa.


Adicionar Colunas

Para adicionar colunas na tabela seguimos o mesmo conceito de nomenclatura das tabelas, com os campos nome, nome interno, comentários e tags. Porém temos mais algumas  informações como, Tipo de Dados: deve-se selecionar o tipo de dado que será utilizado na coluna, sendo os tipos disponíveis:

  • String - uma cadeia de caracteres alfabetais e é usada para textos;
  • Integer - em português é o conjunto de número inteiros , ou seja: são compostos por números naturais ou negativos {..., -2, -1, 0, 1, 2, ...}. Geralmente usados para caracterizar chaves das tabelas
  • Datatime - usado para campos de data e hora;
  • Number - usado para campos numéricos que podem ser decimais. Para isso, basta definir a precisão. Pode variar entre -2147483648 a +2147483648;
  • Boolean - para campos que indicam verdadeiro ou falso, 0 ou 1
  • Date - usado para campos de data;
  • BigNumber - campos numéricos como “Number” mas que variam entre -9223372036854775808 e +9223372036854775808.
  • BigInteger -  é um tipo imutável que representa um integer arbitrariamente grande, cujo valor teoricamente não tem limite superior ou inferior.

No campo "Tamanho" podemos limitar o tamanho do dado  que será inserido na coluna que está sendo criada. O campo precisão é  usado somente para tipo  de dados Number ou BigNumber, usado somente quando precisamos definir a quantidade de casas depois da vírgula, por exemplo, para precisão do valor "9999,99" definimos o valor 2. No campo "Nulo" temos apenas dois valores "Sim" ou "Não" para definir se essa coluna poderá ter valor nulo ou não. E por último temos uma caixa de seleção "Particionada" indicando se a coluna  poderá ser particionada ou não.

Os tipos de colunas que poderão ser particionadas são: String, Integer, BigInteger, Date e DateTime.

As tabelas a seguir representam como os tipos de dados serão tratados desde aplicação até a escrita dos arquivos em parquet para atributos particionados ou não particionados.

  • Atributos Particionados

Doc


  • Atributos Não Particionados

doc


Após todos os campos devidamente preenchidos, basta clicar em salvar e continuar adicionando colunas se for necessário.