Os comandos a seguir foram executados em uma instância de Production do ClickHouse Cloud. Você também pode executá-los facilmente em uma instalação local.
- Vamos ver como são os dados:
- Agora vamos visualizar algumas das linhas:
url lê dados de um arquivo CSV com facilidade:
- Agora vamos criar uma tabela, já que sabemos como são os dados:
- O comando a seguir insere todo o conjunto de dados na tabela
covid19:
- É bem rápido — vamos ver quantas linhas foram inseridas:
- Vamos ver quantos casos de Covid-19 foram registrados no total:
- Você vai notar que os dados têm muitos 0’s nas datas — seja em fins de semana, seja em dias em que os números não foram divulgados diariamente. Podemos usar uma função de janela para suavizar as médias diárias de novos casos:
- Esta consulta determina os valores mais recentes de cada localidade. Não podemos usar
max(date)porque nem todos os países reportaram dados todos os dias, então pegamos a última linha usandoROW_NUMBER:
- Podemos usar
lagInFramepara determinar oLAGdos novos casos a cada dia. Nesta consulta, filtramos pela localizaçãoUS_DC:
- Esta consulta calcula a variação percentual de novos casos a cada dia e inclui uma coluna simples de
increaseoudecreaseno conjunto de resultados:
Como mencionado no repositório do GitHub, o conjunto de dados não é atualizado desde 15 de setembro de 2022.