5  Módulo 3 | Exploração de dados

Autor

A. Peralta-Santos e J Dionisio

Data de Publicação

15 de setembro de 2024

5.1 SETUP

Limpar o ambiente

Código
rm(list = ls(all.names = TRUE)) 
# limpa todos os objetos, incluindo os ocultos
# boa política se houver objetos antigos não relevantes
# melhoria da performance

5.1.1 Instalar e carregar bibliotecas

Sempre que se inicia uma nova sessão, as bibliotecas têm de ser carregadas.

Código
# Forma alternativa de instalar vários pacotes e carregá-los

# SOURCE: https://cedricscherer.netlify.app/2019/05/17/the-evolution-of-a-ggplot-ep
# Packages
required_packages <- c("janitor",
                       "tidyverse",
                       "rio",
                       "data.table",
                       "lubridate",
                       "ggplot2",
                       "gt",
                       "skimr",
                       "DataExplorer"
                       )      

for (pkg in required_packages) {
  # install packages if not already present
  if (!pkg %in% rownames(installed.packages())) {
    install.packages(pkg)
  }
  
  # load packages to this current session 
  library(pkg, character.only = TRUE)
}
remove(required_packages)
remove(pkg)

5.2 Importação de dados

Para esta parte da aula não será tão importante alguns passos de data cleaning e data wrangling.

Carregar e limpar os dados

Continuamos a trabalhar os dados hospitalares.

inpatient_hospital <- import("datasets/atividade_internamento_hospitalar.xlsx") |> 
  clean_names()

inpatient_hospital_lite2 <- inpatient_hospital |> 
  select(
    periodo, 
    instituicao, 
    tipo_de_especialidade,
    doentes_saidos,
    dias_de_internamento
  ) |>
  mutate(
    length_patient =
      round((dias_de_internamento/doentes_saidos), digits = 1),
    new_var = 2,
    fonte = "transparencia_sns",
    multiplicacao = dias_de_internamento*doentes_saidos,
    periodo=paste0(periodo, "-01"),
    periodo=as.Date(periodo, format = "%Y-%m-%d"),
    year = year(periodo),
    month=lubridate::month(periodo, label = FALSE),
    week=week(periodo),
    weekday=lubridate::wday(periodo, label=TRUE),
    tipo_instituicao = 
        case_when(
          grepl("Universitário", instituicao, ignore.case = TRUE) ~ "University",
          grepl("Oncologia", instituicao, ignore.case = TRUE) ~ "Cancer hospital"
        ),
    tipo_instituicao = 
      replace_na(tipo_instituicao, "Hospital")
    )

inpatient_hospital_surgery_less_500 <- inpatient_hospital_lite2 |>
  filter(tipo_de_especialidade=="Especialidade Cirurgica" & 
           dias_de_internamento<=500)

covid_inc <- import("datasets/covid_inc.csv")|> 
  clean_names()

hypoxia <- import("datasets/hypoxia.xlsx")|> 
  clean_names()

5.3 Análise Exploratória de Dados (EDA)

A Análise Exploratória de Dados (EDA, do inglês “Exploratory Data Analysis”) é uma etapa fundamental e dinâmica no processo de análise de dados. Mais do que um conjunto de procedimentos rígidos, a EDA é um processo criativo e iterativo de exploração e compreensão dos dados.

Análise Exploratória de Dados

“Não existem perguntas estatísticas rotineiras, apenas rotinas estatísticas questionáveis.” — Sir David Cox

A EDA é motivada pela curiosidade e guiada pelos dados disponíveis, sendo essencial na avaliação da qualidade dos dados e na geração de insights valiosos.

Processo Iterativo de EDA

  1. Formulação de Perguntas a Partir dos Dados: Levante questionamentos baseados nos dados disponíveis. Este passo é crucial para direcionar a análise.

  2. Exploração dos dados:

    • Visualizações: Use gráficos e visualizações de dados para avaliar tendências, padrões e anomalias.
    • Transformações de Dados: Manipule e transforme os dados para melhor compreensão e análise.
    • Modelos: Aplique modelos estatísticos simples para testar hipóteses e explorar relações.
  3. Reflexão e Aprofundamento: Reflita sobre o que foi aprendido com as análises iniciais. Use esses conhecimento para melhorar as perguntas existentes ou formular novas.

Pré-requisitos

  • Conhecimento dos Dados: Conheça o dataset em profundidados entenda as variáveis, as unidades de medida e o contexto dos dados.

  • Consulta aos Metadados: Se os dados forem desconhecidos ou complexos, consulte os metadados para uma compreensão detalhada das variáveis e da estrutura dos dados. Se não existirem metadados fale com alguem que conheça o dataset e o processo de geração de dados.

5.3.1 Exploração inicial

Estas primeiras funções não dirão muito mas permitem ter uma melhor compreensão ds dados que temos á frente.

Números de linhas

nrow(inpatient_hospital)
[1] 7746

Temos 7746 observações.

Número de Colunas

ncol(inpatient_hospital)
[1] 7

Temos 7 observações.

# esta função resume as duas questões anteriores
dim(inpatient_hospital)
[1] 7746    7

Para além do número de registos, podemos querer saber o nome e o tipo de variável importados.

Nome das colunas

colnames(inpatient_hospital)
[1] "periodo"                "regiao"                 "instituicao"           
[4] "localizacao_geografica" "tipo_de_especialidade"  "doentes_saidos"        
[7] "dias_de_internamento"  
length(inpatient_hospital)
[1] 7

Nos dados originais temos 7 variáveis:

  • periodo
  • regiao
  • instituicao
  • tipo de especialidade
  • localização geográfica
  • dias de internamento
  • doentes saidos

Tipo de Variável

str(inpatient_hospital)
'data.frame':   7746 obs. of  7 variables:
 $ periodo               : chr  "2015-01" "2015-01" "2015-01" "2015-01" ...
 $ regiao                : chr  "Região de Saúde do Alentejo" "Região de Saúde do Centro" "Região de Saúde do Centro" "Região de Saúde do Centro" ...
 $ instituicao           : chr  "Unidade Local de Saúde do Baixo Alentejo, EPE" "Centro Hospitalar Universitário Cova da Beira, EPE" "Centro Hospitalar do Baixo Vouga, EPE" "Instituto Português Oncologia de Coimbra, EPE" ...
 $ localizacao_geografica: chr  "38.014123, -7.8721227" "40.2804158, -7.4922407" "40.6362453, -8.6543716" "40.2162514, -8.4103814" ...
 $ tipo_de_especialidade : chr  "Especialidade Cirurgica" "Especialidade Cirurgica" "Especialidade Cirurgica" "Especialidade Cirurgica" ...
 $ doentes_saidos        : num  360 352 651 330 329 ...
 $ dias_de_internamento  : num  2026 2626 3958 2183 2640 ...

Com os dados do str sabemos que:

Temos 4 variáveis nominais:

  • periodo
  • regiao
  • instituicao
  • localização geográfica
  • tipo de especialidade

Temos duas variáveis numéricas:

  • doentes saidos
  • dias de internamentos

Embora as variáveis numéricas façam sentido, nas nominais podemos querer alterar algumas coisas:

  • Mudar periodo para data
  • Mudar a regiao, instituicao e tipo de especialidade para fatores para análises estatísticas subsequentes
  • Para já não temos questões relativas à localização geográfica, por isso podemos remover esta variável
inpatient_hospital_lite <- inpatient_hospital |> 
  select(
    -localizacao_geografica # remover localização
  ) |>
  mutate(
    periodo=paste0(periodo, "-01"), # modificar periodo para que possa ser lido como data
    periodo=as.Date(periodo, format = "%Y-%m-%d"), #informar que periodo é data
    regiao= as_factor(regiao), # existe uma função para fatores ordinais que é ordered() mas que neste caso não é útil
    instituicao= as_factor(instituicao),
    tipo_de_especialidade=as_factor(tipo_de_especialidade))

Vamos confirmar as alterações com o str

str(inpatient_hospital_lite)
'data.frame':   7746 obs. of  6 variables:
 $ periodo              : Date, format: "2015-01-01" "2015-01-01" ...
 $ regiao               : Factor w/ 5 levels "Região de Saúde do Alentejo",..: 1 2 2 2 2 3 4 4 4 4 ...
 $ instituicao          : Factor w/ 51 levels "Unidade Local de Saúde do Baixo Alentejo, EPE",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ tipo_de_especialidade: Factor w/ 2 levels "Especialidade Cirurgica",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ doentes_saidos       : num  360 352 651 330 329 ...
 $ dias_de_internamento : num  2026 2626 3958 2183 2640 ...

Agora já temos um melhor conhecimento sobre os dados:

  • Uma variável de Data
  • 3 variáveis são fatores
    • Regiao com 5 valores possíveis
    • Intituicão com 51 valores possíveis
    • Tipo de especialidade com 2 valores posssíveis

5.3.2 Visualizar os dados

Uma boa prática numa primeira fase é visualizar pequenas porções dos dados para ver possíveis problemas imediatamente.

Função head() e tail()

Estas funções expõe n linhas dos dados.

Por default, são 5 linhas

head(inpatient_hospital_lite)
     periodo                      regiao
1 2015-01-01 Região de Saúde do Alentejo
2 2015-01-01   Região de Saúde do Centro
3 2015-01-01   Região de Saúde do Centro
4 2015-01-01   Região de Saúde do Centro
5 2015-01-01   Região de Saúde do Centro
6 2015-01-01         Região de Saúde LVT
                                         instituicao   tipo_de_especialidade
1      Unidade Local de Saúde do Baixo Alentejo, EPE Especialidade Cirurgica
2 Centro Hospitalar Universitário Cova da Beira, EPE Especialidade Cirurgica
3              Centro Hospitalar do Baixo Vouga, EPE Especialidade Cirurgica
4      Instituto Português Oncologia de Coimbra, EPE Especialidade Cirurgica
5              Unidade Local de Saúde da Guarda, EPE Especialidade Cirurgica
6                  Centro Hospitalar de Setúbal, EPE Especialidade Cirurgica
  doentes_saidos dias_de_internamento
1            360                 2026
2            352                 2626
3            651                 3958
4            330                 2183
5            329                 2640
6            525                 3442
tail(inpatient_hospital_lite)
        periodo                regiao
7741 2022-01-01   Região de Saúde LVT
7742 2022-01-01 Região de Saúde Norte
7743 2022-01-01 Região de Saúde Norte
7744 2022-01-01 Região de Saúde Norte
7745 2022-01-01 Região de Saúde Norte
7746 2022-01-01 Região de Saúde Norte
                                            instituicao tipo_de_especialidade
7741       Instituto Português Oncologia de Lisboa, EPE  Especialidade Médica
7742                Centro Hospitalar do Médio Ave, EPE  Especialidade Médica
7743 Centro Hospitalar Trás-os-Montes e Alto Douro, EPE  Especialidade Médica
7744                             Hospital de Braga, EPE  Especialidade Médica
7745        Instituto Português Oncologia do Porto, EPE  Especialidade Médica
7746          Unidade Local de Saúde do Alto Minho, EPE  Especialidade Médica
     doentes_saidos dias_de_internamento
7741            491                 3488
7742            361                 4806
7743           1103                 8243
7744            904                 9555
7745            328                 3239
7746            507                 4631

Pelos dados do Head e do Tail verificamos que os dados:

  • Estão orientados de forma ascendente pelo período
  • Parecem ir das Especialidade Cirúrgicas para as Médicas
  • Os valores da variável dias de internamento parecem ser maiores

GT (preview)

Um dos maiores pacotes para geração de tabelas permite de forma simples fazer o mesmo que as funções head e tail numa tabela.

inpatient_hospital_lite |> 
  gt_preview(top_n=5, bottom_n = 5)
periodo regiao instituicao tipo_de_especialidade doentes_saidos dias_de_internamento
1 2015-01-01 Região de Saúde do Alentejo Unidade Local de Saúde do Baixo Alentejo, EPE Especialidade Cirurgica 360 2026
2 2015-01-01 Região de Saúde do Centro Centro Hospitalar Universitário Cova da Beira, EPE Especialidade Cirurgica 352 2626
3 2015-01-01 Região de Saúde do Centro Centro Hospitalar do Baixo Vouga, EPE Especialidade Cirurgica 651 3958
4 2015-01-01 Região de Saúde do Centro Instituto Português Oncologia de Coimbra, EPE Especialidade Cirurgica 330 2183
5 2015-01-01 Região de Saúde do Centro Unidade Local de Saúde da Guarda, EPE Especialidade Cirurgica 329 2640
6..7741
7742 2022-01-01 Região de Saúde Norte Centro Hospitalar do Médio Ave, EPE Especialidade Médica 361 4806
7743 2022-01-01 Região de Saúde Norte Centro Hospitalar Trás-os-Montes e Alto Douro, EPE Especialidade Médica 1103 8243
7744 2022-01-01 Região de Saúde Norte Hospital de Braga, EPE Especialidade Médica 904 9555
7745 2022-01-01 Região de Saúde Norte Instituto Português Oncologia do Porto, EPE Especialidade Médica 328 3239
7746 2022-01-01 Região de Saúde Norte Unidade Local de Saúde do Alto Minho, EPE Especialidade Médica 507 4631

Summary

A função mais conhecia para a estatística descritiva no R, é o summary(), que dá a amplitude dos dados, a média e mediana dos dados, porém não mede o tamanho amostral total, o tipo de distribição nem disperção dos dados.

summary(inpatient_hospital_lite)
    periodo                                   regiao    
 Min.   :2015-01-01   Região de Saúde do Alentejo: 680  
 1st Qu.:2016-10-01   Região de Saúde do Centro  :1797  
 Median :2018-07-01   Região de Saúde LVT        :2465  
 Mean   :2018-07-03   Região de Saúde Norte      :2634  
 3rd Qu.:2020-04-01   Região de Saúde do Algarve : 170  
 Max.   :2022-01-01                                     
                                                        
                                             instituicao  
 Unidade Local de Saúde do Baixo Alentejo, EPE     : 170  
 Centro Hospitalar Universitário Cova da Beira, EPE: 170  
 Centro Hospitalar do Baixo Vouga, EPE             : 170  
 Instituto Português Oncologia de Coimbra, EPE     : 170  
 Unidade Local de Saúde da Guarda, EPE             : 170  
 Centro Hospitalar de Setúbal, EPE                 : 170  
 (Other)                                           :6726  
             tipo_de_especialidade doentes_saidos  dias_de_internamento
 Especialidade Cirurgica:3740      Min.   :    3   Min.   :    46      
 Especialidade Médica   :4006      1st Qu.: 1474   1st Qu.: 11770      
                                   Median : 3185   Median : 24957      
                                   Mean   : 4374   Mean   : 35756      
                                   3rd Qu.: 5909   3rd Qu.: 47372      
                                   Max.   :34354   Max.   :259313      
                                   NA's   :2                           

Com mais esta função aprofundamos mais o nosso conhecimento dos dados:

  • A data vai de janeiro de 2015 a janeiro de 2022 e parece ser mensal que o ponto médio é julho de 2018

  • Existem mais registos de LVT e Norte (possivel razão?)

  • Parecem haver 170 registos por hospital

  • Existem mais registos de Especialidades Médicas do que de Cirúrgicas

  • Os doentes saídos têm 2 valores em falta

  • As distribuições das variáveis dos doentes saidos e dos dias de internamento têm uma variabilidade

Ver os números por hospital

inp_hosp_lite_count <- inpatient_hospital_lite |> 
  summarise(
            count= n(),
            total_patients= sum(doentes_saidos, na.rm = TRUE),
            mean_patients = mean(doentes_saidos, na.rm = TRUE),
            sd_patients = sd(doentes_saidos, na.rm = TRUE),
            median_patients = median(doentes_saidos, na.rm = TRUE), 
            iqr_patients = IQR(doentes_saidos, na.rm = TRUE),
  .by = instituicao) |> 
   arrange(count)

head(inp_hosp_lite_count)
                                                    instituicao count
1                                       Hospital de Loures, EPE     2
2                            Hospital Arcebispo João Crisóstomo    12
3                          Hospital de Vila Franca de Xira, EPE    16
4                                        Hospital de Braga, EPE    58
5                              Hospital de Magalhães Lemos, EPE    84
6 Centro Medicina de Reabilitação da Região Centro Rovisco Pais    85
  total_patients mean_patients sd_patients median_patients iqr_patients
1           1126      563.0000    97.58074           563.0        69.00
2            744       62.0000    34.55431            70.0        54.75
3          68180     4261.2500  1929.67958          4445.0      2003.75
4         432750     7461.2069  4674.28320          7164.5      6967.25
5         114128     1358.6667   794.52631          1279.5      1272.50
6          11208      131.8588    75.14401           133.0       132.00

Quais são algumas considerações que podemos fazer sobre estes dados?

5.3.3 Variação

A variação é a tendência dos dados variarem por medições consecutivas ou por sujeitos ou tempos.

Vamos explorar questões iniciais:

  • Qual é a variação de doentes saídos por hospital
  • Qual a diferença da distribuição de dados entre 2015 e 2022
  • Qual é a variação dos dados por Tipo de Especialidade.

Como a variável doentes de doentes saidos é numérica podemos explorar a sua distribuição através do uso de histogramas. Em módulos futuros iremos explorar como fazer código e como melhorar gráficos apresentados.

O objetivo desta fase é explorar os valores mais típicos e procurar valores inesperados.

Perguntas desta fase podem ser:

  • Quais são os valores mais comuns? Razões para isso?
  • Quais valores são mais raros? Porquê serão?
  • É possível observar algum padrão incomum?

Qual é a variação de doentes saídos por hospital

p1 <- inpatient_hospital_lite |> 
  ggplot(aes(x=doentes_saidos))+
    geom_histogram(binwidth = 500)#isto cria um histograma com intervalos de 500 doentes
  
p1

Qual a diferença da distribuição de dados entre 2015 e 2022

p1 <- ggplot()+
    geom_histogram(data=inpatient_hospital_lite |> 
                     filter(periodo<"2016-01-01"),
                   aes(x=doentes_saidos),
                   binwidth = 500, 
                   fill="blue", 
                   alpha=0.5)+ #isto cria um histograma com intervalos de 500 doentes
    geom_histogram(data=inpatient_hospital_lite |> 
                     filter(periodo>"2021-01-01"),
                   aes(x=doentes_saidos), 
                   binwidth = 500, 
                   fill="red", 
                   alpha=0.5)

p1

Os dados de 2021 aparentem ter uma maior frequência de valores mais baixos que 2015.

Qual é a variação dos dados por Tipo de Especialidade

p1 <- ggplot()+
    geom_histogram(data=inpatient_hospital_lite |> 
                     filter(tipo_de_especialidade=="Especialidade Médica"),
                   aes(x=doentes_saidos), 
                   binwidth = 500, 
                   fill="blue", 
                   alpha=0.5)+#isto cria um histograma com intervalos de 500 doentes
    geom_histogram(data=inpatient_hospital_lite |> 
                     filter(tipo_de_especialidade=="Especialidade Cirurgica"),
                   aes(x=doentes_saidos), 
                   binwidth = 500, 
                   fill="red", 
                   alpha=0.4)

p1

As Especialidades Médicas aparentem ter uma distribuição mais equilibrada de valores e os valores mais elevados parecem advir de valores de Especialidades Cirúrgicas.

Outras questões?

  • Existem padrões diferentes nos hospitais centrais e periféricos?

  • Existem diferenças entre os dados de Dezembro e de Junho?

5.3.4 Valores omissos

Para filtrarmos os dados em falta iremos utilizar a função is.na().

inpatient_hospital_na <- inpatient_hospital_lite |> 
  filter(is.na(doentes_saidos))

inpatient_hospital_na 
     periodo                    regiao                           instituicao
1 2018-10-01 Região de Saúde do Centro Unidade Local de Saúde da Guarda, EPE
2 2018-10-01 Região de Saúde do Centro Unidade Local de Saúde da Guarda, EPE
    tipo_de_especialidade doentes_saidos dias_de_internamento
1    Especialidade Médica             NA                45164
2 Especialidade Cirurgica             NA                21215

Pela tabela podemos ver que a Unidade Local de Saúde da Guarda, EPE não reportou dados de doentes saidos.

Será porque foram 0? Sera porque não reportaram dados?

inpatient_hospital_zero <- inpatient_hospital_lite |> 
  filter(doentes_saidos<10)

inpatient_hospital_zero
     periodo                    regiao                        instituicao
1 2021-01-01 Região de Saúde do Centro Hospital Arcebispo João Crisóstomo
  tipo_de_especialidade doentes_saidos dias_de_internamento
1  Especialidade Médica              3                   49

Não existem valore codificados para 0, sendo que o valor mínimo é de 3.

5.3.5 Valores incomuns (outliers)

Para efeitos de deteção de outliers foram consideradas todas as observações fora da equação abaixo.

\[ I=[q0.25−1.5⋅IQR;q0.75+1.5⋅IQR] \]

Tendo em conta os dados dos histogramas acima, vamo-nos focar nos dados de Especialidade Cirúrgica.

inpatient_hospital_outliers <- inpatient_hospital_lite |> 
  filter(tipo_de_especialidade=="Especialidade Cirurgica")

summary(inpatient_hospital_outliers)
    periodo                                   regiao    
 Min.   :2015-01-01   Região de Saúde do Alentejo: 340  
 1st Qu.:2016-10-01   Região de Saúde do Centro  : 850  
 Median :2018-07-01   Região de Saúde LVT        :1190  
 Mean   :2018-07-01   Região de Saúde Norte      :1275  
 3rd Qu.:2020-04-01   Região de Saúde do Algarve :  85  
 Max.   :2022-01-01                                     
                                                        
                                             instituicao  
 Unidade Local de Saúde do Baixo Alentejo, EPE     :  85  
 Centro Hospitalar Universitário Cova da Beira, EPE:  85  
 Centro Hospitalar do Baixo Vouga, EPE             :  85  
 Instituto Português Oncologia de Coimbra, EPE     :  85  
 Unidade Local de Saúde da Guarda, EPE             :  85  
 Centro Hospitalar de Setúbal, EPE                 :  85  
 (Other)                                           :3230  
             tipo_de_especialidade doentes_saidos  dias_de_internamento
 Especialidade Cirurgica:3740      Min.   :   11   Min.   :    46      
 Especialidade Médica   :   0      1st Qu.: 1578   1st Qu.:  9657      
                                   Median : 3333   Median : 20604      
                                   Mean   : 4693   Mean   : 29755      
                                   3rd Qu.: 6184   3rd Qu.: 37950      
                                   Max.   :34354   Max.   :240442      
                                   NA's   :1                           
q25 <- 1578
q75 <- 6184
median <- 3333
iqr <- q75-q25
  
inpatient_hospital_outliers <- inpatient_hospital_lite |> 
  filter(doentes_saidos>median+1.5*iqr|doentes_saidos<median-1.5*iqr)

nrow(inpatient_hospital_outliers)
[1] 627

Existem 627 valores que são outliers.

q25 <- 1578
q75 <- 6184
median <- 3333
iqr <- q75-q25
  
inpatient_hospital_outliers <- inpatient_hospital_lite |> 
  filter(doentes_saidos>median+3*iqr|doentes_saidos<median-3*iqr)

nrow(inpatient_hospital_outliers)
[1] 158

Existem 158 valores que são outliers.

Vamos olhar para os valores superiores e ver que hospitais reportam estes valores.

q25 <- 1578
q75 <- 6184
median <- 3333
iqr <- q75-q25
  
inpatient_hospital_outliers_nome <- inpatient_hospital_lite |> 
  filter(doentes_saidos>median+3*iqr) |>
  distinct(instituicao) |> 
  pull(instituicao)

inpatient_hospital_outliers_nome
[1] Centro Hospitalar Universitário do Porto, EPE       
[2] Centro Hospitalar Universitário Lisboa Central, EPE 
[3] Centro Hospitalar e Universitário de Coimbra, EPE   
[4] Centro Hospitalar Universitário de São João, EPE    
[5] Hospital de Braga, EPE                              
[6] Centro Hospitalar Universitário de Lisboa Norte, EPE
51 Levels: Unidade Local de Saúde do Baixo Alentejo, EPE ...

Existem 6 hospitiais que reportam valores outliers severos superiores.

  1. Centro Hospitalar Universitário do Porto, EPE
  2. Centro Hospitalar Universitário Lisboa Central, EPE
  3. Centro Hospitalar e Universitário de Coimbra, EPE
  4. Centro Hospitalar Universitário de São João, EPE
  5. Hospital de Braga, EPE
  6. Centro Hospitalar Universitário de Lisboa Norte, EPE

5.3.6 Covariação

A variação é o comportamento em relação a uma variável. A covariação é a tendência dos valores de uma varíavel estarem relacionados

Nesta aula iremos apenas uma forma de o fazer graficamente com um scatterplot com os dados de 2016.

ggplot(data = inpatient_hospital_lite |> filter(periodo<"2016-01-01"), 
       aes(x=doentes_saidos, y=dias_de_internamento)) + 
  geom_point(alpha=0.5) +
  theme_minimal()

Parece existir uma tendência positiva entre os doentes saidos e os dias de internamentos.

5.4 Ferramentas de Exploração Rápida

5.4.1 SkimR

Para um EDA mais eficiente existem já pacotes criados como o Skimr.

Este pacote calcula logo:

  • Número de dados em falta
  • Média
  • Mediana
  • Desvio-Padrão
  • Q0, Q25, Q50, Q75 e Q100
skim(inpatient_hospital_lite)
Data summary
Name inpatient_hospital_lite
Number of rows 7746
Number of columns 6
_______________________
Column type frequency:
Date 1
factor 3
numeric 2
________________________
Group variables None

Variable type: Date

skim_variable n_missing complete_rate min max median n_unique
periodo 0 1 2015-01-01 2022-01-01 2018-07-01 85

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
regiao 0 1 FALSE 5 Reg: 2634, Reg: 2465, Reg: 1797, Reg: 680
instituicao 0 1 FALSE 51 Uni: 170, Cen: 170, Cen: 170, Ins: 170
tipo_de_especialidade 0 1 FALSE 2 Esp: 4006, Esp: 3740

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
doentes_saidos 2 1 4374.48 4197.93 3 1473.75 3185 5909.0 34354 ▇▂▁▁▁
dias_de_internamento 0 1 35756.06 35219.47 46 11770.25 24957 47371.5 259313 ▇▂▁▁▁

Por Especialidade

inpatient_hospital_lite |> 
  group_by(tipo_de_especialidade) |> 
  select(-dias_de_internamento, -periodo) |>
  skim()
Data summary
Name select(…)
Number of rows 7746
Number of columns 4
_______________________
Column type frequency:
factor 2
numeric 1
________________________
Group variables tipo_de_especialidade

Variable type: factor

skim_variable tipo_de_especialidade n_missing complete_rate ordered n_unique top_counts
regiao Especialidade Cirurgica 0 1 FALSE 5 Reg: 1275, Reg: 1190, Reg: 850, Reg: 340
regiao Especialidade Médica 0 1 FALSE 5 Reg: 1359, Reg: 1275, Reg: 947, Reg: 340
instituicao Especialidade Cirurgica 0 1 FALSE 47 Uni: 85, Cen: 85, Cen: 85, Ins: 85
instituicao Especialidade Médica 0 1 FALSE 51 Uni: 85, Cen: 85, Cen: 85, Ins: 85

Variable type: numeric

skim_variable tipo_de_especialidade n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
doentes_saidos Especialidade Cirurgica 1 1 4693.22 4658.64 11 1577.5 3333 6183.5 34354 ▇▂▁▁▁
doentes_saidos Especialidade Médica 1 1 4076.91 3692.47 3 1419.0 3056 5726.0 26335 ▇▂▁▁▁

Por instituição

inpatient_hospital_lite |> 
  group_by(instituicao) |>
  select(-dias_de_internamento, -periodo) |> 
  skim()
Data summary
Name select(…)
Number of rows 7746
Number of columns 4
_______________________
Column type frequency:
factor 2
numeric 1
________________________
Group variables instituicao

Variable type: factor

skim_variable instituicao n_missing complete_rate ordered n_unique top_counts
regiao Unidade Local de Saúde do Baixo Alentejo, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Universitário Cova da Beira, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar do Baixo Vouga, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Instituto Português Oncologia de Coimbra, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Unidade Local de Saúde da Guarda, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar de Setúbal, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Universitário de São João, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar do Médio Ave, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Entre Douro e Vouga, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Santa Maria Maior, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Universitário do Algarve,EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Dr. Francisco Zagalo 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Unidade Local de Saúde de Castelo Branco, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar de Lisboa Ocidental, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Garcia de Orta, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Universitário do Porto, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital da Senhora da Oliveira, Guimarães, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Instituto Português Oncologia do Porto, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Unidade Local de Saúde do Alto Minho, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Unidade Local de Saúde do Nordeste, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Tondela-Viseu, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Médio Tejo, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Tâmega e Sousa, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Trás-os-Montes e Alto Douro, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Braga, PPP 0 1 FALSE 1 Reg: 112, Reg: 0, Reg: 0, Reg: 0
regiao Unidade Local de Saúde do Norte Alentejano, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar e Universitário de Coimbra, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Unidade Local de Saúde do Litoral Alentejano, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Barreiro/Montijo, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Loures, PPP 0 1 FALSE 1 Reg: 168, Reg: 0, Reg: 0, Reg: 0
regiao Instituto Português Oncologia de Lisboa, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Vila Franca de Xira, PPP 0 1 FALSE 1 Reg: 154, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Universitário Lisboa Central, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Unidade Local de Saúde de Matosinhos, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Distrital de Santarém, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Cascais, PPP 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Vila Nova de Gaia/Espinho, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar do Oeste, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Universitário de Lisboa Norte, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Professor Doutor Fernando Fonseca, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Espírito Santo de Évora, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Póvoa de Varzim/Vila do Conde, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar de Leiria, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Distrital da Figueira da Foz, EPE 0 1 FALSE 1 Reg: 170, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Braga, EPE 0 1 FALSE 1 Reg: 58, Reg: 0, Reg: 0, Reg: 0
regiao Centro Medicina de Reabilitação da Região Centro Rovisco Pais 0 1 FALSE 1 Reg: 85, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Magalhães Lemos, EPE 0 1 FALSE 1 Reg: 84, Reg: 0, Reg: 0, Reg: 0
regiao Centro Hospitalar Psiquiátrico de Lisboa 0 1 FALSE 1 Reg: 85, Reg: 0, Reg: 0, Reg: 0
regiao Hospital Arcebispo João Crisóstomo 0 1 FALSE 1 Reg: 12, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Vila Franca de Xira, EPE 0 1 FALSE 1 Reg: 16, Reg: 0, Reg: 0, Reg: 0
regiao Hospital de Loures, EPE 0 1 FALSE 1 Reg: 2, Reg: 0, Reg: 0, Reg: 0
tipo_de_especialidade Unidade Local de Saúde do Baixo Alentejo, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Universitário Cova da Beira, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar do Baixo Vouga, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Instituto Português Oncologia de Coimbra, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Unidade Local de Saúde da Guarda, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar de Setúbal, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Universitário de São João, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar do Médio Ave, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Entre Douro e Vouga, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital Santa Maria Maior, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Universitário do Algarve,EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital Dr. Francisco Zagalo 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Unidade Local de Saúde de Castelo Branco, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar de Lisboa Ocidental, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital Garcia de Orta, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Universitário do Porto, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital da Senhora da Oliveira, Guimarães, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Instituto Português Oncologia do Porto, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Unidade Local de Saúde do Alto Minho, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Unidade Local de Saúde do Nordeste, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Tondela-Viseu, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Médio Tejo, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Tâmega e Sousa, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Trás-os-Montes e Alto Douro, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital de Braga, PPP 0 1 FALSE 2 Esp: 56, Esp: 56
tipo_de_especialidade Unidade Local de Saúde do Norte Alentejano, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar e Universitário de Coimbra, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Unidade Local de Saúde do Litoral Alentejano, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Barreiro/Montijo, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital de Loures, PPP 0 1 FALSE 2 Esp: 84, Esp: 84
tipo_de_especialidade Instituto Português Oncologia de Lisboa, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital de Vila Franca de Xira, PPP 0 1 FALSE 2 Esp: 77, Esp: 77
tipo_de_especialidade Centro Hospitalar Universitário Lisboa Central, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Unidade Local de Saúde de Matosinhos, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital Distrital de Santarém, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital de Cascais, PPP 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Vila Nova de Gaia/Espinho, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar do Oeste, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Universitário de Lisboa Norte, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital Professor Doutor Fernando Fonseca, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital Espírito Santo de Évora, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar Póvoa de Varzim/Vila do Conde, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Centro Hospitalar de Leiria, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital Distrital da Figueira da Foz, EPE 0 1 FALSE 2 Esp: 85, Esp: 85
tipo_de_especialidade Hospital de Braga, EPE 0 1 FALSE 2 Esp: 29, Esp: 29
tipo_de_especialidade Centro Medicina de Reabilitação da Região Centro Rovisco Pais 0 1 FALSE 1 Esp: 85, Esp: 0
tipo_de_especialidade Hospital de Magalhães Lemos, EPE 0 1 FALSE 1 Esp: 84, Esp: 0
tipo_de_especialidade Centro Hospitalar Psiquiátrico de Lisboa 0 1 FALSE 1 Esp: 85, Esp: 0
tipo_de_especialidade Hospital Arcebispo João Crisóstomo 0 1 FALSE 1 Esp: 12, Esp: 0
tipo_de_especialidade Hospital de Vila Franca de Xira, EPE 0 1 FALSE 2 Esp: 8, Esp: 8
tipo_de_especialidade Hospital de Loures, EPE 0 1 FALSE 2 Esp: 1, Esp: 1

Variable type: numeric

skim_variable instituicao n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
doentes_saidos Unidade Local de Saúde do Baixo Alentejo, EPE 0 1.00 2018.19 1105.14 263 1069.50 1989.0 2877.75 4342 ▇▇▇▆▃
doentes_saidos Centro Hospitalar Universitário Cova da Beira, EPE 0 1.00 2592.31 1494.47 183 1358.75 2554.5 3677.75 6669 ▇▇▇▅▁
doentes_saidos Centro Hospitalar do Baixo Vouga, EPE 0 1.00 4048.38 2230.78 393 2136.50 3924.5 5780.25 9202 ▇▇▇▆▂
doentes_saidos Instituto Português Oncologia de Coimbra, EPE 0 1.00 1508.82 1011.57 98 672.50 1320.5 2103.75 4057 ▇▇▅▃▂
doentes_saidos Unidade Local de Saúde da Guarda, EPE 2 0.99 2245.76 1341.49 152 1129.75 2173.5 3221.75 5537 ▇▇▇▃▂
doentes_saidos Centro Hospitalar de Setúbal, EPE 0 1.00 3627.41 2047.63 265 1995.75 3525.0 5217.75 8037 ▇▇▇▆▃
doentes_saidos Centro Hospitalar Universitário de São João, EPE 0 1.00 10669.81 6646.05 1158 5287.00 9755.5 14881.25 26691 ▇▇▆▂▂
doentes_saidos Centro Hospitalar do Médio Ave, EPE 0 1.00 2578.92 1499.06 316 1380.50 2466.5 3581.75 6770 ▇▇▇▃▁
doentes_saidos Centro Hospitalar Entre Douro e Vouga, EPE 0 1.00 4612.49 2763.49 526 2399.00 4355.0 6372.75 12310 ▇▇▆▂▁
doentes_saidos Hospital Santa Maria Maior, EPE 0 1.00 1388.47 788.86 134 748.25 1366.0 1963.25 3174 ▇▇▇▅▃
doentes_saidos Centro Hospitalar Universitário do Algarve,EPE 0 1.00 7312.89 3991.64 861 3831.75 7201.0 10706.00 14314 ▇▇▆▆▇
doentes_saidos Hospital Dr. Francisco Zagalo 0 1.00 198.41 112.39 11 102.75 196.0 283.75 498 ▇▇▇▅▁
doentes_saidos Unidade Local de Saúde de Castelo Branco, EPE 0 1.00 1950.35 1075.22 185 1026.75 1933.5 2815.50 3996 ▇▇▇▇▅
doentes_saidos Centro Hospitalar de Lisboa Ocidental, EPE 0 1.00 6090.53 3323.78 698 3230.75 5966.5 8673.25 12912 ▇▇▇▇▃
doentes_saidos Hospital Garcia de Orta, EPE 0 1.00 5030.92 2836.34 549 2670.00 4910.0 7227.00 11366 ▇▇▇▆▂
doentes_saidos Centro Hospitalar Universitário do Porto, EPE 0 1.00 7879.96 5058.62 860 3689.50 6942.5 10299.75 20510 ▇▇▅▂▂
doentes_saidos Hospital da Senhora da Oliveira, Guimarães, EPE 0 1.00 5304.49 2874.93 565 2857.00 5272.5 7667.75 10664 ▇▇▆▇▅
doentes_saidos Instituto Português Oncologia do Porto, EPE 0 1.00 2918.21 1659.30 328 1576.50 2787.0 4196.50 6451 ▇▇▇▆▃
doentes_saidos Unidade Local de Saúde do Alto Minho, EPE 0 1.00 4274.19 2379.87 357 2304.25 4232.0 6112.75 9489 ▇▇▆▆▂
doentes_saidos Unidade Local de Saúde do Nordeste, EPE 0 1.00 2737.38 1505.43 236 1495.75 2722.5 3945.00 5914 ▇▇▇▆▃
doentes_saidos Centro Hospitalar Tondela-Viseu, EPE 0 1.00 5318.63 2912.84 568 2897.00 5312.0 7775.50 11056 ▇▇▇▇▅
doentes_saidos Centro Hospitalar Médio Tejo, EPE 0 1.00 4033.18 2277.49 334 2151.25 3909.0 5828.50 9031 ▇▇▇▆▃
doentes_saidos Centro Hospitalar Tâmega e Sousa, EPE 0 1.00 5437.71 2961.36 686 2847.50 5420.5 7831.75 11990 ▇▇▇▆▂
doentes_saidos Centro Hospitalar Trás-os-Montes e Alto Douro, EPE 0 1.00 6156.22 3523.32 554 3189.00 5992.5 8719.25 14358 ▇▇▇▅▂
doentes_saidos Hospital de Braga, PPP 0 1.00 7046.74 4151.97 958 3850.75 6581.5 9709.25 16783 ▇▆▆▃▂
doentes_saidos Unidade Local de Saúde do Norte Alentejano, EPE 0 1.00 1963.63 1063.67 181 1064.50 1968.0 2812.50 4407 ▇▇▇▇▂
doentes_saidos Centro Hospitalar e Universitário de Coimbra, EPE 0 1.00 14715.06 8365.37 1610 7894.25 14047.0 21051.25 34354 ▇▇▇▆▂
doentes_saidos Unidade Local de Saúde do Litoral Alentejano, EPE 0 1.00 1276.24 740.47 72 664.75 1224.5 1836.25 2855 ▇▇▇▅▃
doentes_saidos Centro Hospitalar Barreiro/Montijo, EPE 0 1.00 2725.27 1481.83 243 1414.75 2706.5 3925.75 5763 ▇▇▇▇▃
doentes_saidos Hospital de Loures, PPP 0 1.00 4653.85 2459.21 370 2553.75 4562.0 6577.75 9670 ▇▇▇▇▅
doentes_saidos Instituto Português Oncologia de Lisboa, EPE 0 1.00 3215.51 1864.28 371 1716.00 3106.0 4632.00 7419 ▇▆▆▅▂
doentes_saidos Hospital de Vila Franca de Xira, PPP 0 1.00 3621.82 1999.13 324 1987.00 3498.0 5250.25 7582 ▇▇▇▇▅
doentes_saidos Centro Hospitalar Universitário Lisboa Central, EPE 0 1.00 11130.93 6422.79 1238 5910.25 10864.0 15832.00 26164 ▇▇▆▅▂
doentes_saidos Unidade Local de Saúde de Matosinhos, EPE 0 1.00 4007.21 2230.22 486 2125.50 3992.0 5754.25 9248 ▇▇▇▆▂
doentes_saidos Hospital Distrital de Santarém, EPE 0 1.00 3893.05 2230.84 307 2057.00 3820.5 5483.25 9110 ▇▇▇▅▂
doentes_saidos Hospital de Cascais, PPP 0 1.00 3071.74 1741.77 366 1678.75 2940.0 4406.25 6918 ▇▇▆▅▃
doentes_saidos Centro Hospitalar Vila Nova de Gaia/Espinho, EPE 0 1.00 5638.11 3497.70 629 2883.50 5218.5 7661.00 14194 ▇▇▆▂▂
doentes_saidos Centro Hospitalar do Oeste, EPE 0 1.00 3577.28 1931.76 294 1962.25 3629.0 5179.75 7425 ▇▇▇▇▅
doentes_saidos Centro Hospitalar Universitário de Lisboa Norte, EPE 0 1.00 9519.88 5297.41 864 5255.75 9256.5 13537.00 21581 ▇▇▇▆▂
doentes_saidos Hospital Professor Doutor Fernando Fonseca, EPE 0 1.00 6637.99 3707.73 521 3663.50 6479.5 9514.50 14660 ▇▇▇▆▃
doentes_saidos Hospital Espírito Santo de Évora, EPE 0 1.00 2864.96 1550.24 267 1532.00 2833.0 4085.25 6096 ▇▇▇▇▃
doentes_saidos Centro Hospitalar Póvoa de Varzim/Vila do Conde, EPE 0 1.00 1915.51 1175.49 217 1016.50 1779.5 2574.25 4904 ▇▇▆▂▂
doentes_saidos Centro Hospitalar de Leiria, EPE 0 1.00 5219.10 2890.87 433 2727.75 5097.5 7502.50 11075 ▇▇▇▇▅
doentes_saidos Hospital Distrital da Figueira da Foz, EPE 0 1.00 1319.75 719.52 119 690.25 1340.5 1870.75 2953 ▇▇▇▇▂
doentes_saidos Hospital de Braga, EPE 0 1.00 7461.21 4674.28 879 3525.75 7164.5 10493.00 18196 ▇▆▆▃▂
doentes_saidos Centro Medicina de Reabilitação da Região Centro Rovisco Pais 0 1.00 131.86 75.14 14 65.00 133.0 197.00 277 ▇▆▆▇▃
doentes_saidos Hospital de Magalhães Lemos, EPE 0 1.00 1358.67 794.53 128 691.25 1279.5 1963.75 2910 ▇▇▇▅▅
doentes_saidos Centro Hospitalar Psiquiátrico de Lisboa 0 1.00 908.85 509.92 15 489.00 884.0 1294.00 1908 ▆▇▇▆▅
doentes_saidos Hospital Arcebispo João Crisóstomo 0 1.00 62.00 34.55 3 37.00 70.0 91.75 99 ▃▃▂▃▇
doentes_saidos Hospital de Vila Franca de Xira, EPE 0 1.00 4261.25 1929.68 429 3511.25 4445.0 5515.00 7267 ▃▃▆▇▅
doentes_saidos Hospital de Loures, EPE 0 1.00 563.00 97.58 494 528.50 563.0 597.50 632 ▇▁▁▁▇

5.4.2 DataExplorer

O pacote Data Explorer tem uma função entitulada create_report que cria uma html baseado num dataset.

É possível definir uma variável de reposta, como um outcome que estejamos a procura de modelar.

create_report(
  data=inpatient_hospital_lite,
  y = "doentes_saidos",
  output_file = "reportDataExplorer.html",
  output_dir = paste0(getwd(),"/output/documents"),
  report_title = "Relatório de Exploração dos Dados",
              )

  |                                           
  |                                     |   0%
  |                                           
  |.                                    |   2%                                 
  |                                           
  |..                                   |   5% [global_options]                
  |                                           
  |...                                  |   7%                                 
  |                                           
  |....                                 |  10% [introduce]                     
  |                                           
  |....                                 |  12%                                 
  |                                           
  |.....                                |  14% [plot_intro]                    
  |                                           
  |......                               |  17%                                 
  |                                           
  |.......                              |  19% [data_structure]                
  |                                           
  |........                             |  21%                                 
  |                                           
  |.........                            |  24% [missing_profile]               
  |                                           
  |..........                           |  26%                                 
  |                                           
  |...........                          |  29% [univariate_distribution_header]
  |                                           
  |...........                          |  31%                                 
  |                                           
  |............                         |  33% [plot_histogram]                
  |                                           
  |.............                        |  36%                                 
  |                                           
  |..............                       |  38% [plot_density]                  
  |                                           
  |...............                      |  40%                                 
  |                                           
  |................                     |  43% [plot_frequency_bar]            
  |                                           
  |.................                    |  45%                                 
  |                                           
  |..................                   |  48% [plot_response_bar]             
  |                                           
  |..................                   |  50%                                 
  |                                           
  |...................                  |  52% [plot_with_bar]                 
  |                                           
  |....................                 |  55%                                 
  |                                           
  |.....................                |  57% [plot_normal_qq]                
  |                                           
  |......................               |  60%                                 
  |                                           
  |.......................              |  62% [plot_response_qq]              
  |                                           
  |........................             |  64%                                 
  |                                           
  |.........................            |  67% [plot_by_qq]                    
  |                                           
  |..........................           |  69%                                 
  |                                           
  |..........................           |  71% [correlation_analysis]          
  |                                           
  |...........................          |  74%                                 
  |                                           
  |............................         |  76% [principal_component_analysis]  
  |                                           
  |.............................        |  79%                                 
  |                                           
  |..............................       |  81% [bivariate_distribution_header] 
  |                                           
  |...............................      |  83%                                 
  |                                           
  |................................     |  86% [plot_response_boxplot]         
  |                                           
  |.................................    |  88%                                 
  |                                           
  |.................................    |  90% [plot_by_boxplot]               
  |                                           
  |..................................   |  93%                                 
  |                                           
  |...................................  |  95% [plot_response_scatterplot]     
  |                                           
  |.................................... |  98%                                 
  |                                           
  |.....................................| 100% [plot_by_scatterplot]           
                                                                                                                           
"C:/Program Files/RStudio/resources/app/bin/quarto/bin/tools/pandoc" +RTS -K512m -RTS "E:\RProjects\Projects\data_science_book1\output\documents\report.knit.md" --to html4 --from markdown+autolink_bare_uris+tex_math_single_backslash --output pandoc5b405c7719ca.html --lua-filter "C:\Users\jdrdionisio\AppData\Local\R\win-library\4.2\rmarkdown\rmarkdown\lua\pagebreak.lua" --lua-filter "C:\Users\jdrdionisio\AppData\Local\R\win-library\4.2\rmarkdown\rmarkdown\lua\latex-div.lua" --embed-resources --standalone --variable bs3=TRUE --section-divs --table-of-contents --toc-depth 6 --template "C:\Users\jdrdionisio\AppData\Local\R\win-library\4.2\rmarkdown\rmd\h\default.html" --no-highlight --variable highlightjs=1 --variable theme=yeti --mathjax --variable "mathjax-url=https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" --include-in-header "C:\Users\JDRDIO~1\AppData\Local\Temp\Rtmpm8Lz4F\rmarkdown-str5b407864d9a.html" 

As ferramentas apenas automatizam algum código, dependo do utilizador para a interpretação dos dados.

5.5 FIM