
Prepare-se para o exame AWS ML Engineer Associate (MLA-C01) com questões práticas e explicações detalhadas.
Este simulado é um recurso educacional independente. Não é afiliado, endossado ou patrocinado pela Amazon Web Services (AWS).
Escolha o modo que combina com o seu objetivo agora.
Feedback após cada resposta, navegação livre, sem timer.
Simulação fiel ao exame real com tempo cronometrado.
Veja todas as questões com as respostas corretas e explicações detalhadas para fixar o conteúdo.
Questões
65
Tópicos
65
Qual recurso do Amazon SageMaker oferece uma interface visual para preparação e transformação de dados de ML, permitindo importar de S3, Redshift, Athena e Snowflake sem escrever código?
Resposta correta: A. SageMaker Data Wrangler
O SageMaker Data Wrangler oferece uma UI low-code para conectar a múltiplas fontes (S3, Redshift, Athena, Snowflake), explorar dados, aplicar mais de 300 transformações pré-definidas e exportar como pipeline. Pipelines orquestra workflows, Clarify mede bias e Model Monitor detecta drift de modelos em produção.
Qual serviço da AWS é uma plataforma serverless de ETL (Extract, Transform, Load) que descobre, cataloga e prepara dados em escala para análise e ML?
Resposta correta: A. AWS Glue
O AWS Glue é a plataforma ETL serverless da AWS, com Glue Data Catalog (metadados), Glue Crawlers (descoberta automática) e Glue Jobs (Spark/Python para transformações). EMR é cluster gerenciado Hadoop/Spark (mais flexível mas exige operação), Kinesis é streaming de dados em tempo real e Lambda é compute serverless de propósito geral.
Para uma feature numérica com distribuição muito assimétrica (long tail), qual transformação ajuda a normalizar a distribuição antes de treinar um modelo de ML?
Resposta correta: A. Aplicar uma transformação logarítmica (log)
A transformação logarítmica é uma técnica clássica para reduzir assimetria em distribuições long-tail (preço, salário, contagens), aproximando-as de uma distribuição normal. Isso melhora a estabilidade do treinamento de modelos sensíveis a escala (regressão linear, redes neurais). Multiplicar ou somar constantes não muda a distribuição, e remover features perde informação.
Uma coluna numérica do dataset tem 5% de valores ausentes (missing). Qual estratégia comum preserva o tamanho do dataset e reduz viés introduzido pela ausência?
Resposta correta: B. Imputar (preencher) os valores ausentes usando média, mediana ou um modelo preditivo
Imputação preserva linhas e usa estatísticas (média/mediana) ou modelos para estimar valores ausentes — abordagem padrão em data preparation. Eliminar linhas reduz dataset e pode introduzir bias se a ausência não for aleatória. Substituir por zero distorce a distribuição e excluir coluna preditiva descarta sinal útil.
Qual recurso da AWS permite armazenar, compartilhar e reutilizar features de ML entre múltiplos modelos e times, mantendo consistência entre treinamento e inferência?
Resposta correta: A. Amazon SageMaker Feature Store
O SageMaker Feature Store é o repositório central de features da AWS com online store (DynamoDB, baixa latência para inferência) e offline store (S3, para treino), garantindo consistência entre os dois mundos. S3 e DynamoDB puros não trazem versionamento, lineage nem sincronização online/offline. Glue Data Catalog é metadado de tabelas (esquemas) — não armazena features.
Uma equipe precisa prever o preço de imóveis (variável numérica contínua) a partir de características como área, localização e idade. Qual tipo de algoritmo é mais adequado?
Resposta correta: A. Algoritmo de regressão (ex: XGBoost regressor, Linear Regression)
Quando a variável alvo é numérica contínua (preço, temperatura, idade), o problema é de regressão. Classificação prediz categorias discretas, clustering agrupa sem rótulos e detecção de anomalias identifica outliers — nenhum desses se aplica diretamente a prever um valor numérico contínuo.
Qual recurso do SageMaker permite executar jobs de treinamento de ML em instâncias gerenciadas, com suporte a algoritmos built-in, frameworks (TensorFlow, PyTorch) e BYOC (Bring Your Own Container)?
Resposta correta: A. SageMaker Training Jobs
SageMaker Training Jobs executam treinamentos em instâncias gerenciadas (provisionadas e desligadas automaticamente), com suporte a built-in algorithms, frameworks principais e containers customizados. Endpoints são para inferência, Ground Truth é rotulagem e Studio Lab é ambiente educacional gratuito.
Qual recurso do SageMaker automatiza a busca pelos melhores hiperparâmetros (learning rate, batch size, etc) executando múltiplos training jobs em paralelo?
Resposta correta: A. SageMaker Automatic Model Tuning (Hyperparameter Tuning)
O SageMaker Automatic Model Tuning (também chamado de Hyperparameter Tuning) executa múltiplos training jobs com diferentes combinações de hiperparâmetros, usando estratégias como Bayesian, Random, Grid Search ou Hyperband, para encontrar a melhor configuração. Pipelines orquestra workflows, Inference Recommender testa instâncias para deploy e Model Cards documenta modelos.
Qual recurso do SageMaker oferece AutoML — gerando automaticamente vários modelos candidatos (com features engineered e hyperparameter tuning) a partir de um dataset tabular?
Resposta correta: A. SageMaker Autopilot
SageMaker Autopilot é o serviço AutoML da AWS — recebe um CSV/Parquet, identifica o tipo de problema (regressão/classificação), faz feature engineering e treina dezenas de modelos candidatos com hyperparameter tuning automático. Edge Manager gerencia modelos em devices edge, Neo otimiza modelos para hardware específico e Debugger monitora training jobs em tempo real.
Uma aplicação precisa fazer predições em batch sobre 10 milhões de registros uma vez por dia, sem necessidade de baixa latência. Qual tipo de endpoint do SageMaker é mais econômico?
Resposta correta: B. Batch Transform
O SageMaker Batch Transform é ideal para predições em lote sobre datasets grandes — provisiona instâncias temporárias, processa o dataset todo e desliga, cobrando apenas pelo tempo de uso. Real-time endpoint mantém instâncias ativas 24/7 (caro para uso esporádico), Async Inference é para requisições com payloads grandes mas ainda serve respostas individuais e Multi-Model é para vários modelos no mesmo endpoint.
Uma startup tem um modelo com tráfego intermitente (picos esporádicos seguidos de longos períodos ociosos). Qual opção de deploy do SageMaker escala automaticamente para zero quando ocioso, cobrando apenas pelo uso?
Resposta correta: B. SageMaker Serverless Inference
SageMaker Serverless Inference auto-escala (incluindo para zero) e cobra por duração da inferência + memória — ideal para tráfego intermitente. Real-time mantém instâncias dedicadas 24/7, edge é para devices fora da AWS e Multi-Model persistente também mantém recursos ativos.
Qual serviço da AWS é a ferramenta nativa de CI/CD para ML, permitindo orquestrar etapas como preparação de dados, treinamento, avaliação, registro de modelo e deploy?
Resposta correta: A. SageMaker Pipelines
O SageMaker Pipelines é a ferramenta nativa de CI/CD especificamente para fluxos de ML, com integração direta a Training Jobs, Processing, Model Registry e Endpoints. CodePipeline é CI/CD geral (não especializado em ML), Step Functions orquestra workflows genéricos (pode usar mas exige mais glue code) e Glue Workflows é apenas para ETL Glue.
Qual recurso do SageMaker centraliza o ciclo de vida de modelos — versionamento, aprovação manual antes de deploy e lineage entre treinamento e produção?
Resposta correta: A. SageMaker Model Registry
O SageMaker Model Registry permite versionar modelos em "Model Groups", aprovar manualmente versões antes de deploy (governance) e rastrear o lineage. Feature Store armazena features (não modelos), CodeArtifact gerencia pacotes de código e ECR armazena imagens Docker (containers de modelo, mas sem governance específica de ML).
Um modelo em produção começa a piorar suas predições após algumas semanas, mesmo sem mudanças no código. Qual recurso do SageMaker detecta automaticamente data drift (desvio na distribuição dos dados de entrada)?
Resposta correta: A. SageMaker Model Monitor
O SageMaker Model Monitor detecta automaticamente data drift, model quality drift, bias drift e feature attribution drift, comparando a distribuição em produção com um baseline gravado em treino. Pipelines orquestra fluxos, CloudTrail audita chamadas de API (não distribuição estatística) e Trusted Advisor faz checagens de conta (não específicas de ML).
Qual prática da AWS deve ser usada para conceder a um SageMaker Training Job acesso a um bucket S3 específico, sem expor credenciais permanentes?
Resposta correta: B. Atribuir um IAM Role de execução ao job, com policy específica para o bucket
O SageMaker assume um IAM Role de execução (passado no parâmetro RoleArn) que recebe credenciais temporárias rotativas — princípio de menor privilégio. Compartilhar credenciais root, hardcodar senhas ou abrir bucket publicamente violam diretamente as melhores práticas de segurança AWS.
Como uma empresa pode garantir que o tráfego entre suas instâncias EC2 e o SageMaker fique dentro da AWS, sem passar pela internet pública?
Resposta correta: B. Configurar VPC Endpoints (PrivateLink) para SageMaker dentro da VPC
VPC Endpoints (powered by AWS PrivateLink) permitem acessar APIs do SageMaker (training, inference, runtime) por meio de uma interface privada dentro da VPC, mantendo o tráfego dentro da rede AWS. IPv6 não isola tráfego, SSH tunneling não se aplica a APIs HTTP da AWS e TLS apenas criptografa, mas o tráfego ainda passa pela internet pública.
Uma equipe está treinando modelos repetidamente em instâncias on-demand do SageMaker, com jobs de longa duração (4-6 horas). Qual opção pode reduzir significativamente os custos de treino, aceitando interrupções?
Resposta correta: A. Usar SageMaker Managed Spot Training
O SageMaker Managed Spot Training usa capacidade ociosa da AWS (Spot) para treinos, com economia de até 90% vs on-demand. Suporta checkpoints automáticos para retomar treinos interrompidos. Aumentar instância pode reduzir tempo mas aumenta custo total, serverless inference é para predição (não treino) e Multi-Model também é para inferência.
Uma equipe armazena datasets de treino que são acessados frequentemente nos primeiros 30 dias e raramente depois disso. Qual estratégia é mais econômica?
Resposta correta: B. Configurar S3 Lifecycle policy: Standard → Standard-IA após 30 dias
S3 Lifecycle policies movem objetos automaticamente entre classes — Standard (alta frequência) → Standard-IA (acesso infrequente, ~40% mais barato em armazenamento) → Glacier (arquivamento). Manter tudo em Standard é caro, Glacier Deep Archive imediato impede acesso rápido nos primeiros 30 dias e EBS é storage de bloco para EC2 (não para datasets compartilhados em ML).
Qual serviço da AWS permite consultar dados em S3 usando SQL padrão, sem provisionar infraestrutura?
Resposta correta: A. Amazon Athena
O Amazon Athena é serverless e cobra apenas por dados escaneados, ideal para queries ad-hoc em data lakes S3 (formatos CSV, JSON, Parquet, ORC). Redshift é data warehouse com clusters provisionados, Glue é ETL e RDS é banco relacional gerenciado.
Uma empresa precisa processar 100 TB de dados brutos com Apache Spark, executando jobs customizados em Python e Scala. Qual serviço da AWS é mais adequado?
Resposta correta: B. Amazon EMR (Hadoop/Spark/Hive gerenciado)
O Amazon EMR (Elastic MapReduce) é a plataforma gerenciada da AWS para frameworks de big data como Spark, Hadoop, Hive e Presto, ideal para processamento em larga escala com flexibilidade de código. Lambda tem limites de tempo (15 min) e memória, Athena é apenas SQL e Glue é ETL com menos controle granular que EMR.
Em um dataset de detecção de fraude, apenas 1% dos casos são fraudes (classe positiva). Qual técnica é apropriada para mitigar o desbalanceamento durante o treinamento?
Resposta correta: A. Aplicar SMOTE (Synthetic Minority Over-sampling) ou ajustar class_weight no algoritmo
SMOTE gera amostras sintéticas da classe minoritária para balancear, e ajustar class_weight (ou pos_weight em XGBoost) penaliza erros na classe rara durante o treino. Treinar só em casos negativos elimina o sinal de fraude, excluir features descarta informação preditiva e acurácia simples é enganosa em dados desbalanceados (precision/recall/F1/AUC são preferíveis).
Uma equipe quer treinar um modelo de classificação tabular sem escrever código de algoritmo do zero. Qual algoritmo built-in do SageMaker é amplamente usado para tarefas tabulares com alta performance?
Resposta correta: A. XGBoost
O XGBoost é o algoritmo built-in do SageMaker para gradient boosting em dados tabulares, dominante em competições Kaggle e produção. BlazingText é para text classification e Word2Vec, Object Detection e Semantic Segmentation são para visão computacional — não tabulares.
Para treinar um modelo deep learning grande (ex: BERT) em um dataset de 500 GB, como acelerar o treino usando múltiplas GPUs ou múltiplos nós?
Resposta correta: A. Habilitar distributed training com SageMaker (Data Parallelism, Model Parallelism ou ambos)
O SageMaker suporta data parallelism (cada GPU processa batches diferentes do dataset, sincronizando gradientes) e model parallelism (modelo dividido entre GPUs/nós, útil quando o modelo não cabe em uma GPU). Reduzir batch para 1 piora o throughput, CPU é muito lento para deep learning grande e treino local é inviável em datasets de centenas de GB.
Em um problema de classificação binária para diagnóstico médico, qual métrica é mais crítica maximizar para evitar falsos negativos (deixar de detectar uma doença)?
Resposta correta: A. Recall (sensibilidade / true positive rate)
Recall mede a fração de positivos reais que o modelo detectou — TP / (TP + FN). Recall alto é essencial em diagnóstico médico para minimizar falsos negativos (perder uma doença grave). Precision foca em evitar falsos positivos, latência e tamanho são métricas operacionais (não diretamente sobre qualidade clínica).
Para avaliar um modelo de ML de forma robusta com um dataset pequeno, qual técnica é recomendada para reduzir a variância da estimativa de desempenho?
Resposta correta: A. K-fold cross-validation (ex: 5 folds)
K-fold cross-validation divide o dataset em K partes e treina K vezes (cada vez usando uma parte diferente como validação), reduzindo a variância da estimativa de desempenho. Treinar e testar no mesmo conjunto causa overfitting na avaliação, batch size é parâmetro de treino e dropout é técnica de regularização (durante treino, nunca em inferência).
Qual recurso do SageMaker permite organizar, comparar e reproduzir experimentos de ML com diferentes hyperparameters, datasets e algoritmos?
Resposta correta: A. SageMaker Experiments
SageMaker Experiments rastreia automaticamente cada training job como um "trial", agrupados em "experiments", permitindo comparar métricas e hyperparameters entre runs. Model Cards documenta modelos para governance, Studio Lab é ambiente educacional gratuito e Edge Manager gerencia modelos em devices edge.
Como configurar um endpoint do SageMaker para automaticamente escalar o número de instâncias com base no volume de tráfego?
Resposta correta: A. Habilitar Application Auto Scaling no endpoint, com policy baseada em métricas como SageMakerVariantInvocationsPerInstance
Endpoints SageMaker integram com Application Auto Scaling — você define uma policy baseada em métricas (invocations per instance, latência, CPU) e o número de instâncias ajusta automaticamente entre min/max. Reiniciar manualmente não escala, instância super-dimensionada gera custo ocioso e Lambda tem limites incompatíveis com modelos grandes.
Como rodar um teste A/B com 2 versões diferentes de um modelo no mesmo endpoint do SageMaker, dividindo o tráfego entre elas?
Resposta correta: A. Configurar Production Variants no endpoint, com pesos de tráfego (ex: 50/50, 80/20)
O SageMaker permite múltiplas Production Variants no mesmo endpoint, cada uma com peso de distribuição de tráfego. Útil para A/B testing, canary deployments e blue-green. Endpoints separados com DNS funciona mas exige infra extra, treinar juntos não isola modelos para comparação e SageMaker suporta esse cenário nativamente.
Qual recurso do SageMaker ajuda a escolher a instância mais adequada para deploy de um modelo, executando benchmarks de latência e custo em diferentes tipos de instância?
Resposta correta: A. SageMaker Inference Recommender
SageMaker Inference Recommender executa o modelo em diferentes tipos de instância (CPU, GPU, Inferentia) e fornece comparativos de latência, throughput e custo, recomendando a melhor opção. Neo otimiza o modelo para hardware específico, Edge Manager gerencia devices edge e Pipelines orquestra ML workflows.
Qual recurso do SageMaker compila e otimiza modelos de ML para rodar mais rápido e com menor consumo de memória em hardware específico (CPU, GPU, ARM, Inferentia)?
Resposta correta: A. SageMaker Neo
SageMaker Neo compila modelos treinados (TensorFlow, PyTorch, MXNet, etc) em código otimizado para hardware específico, reduzindo footprint e latência — útil especialmente em edge devices ou Inferentia. Studio é o IDE de ML, Pipelines orquestra workflows e Feature Store armazena features.
Como monitorar a latência, throughput e taxa de erros de um endpoint do SageMaker em tempo real?
Resposta correta: A. Usar Amazon CloudWatch — métricas como Invocations, ModelLatency e Invocation4XXErrors são publicadas automaticamente
Endpoints SageMaker publicam métricas automaticamente em CloudWatch (Invocations, ModelLatency, OverheadLatency, Invocation4XXErrors, Invocation5XXErrors etc), permitindo dashboards e alarmes em tempo real. Polling manual e logs locais são abordagens primitivas que não escalam — e o SageMaker suporta monitoramento desde sempre.
Qual recurso do SageMaker é usado para detectar bias em datasets e modelos, e gerar relatórios de explainability (feature importance)?
Resposta correta: A. SageMaker Clarify
O SageMaker Clarify é o serviço dedicado da AWS para análise de bias (durante e após treinamento) e explainability (SHAP values, feature importance). Pipelines orquestra workflows, Endpoints hospedam modelos para inferência e Studio é o IDE.
Como criptografar dados sensíveis armazenados em buckets S3 usados para training jobs do SageMaker?
Resposta correta: A. Habilitar Server-Side Encryption no S3 (SSE-S3 ou SSE-KMS) — o SageMaker descriptografa automaticamente quando acessa
O S3 oferece Server-Side Encryption (SSE-S3 com chaves AWS, SSE-KMS com chaves gerenciadas no KMS, ou SSE-C com chaves do cliente). O SageMaker descriptografa transparentemente desde que tenha permissões IAM para o bucket e a chave KMS. Não criptografar é falha de segurança, criptografia manual é trabalho desnecessário e renomear bucket não criptografa nada.
Qual recurso do SageMaker permite documentar modelos com metadados como propósito, dados de treinamento, métricas de performance e considerações éticas, para fins de governance e compliance?
Resposta correta: A. SageMaker Model Cards
O SageMaker Model Cards é o recurso de documentação de modelos para governance/compliance, registrando intended use, training data, evaluation metrics, ethical considerations e biases conhecidos. Pipelines orquestra workflows, Inference Recommender benchmarks instâncias e Studio Lab é ambiente educacional gratuito.
Para ingerir streams de eventos em tempo real (cliques, sensores IoT) e disponibilizar para múltiplos consumidores ML, qual serviço da AWS é mais adequado?
Resposta correta: A. Amazon Kinesis Data Streams
Kinesis Data Streams é o serviço de streaming em tempo real da AWS, ideal para múltiplos consumidores (Lambda, Kinesis Data Analytics, Firehose, apps customizados) com retenção configurável até 365 dias. Glue é batch ETL, S3 não tem streaming nativo (apenas events) e Lambda processa eventos mas não armazena/replays.
Qual recurso do SageMaker permite executar scripts customizados de pré-processamento, validação e pós-processamento de dados em containers gerenciados, separados do training job?
Resposta correta: A. SageMaker Processing Jobs
O SageMaker Processing Jobs executa scripts (Python, Spark) em containers gerenciados para preprocessamento, validation e pós-processamento — separado do training, com integração nativa com S3 e built-in containers (sklearn, PySpark). Endpoints servem inferência, Studio Lab é educacional gratuito e Edge Manager gerencia devices edge.
Qual serviço da AWS oferece interface visual sem código para limpeza e normalização de dados, com mais de 250 transformações pré-definidas?
Resposta correta: A. AWS Glue DataBrew
O AWS Glue DataBrew é uma ferramenta visual no-code para discovery, limpeza, normalização e validação de dados, com 250+ transformações pré-definidas (formatação, agregações, joins). Diferente do Glue Studio (visual ETL com mais código). Lambda é compute, EMR é Spark/Hadoop e Step Functions é orquestração.
Para preparar uma feature categórica nominal (ex: "país") para um algoritmo XGBoost, qual técnica de encoding é apropriada?
Resposta correta: A. One-Hot Encoding (criar colunas binárias para cada categoria)
One-Hot Encoding cria uma coluna binária para cada categoria, evitando ordem espúria entre categorias nominais (sem hierarquia). É padrão para árvores e modelos lineares. Hash MD5 quebra interpretabilidade, concatenação não é numérica e excluir descarta sinal preditivo. Para alta cardinalidade existem alternativas (target encoding) — mas one-hot é a resposta padrão.
Antes de treinar uma rede neural ou regressão linear com features de escalas muito diferentes (ex: idade 18-90 e renda 1000-1000000), qual transformação é recomendada?
Resposta correta: A. Aplicar standardization (StandardScaler: média 0, desvio 1) ou normalization (MinMaxScaler: 0-1)
Algoritmos baseados em distância (KNN, K-Means) e gradiente (regressão linear, redes neurais) são sensíveis à escala — features de escala maior dominam o gradiente/distância e prejudicam o aprendizado. StandardScaler ou MinMaxScaler equalizam as escalas. Tree-based (XGBoost, Random Forest) NÃO precisa de scaling. Manter original distorce, multiplicar não muda razão entre features e categorizar perde informação numérica.
Qual técnica combina previsões de múltiplas árvores treinadas em subsets aleatórios de dados e features, geralmente reduzindo overfitting comparado a uma única árvore?
Resposta correta: A. Random Forest (bagging de árvores)
Random Forest é um ensemble de árvores de decisão treinadas com bootstrap (samples aleatórios) + feature randomness, com voto/média final — reduz variance vs árvore única e melhora generalização. Linear Regression é modelo linear simples (sem ensemble), K-Means é não-supervisionado e Naive Bayes é probabilístico simples.
Para reduzir overfitting em um modelo de regressão linear que tem muitas features correlacionadas, qual técnica adiciona uma penalidade aos pesos do modelo durante o treino?
Resposta correta: A. Regularização L1 (Lasso) ou L2 (Ridge)
L1 (Lasso) adiciona penalidade |w| (zera pesos de features irrelevantes — feature selection automática). L2 (Ridge) adiciona penalidade w² (encolhe pesos sem zerar — útil em multicolinearidade). Aumentar features piora overfitting, treinar mais sem early stopping também e eliminar test set quebra a avaliação.
Para evitar overfitting durante o treinamento iterativo de um modelo (ex: gradient boosting, redes neurais), qual técnica monitora a métrica em um conjunto de validação e para o treino quando ela deixa de melhorar?
Resposta correta: A. Early Stopping
Early Stopping interrompe o treino quando a métrica de validação não melhora por N iterações seguidas (patience), prevenindo o modelo de continuar memorizando o training set. Aumentar learning rate causa instabilidade, mais features pode aumentar overfitting e eliminar validação impossibilita a detecção do ponto ótimo.
Qual recurso do SageMaker monitora training jobs em tempo real, detectando problemas como vanishing gradients, dead ReLUs, overfitting ou class imbalance?
Resposta correta: A. SageMaker Debugger
O SageMaker Debugger captura tensors durante o treino e aplica regras built-in (vanishing gradient, exploding tensor, overfit, class imbalance, etc.) gerando alertas em tempo real. Pipelines orquestra workflows, Inference Recommender benchmarks instâncias para deploy e Edge Manager gerencia devices edge.
Uma empresa precisa hospedar 100 modelos diferentes (um por cliente) com tráfego baixo e esporádico. Qual abordagem do SageMaker minimiza custos compartilhando recursos?
Resposta correta: A. Multi-Model Endpoints (MME) — múltiplos modelos no mesmo endpoint, carregados sob demanda
Multi-Model Endpoints carregam modelos sob demanda no mesmo endpoint, compartilhando recursos (CPU/GPU/memória) — ideal para muitos modelos com tráfego esporádico. 100 endpoints separados gera custo enorme (instâncias ociosas), Lambda tem limites de tamanho/cold start incompatíveis com modelos grandes e múltiplas regiões aumenta complexidade sem benefício real.
Como disparar automaticamente um pipeline de retreino do SageMaker quando novos dados chegam em um bucket S3?
Resposta correta: A. Configurar Amazon EventBridge (ou S3 event notification) para invocar uma Lambda ou pipeline ao detectar novos objetos
O Amazon EventBridge (e S3 event notifications) permite reagir a eventos como criação de objetos em S3, disparando Lambda, Step Functions ou SageMaker Pipelines automaticamente. Polling é ineficiente (consome cota de API e gera atraso), manual não escala e a automação é totalmente possível na AWS.
Para orquestrar um workflow ML que envolve serviços além do SageMaker (ex: Glue → Lambda → SageMaker → SNS), qual serviço da AWS é mais flexível?
Resposta correta: A. AWS Step Functions
O AWS Step Functions é orquestrador genérico que integra com 200+ serviços AWS (Glue, Lambda, SageMaker, SNS, EventBridge etc) via tasks declarativas — ideal para workflows ML multi-serviço com retry/error handling. SageMaker Pipelines foca em fluxos exclusivos do SageMaker. CloudFormation provisiona infra (não orquestra workflows). EMR Workflows é específico para Hadoop/Spark.
Para garantir que um SageMaker training job não tenha acesso à internet (apenas recursos da VPC), qual configuração deve ser aplicada?
Resposta correta: A. Habilitar Network Isolation no training job + configurar VPC endpoints para serviços necessários (S3, ECR etc)
Network Isolation impede o container do training job de acessar a internet ou outras redes. Combinado com VPC endpoints (S3, ECR, CloudWatch etc), o job acessa apenas recursos privados — útil para compliance (dados sensíveis). Regras IAM "deny all" não bloqueiam rede, GPU/CPU não muda configuração de rede e SSE-KMS é encriptação at rest (não isolamento de rede).
Para fins de auditoria, como rastrear todas as chamadas de API feitas a serviços de ML (CreateTrainingJob, InvokeEndpoint, etc.) na conta AWS?
Resposta correta: A. Habilitar AWS CloudTrail (registra automaticamente chamadas de API em logs auditáveis)
O AWS CloudTrail registra automaticamente chamadas de API AWS (incluindo SageMaker, Bedrock, Comprehend etc) em logs auditáveis no S3 ou CloudWatch Logs, com identidade do chamador e timestamp. Logging customizado em cada call é trabalho desnecessário, logs locais não capturam todas as APIs e auditoria é totalmente suportada nativamente.
Como garantir que volumes EBS anexados às instâncias de training job do SageMaker sejam criptografados com uma chave gerenciada pelo cliente (CMK)?
Resposta correta: A. Especificar a chave KMS no parâmetro VolumeKmsKeyId do training job
O SageMaker permite especificar uma chave KMS gerenciada pelo cliente (CMK) para criptografar volumes EBS de training jobs e endpoints, via parâmetros como VolumeKmsKeyId/KmsKeyId — atende compliance que exige controle sobre as chaves de encriptação. SSE-S3 protege apenas objetos S3 (não EBS) e renomear volume não criptografa nada.
Qual recurso do SageMaker simplifica a criação de IAM roles para personas de ML (data scientist, ML engineer, MLOps), aplicando policies pré-construídas com menor privilégio?
Resposta correta: A. SageMaker Role Manager
O SageMaker Role Manager oferece um wizard para criar IAM roles para personas comuns de ML (data scientist, ML engineer etc) com policies pré-aprovadas seguindo princípio do menor privilégio. Config monitora configurações de recursos, Trusted Advisor faz checagens gerais de boas práticas e WAF protege apps web — nenhum gerencia IAM roles para ML.
Qual recurso do SageMaker oferece uma visualização centralizada de todos os modelos em produção da conta, com seus indicadores de saúde (alarmes de Model Monitor, drift, status de endpoint)?
Resposta correta: A. SageMaker Model Dashboard
O SageMaker Model Dashboard centraliza monitoring de todos os modelos em produção, mostrando alarmes do Model Monitor, drift detection, status de endpoints e lineage. Studio Lab é ambiente educacional gratuito, JumpStart é catálogo de modelos pré-treinados/foundation models e Feature Store armazena features.
Para reduzir custo e tempo de queries Athena em datasets grandes, qual formato de arquivo é recomendado armazenar os dados no S3?
Resposta correta: A. Apache Parquet (formato colunar comprimido)
Parquet é formato colunar com compressão eficiente — Athena/Spark/Redshift Spectrum lê apenas as colunas necessárias, reduzindo dados escaneados (e o custo do Athena, que cobra por TB escaneado) em até 90%. CSV sem compressão exige scan de todos os bytes, TXT/XML são row-based e verbosos.
Qual serviço da AWS centraliza o governance de um data lake S3, oferecendo controle granular de acesso (linha/coluna) para múltiplos engines (Athena, EMR, SageMaker)?
Resposta correta: A. AWS Lake Formation
O AWS Lake Formation centraliza governance de data lakes oferecendo permissões granulares (table, column, row, cell) compartilhadas entre Athena, EMR, SageMaker e Redshift Spectrum. S3 padrão tem ACLs/policies básicas (não fine-grained). Glue é ETL e Macie classifica dados sensíveis — nenhum oferece governance completo.
Para garantir reprodutibilidade de experimentos ML, qual abordagem é recomendada para versionar datasets de treino?
Resposta correta: A. Habilitar S3 Versioning + usar SageMaker Lineage Tracking para rastrear dataset → training job → modelo
O S3 Versioning preserva versões anteriores de objetos automaticamente, e o SageMaker Lineage Tracking conecta dataset → training job → modelo automaticamente para reprodutibilidade. Sobrescrever apaga histórico, datasets em laptops não escalam e versionamento é prerequisito para auditoria/compliance ML.
Qual combinação de recursos da AWS analisa qualidade de dados em pipelines de ML, identificando anomalias, valores ausentes e bias antes do treinamento?
Resposta correta: A. SageMaker Data Wrangler (data quality reports) + SageMaker Clarify (bias pré-treino)
O SageMaker Data Wrangler gera perfis estatísticos e data quality reports automaticamente (valores ausentes, distribuições, anomalias) e o SageMaker Clarify analisa bias pré-treino entre grupos demográficos. QuickSight é BI, Trusted Advisor é checagem geral e CloudFront é CDN — nenhum específico para qualidade de dados ML.
Qual métrica avalia a capacidade de um modelo de classificação binária discriminar entre classes em todos os thresholds possíveis, sendo robusta em datasets desbalanceados?
Resposta correta: A. AUC-ROC (Area Under the ROC Curve)
AUC-ROC mede a área sob a curva ROC (TPR vs FPR), variando de 0 (péssimo) a 1 (perfeito), com 0.5 = aleatório. É independente de threshold e robusta em datasets desbalanceados, ideal para comparar modelos. Acurácia simples engana em desbalanceados, e tempo/tamanho são métricas operacionais (não qualidade preditiva).
Em um problema de classificação multi-classe, qual ferramenta visualiza onde o modelo acerta e erra, mostrando previsões vs valores reais para cada par de classes?
Resposta correta: A. Confusion Matrix (Matriz de Confusão)
A Confusion Matrix é uma tabela quadrada N×N (N classes) com previsões (linhas) × valores reais (colunas) — diagonal = acertos, off-diagonal = erros específicos por par de classes. Identifica que classes o modelo confunde mais. Learning curve mostra evolução do treino, histograma de tokens é EDA de texto e t-SNE é redução dimensional para visualização (não avaliação por classe).
Para treinar um classificador de imagens com um dataset pequeno (5000 imagens), qual técnica permite reutilizar pesos de um modelo já treinado em ImageNet (milhões de imagens) e ajustar apenas as últimas camadas?
Resposta correta: A. Transfer Learning (com fine-tuning das últimas camadas)
Transfer Learning aproveita conhecimento de modelos pré-treinados (ResNet, VGG, BERT etc) — congela camadas iniciais e re-treina apenas as últimas para a tarefa específica. Eficiente com dataset pequeno e baixo custo computacional. SageMaker JumpStart facilita esse padrão. Treinar do zero exige muitos dados, K-Means é não-supervisionado e inverter dataset é absurdo.
Qual paradigma de ML é apropriado para treinar um agente que toma decisões sequenciais aprendendo por tentativa e erro com recompensas (ex: game playing, robótica, recommendation systems com feedback contínuo)?
Resposta correta: A. Reinforcement Learning (RL)
RL aprende uma policy mapeando estados → ações através de recompensas/punições durante interações com um ambiente. AWS DeepRacer e SageMaker RL Containers facilitam RL. Supervised Learning exige dados rotulados estáticos (não decisões sequenciais), unsupervised clustering só agrupa sem feedback e regressão linear é estática (não interativa).
Uma aplicação processa imagens grandes (até 1 GB cada) com um modelo ML e tolera latência de minutos. Qual modo de inferência do SageMaker é mais adequado?
Resposta correta: A. SageMaker Asynchronous Inference (suporta payloads até 1 GB e processamento longo, com filas e callbacks via SNS)
O SageMaker Async Inference aceita payloads até 1 GB e processamento longo (até 1 hora), com filas internas e callbacks via SNS — ideal para imagens grandes ou modelos lentos com latência tolerável. Real-time tem limite de ~6 MB e foco em sub-segundo, Lambda também limita request em 6 MB e Transfer Acceleration é só para upload S3.
Como atualizar um endpoint do SageMaker para uma nova versão do modelo minimizando risco de downtime e permitindo rollback rápido?
Resposta correta: A. Usar SageMaker Deployment Guardrails com Blue/Green ou Canary deployment (com auto-rollback)
O SageMaker Deployment Guardrails suporta Blue/Green (provisiona ambiente novo paralelo, troca tráfego se passa nas validações), All-At-Once, Canary (% inicial pequeno) e Linear (incremental). Permitem auto-rollback baseado em métricas. Deletar+recriar gera downtime, in-place é arriscado e pausar tráfego degrada UX.
Para servir um modelo de ML pequeno (até 10 GB) com baixíssimo custo em tráfego esporádico e modelo já containerizado, qual opção AWS é viável?
Resposta correta: A. AWS Lambda com container image (suporta até 10 GB, cobra por ms de execução)
O AWS Lambda suporta container images até 10 GB e cobra apenas por milissegundos de execução — ideal para modelos pequenos com tráfego esporádico (zero custo idle). SageMaker Serverless Inference é a alternativa nativa AWS ML com mesmas vantagens, mas Lambda também é válido. EC2 24/7 gera custo idle, endpoint sem scaling não é serverless e Batch é para jobs longos batch (não inferência sob demanda).
Para armazenar e rotacionar automaticamente credenciais (database passwords, API keys) usadas por aplicações de ML em produção, qual serviço é recomendado?
Resposta correta: A. AWS Secrets Manager (rotação automática + criptografia com KMS)
O AWS Secrets Manager armazena credenciais criptografadas com KMS e rotaciona automaticamente (Lambda customizado ou integrações nativas com RDS, Redshift etc). Hardcoding e env vars em texto puro violam segurança. Config monitora configurações de recursos (não secrets).
Como detectar automaticamente quando um endpoint do SageMaker é criado sem criptografia em volumes EBS, em desacordo com a política de compliance da empresa?
Resposta correta: A. Configurar AWS Config rules (ou Conformance Packs) para auditar continuamente as configurações dos recursos
O AWS Config monitora continuamente configurações de recursos AWS e detecta desvios de compliance via rules customizadas ou managed (ex: SageMaker endpoint sem encryption-at-rest). Conformance Packs agrupam regras para frameworks (HIPAA, PCI etc). Inspeção manual não escala e a automação é totalmente suportada.
Qual recurso do SageMaker Model Monitor compara as predições do modelo em produção com ground truth labels (rótulos reais coletados após a inferência) para detectar deterioração da qualidade do modelo ao longo do tempo?
Resposta correta: A. Model Quality Monitor (precisa de ground truth labels)
O Model Quality Monitor calcula métricas (accuracy, F1, MSE etc) comparando predições vs ground truth labels coletados em produção, detectando degradação real do modelo ao longo do tempo. Data Quality monitora distribuição dos inputs (sem ground truth), Bias Drift monitora bias entre grupos e Feature Attribution monitora drift na importância das features — nenhum deles compara com rótulos reais.
Pratique outras certificações AWS com os mesmos modos Estudo e Exame.
O simulado conta com 65 questões práticas baseadas no exame MLA-C01, cobrindo os 4 domínios oficiais com explicações detalhadas para auxiliar no seu aprendizado.
Sim. O conteúdo é organizado para refletir os 4 domínios oficiais do AWS Certified Machine Learning Engineer - Associate (MLA-C01): preparação de dados, desenvolvimento de modelos, deploy e orquestração, monitoramento e segurança.
Sim. Após selecionar uma alternativa, o simulado mostra a explicação justificando a resposta correta e por que as demais estão erradas.
O exame MLA-C01 usa um modelo compensatório com pontuação de 100 a 1000, e a nota mínima oficial para aprovação é 720 (~72%). No simulado adotamos o critério de 70%.
Sim. Todo o simulado é gratuito e acessível online, sem cadastro.