Agora é hora de analisar as principais fases de um ciclo de vida de machine learning e associá-las às tarefas ou aos componentes relacionados a MLOps. Quando analisamos os projetos de ML, identificamos três fases principais: de descoberta, desenvolvimento e implantação. Em relação à fase de descoberta, identificar as necessidades da empresa e o caso de uso dela viabiliza um plano claro e mostra o que modelo de ML vai nos ajudar a alcançar. Essa fase é essencial, porque estabelece a tarefa ou o problema a ser resolvido, mostrando como essa resolução vai afetar o negócio e os usuários que consomem o produto ou a solução amplificada por ML. Também é nessa fase que acontece a exploração de dados. Entender quais conjuntos de dados são necessários, se os dados necessários estão prontamente disponíveis e são suficientes para treinar o modelo e se conjuntos de dados externos seriam benéficos, e como adquiri-los. Todas essas considerações envolvem a etapa de exploração de dados. Então, dependendo da tarefa a ser realizada, um algoritmo é escolhido pela equipe de ciência de dados. A combinação de algoritmo e disponibilidade de dados, em conjunto com a decisão de comprar versus criar a solução, torna-se uma consideração importante para a avaliação de viabilidade, em que a equipe tenta descobrir os problemas que podem surgir na fase de desenvolvimento. Um exemplo é se, para o caso de uso específico em questão, os dados ficarem disponíveis historicamente, mas não por tempo de inferência. O cenário pode tornar esse caso inviável para ML nessa situação, e talvez seja preciso realizar uma análise mais completa antes de dar continuidade ao caso de uso. Outro aspecto da fase de descoberta é priorizar os diferentes casos de uso que o negócio tem e que podem se tornar projetos potenciais de ML, mas essa discussão está fora do escopo deste curso. Em relação à fase de desenvolvimento, talvez você se pergunte: "Como o desenvolvimento começa neste gráfico durante a exploração de dados? Não seria melhor esperar os resultados do estudo de viabilidade?" O que acontece na realidade é que, mesmo para a exploração de dados e seleção de algoritmos, talvez seja preciso desenvolver algumas provas de conceito, e é a isso que nos referimos aqui. Após a avaliação de viabilidade dar o sinal verde, o desenvolvimento real começa. Todas as etapas de dados, como limpeza, extração, análise e transformação, serão implementadas durante a criação do pipeline de dados. O pipeline de dados envolve garantir que todas as operações necessárias nos dados para casos off-line, de streaming, treinamento e inferência sejam executados de maneira consistente para evitar a distorção de dados. Depois que os dados ficam prontos, a criação e a avaliação do modelo começam. E eu digo "começam" porque essas etapas talvez precisem de algumas iterações até que o cientista de dados fique satisfeito com os resultados e pronto para apresentá-los às principais partes interessadas. As considerações incluem: o caso de uso deve ser revisto porque o algoritmo de aprendizado não é capaz de identificar padrões nos dados dessa tarefa. Os dados precisam ser revistos porque o modelo precisa de mais dados ou precisa de outros aspectos, como novos recursos, talvez, dos dados atuais. Algumas outras transformações são necessárias para melhorar a qualidade do modelo, ou até mesmo um algoritmo diferente é percebido como uma escolha melhor. Há inúmeras possibilidades. Portanto, essa iteração vai acontecer quantas vezes forem necessárias até que o modelo atinja o desempenho desejado. Depois que os resultados forem apresentados e as partes interessadas ficarem satisfeitas com o desempenho do modelo, será a hora de planejar a implantação dele. É quando estas perguntas provavelmente vão surgir: "Qual plataforma deve hospedar meu modelo? Qual serviço devo escolher para veicular o modelo? Quantos nós o cluster precisa ter para que seja possível escalonar e assumir toda a demanda de maneira econômica?" Operacionalizar e monitorar o modelo vai viabilizar a manutenção e evitar a deterioração dele, conforme já conversamos. Ter uma estratégia para identificar desvios de conceito ou dados permite sinalizar quando o modelo precisa ser treinado novamente ou quando os dados precisam ser ajustados ou aumentados. Garantir que o pipeline considere todos os testes necessários para verificações de integridade e alertas é a maneira mais eficaz de evitar a insatisfação dos usuários que consomem as previsões do modelo. Ao analisarmos as fases de desenvolvimento e implantação, vemos que elas têm várias etapas. Por exemplo, em relação à exploração de dados, há extração, análise e preparação de dados. A construção do modelo envolve treinamento, avaliação e validação. A implantação requer hospedar o modelo treinado e colocá-lo para funcionar, além de ter um serviço de previsão pronto para lidar com solicitações. E, finalmente, o monitoramento para permitir a avaliação e o treinamento contínuos com base nos resultados de desempenho em um determinado momento. O nível de automação desses passos define a maturidade do processo de ML, que reflete a velocidade de treinamento de novos modelos com base em novos dados ou novas implementações. Muitos profissionais de ML criam e implantam os próprios modelos de ML manualmente. Chamamos isso de nível de maturidade 0. Outros cientistas de dados realizam treinamento contínuo de seus modelos automatizando o pipeline de ML. Esse é o nível de maturidade 1. Por fim, a abordagem mais madura automatiza e integra completamente as fases de treinamento, validação e implantação de machine learning. Esse é o nível de maturidade 2. Você e sua equipe provavelmente começaram, ou ainda estão, no nível de maturidade 0, mas isso não é motivo de preocupação. Nosso objetivo aqui é ajudar você a automatizar seus processos e avançar no processo de automação com o conjunto de ferramentas e serviços disponíveis no Google Cloud. Acompanhe e aproveite.