
O desenvolvimento da tecnologia de IA (Inteligência Artificial) teve origem na exploração pelos cientistas, na década de 1950, da simulação da inteligência humana por máquinas. Nos últimos anos, graças ao progresso da tecnologia da informação, do hardware informático e dos algoritmos, a IA desenvolveu-se desde o processamento de símbolos iniciais até à aprendizagem automática e à aprendizagem profunda, tendo sido amplamente utilizada em domínios como o tratamento médico e os transportes, promovendo grandemente o progresso social. Com a impressionante estreia do robô de conversação ChatGPT, a tecnologia de IA registou progressos notáveis no domínio da PNL (Processamento de linguagem natural), mostrando às pessoas o enorme potencial da IA para compreender e gerar linguagem humana. Agora, vamos começar juntos a viagem de exploração da PNL.
A linguagem natural é um sistema linguístico que os seres humanos desenvolveram naturalmente na vida quotidiana para exprimir os seus pensamentos e comunicar. O código binário é uma linguagem que os computadores podem processar diretamente, e as linguagens artificiais, como as linguagens de programação e os protocolos de comunicação, também podem ser processadas eficazmente pelos computadores. A PNL tem por objetivo colmatar o enorme fosso entre a linguagem natural e a linguagem artificial, explorando as teorias e os métodos para uma comunicação eficaz entre humanos e computadores utilizando a linguagem natural. É uma das direcções de investigação mais importantes nos domínios da informática e da inteligência artificial.
Tarefas de PNL |
Descrição |
Subtarefas |
Análise lexical |
A análise lexical da linguagem natural é uma tarefa fundamental em PNL |
Tokenização, descoberta de novas palavras, análise morfológica, marcação de parte do discurso, verificação ortográfica |
Análise de frases |
Análise da linguagem natural ao nível da frase, incluindo análise sintáctica e outras tarefas ao nível da frase |
Chunking, Etiquetagem Supervisionada, Análise de Constituintes, Análise de Dependências, Modelação da Linguagem, Identificação da Linguagem, Deteção de Limites de Frases |
Análise semântica |
Analisar e compreender o texto dado para formar uma representação formal ou distribuída que exprima o seu significado. |
Desambiguação do Sentido da Palavra, Etiquetagem Semântica de Funções, Análise da Representação Semântica Abstrata, Lógica de Predicados de Primeira Ordem, Análise Semântica de Quadros, Representação Vectorizada de Palavras, Frases e Parágrafos |
Extração de informação |
Extrair informação estruturada de texto não estruturado. |
Reconhecimento de Entidades Nomeadas (NER), Desambiguação de Entidades, Extração de Terminologia, Resolução de Coreferências, Extração de Relações, Extração de Eventos, Análise de Sentimentos, Reconhecimento de Intenções, Preenchimento de Espaços |
Tarefa de nível superior |
Tarefas a nível do sistema diretamente orientadas para os utilizadores finais e que fornecem serviços de produtos de processamento da língua natural, que envolvem vários níveis de técnicas de PNL. |
Tradução automática, Sumarização de textos, Compreensão da leitura, Classificação automática de textos, Sistemas de resposta a perguntas, Sistemas de diálogo, Sistemas de geração inteligente |
O modelo de linguagem (ML) tem por objetivo modelar a distribuição de probabilidades da linguagem natural. Um modelo de linguagem num conjunto de vocabulário V pode ser formalmente construído como a probabilidade de uma sequência de palavras aparecer como uma frase. No entanto, a complexidade computacional desta abordagem é demasiado elevada. Para resolver este problema, a probabilidade conjunta pode ser convertida num produto de probabilidades condicionais, e o modelo de linguagem é construído maximizando a probabilidade condicional da ocorrência da palavra seguinte.
1. Início da exploração (década de 1950-1970):
Os primeiros trabalhos de investigação em PNL baseavam-se principalmente em regras, como o ELIZA. Estes sistemas simulavam a comunicação humana através da simulação de conversas, mas a cobertura das regras era limitada e era difícil lidar com fenómenos linguísticos complexos.
2. Métodos de aprendizagem estatística (década de 1980-1990):
Com a melhoria da capacidade de computação, tornaram-se populares os métodos de aprendizagem estatística, como os modelos de Markov ocultos (HMM) e as redes neuronais recorrentes (RNN), que demonstraram grandes capacidades de processamento de dados sequenciais e de captação de dependências temporais.
3. A era da aprendizagem profunda (anos 2010 - 2017):
O aparecimento da aprendizagem profunda trouxe mudanças revolucionárias ao PNL. As tecnologias representadas por Encoder - Decoder, Gated Recurrent Unit (GRU) e ELMO (Embeddings from Language Models) permitiram que os modelos tivessem a capacidade de lidar com caraterísticas linguísticas complexas, como a polissemia e os sinónimos, e de captar dependências complexas nas frases. No entanto, quando confrontados com tarefas a jusante, continuam a necessitar de formação em transferência.
4. A Era dos Grandes Modelos (2017 - Atualidade):
Em 2017, a Google propôs o modelo Transformer, que alterou completamente os métodos de investigação da PNL. O Transformer adopta um mecanismo de auto-atenção para processar dados sequenciais, que não só permite a computação paralela, melhorando assim consideravelmente a velocidade de formação do modelo, como também expande consideravelmente a capacidade do modelo, exigindo uma enorme quantidade de dados de texto para formação. Eventualmente, os modelos linguísticos de grande dimensão podem receber várias tarefas a jusante sob a forma de linguagem natural e responder-lhes com elevada qualidade. Os modelos de grande dimensão, como a série BERT, a série GPT e a série LLAMA, são exemplos típicos.
De acordo com os diferentes métodos de implementação, as aplicações tradicionais de NLP podem ser divididas em quatro tipos: robôs de diálogo (Q&A semânticas por voz), compreensão de leitura, pesquisa inteligente e tradução automática. O aparecimento e a popularização de modelos de grandes dimensões alargaram consideravelmente o âmbito de aplicação da PNL e promoveram o desenvolvimento de muitos campos inovadores, como a criação de texto de alta qualidade, a interação suave em várias rondas, a interação multimodal, a investigação científica auxiliar, a emoção profissional e a análise psicológica, a programação auxiliar, a aprendizagem personalizada, etc.
Atualmente, os LLM em campos verticais de várias indústrias começaram a surgir em aplicações comerciais e estão a demonstrar uma tendência de desenvolvimento rápido. Aproveitando a sua profunda experiência industrial e tecnológica, a WatchData está a alinhar-se com as tendências em evolução da era e está a desenvolver ativamente LLMs para criptografia, cartões inteligentes e Internet das Coisas, colaborando com os principais institutos de investigação para estudar questões de modelos fundamentais, ao mesmo tempo que explora novas abordagens para estabelecer a confiança digital na era da LLM.