1. Como fazemos

3'27" para ver como se trabalha na equipa de paleógrafos, da importação de um ficheiro nos arquivos digitais do Arquivo Nacional da Torre do Tombo (ANTT, Lisboa) até ao texto transcrito pela máquina na plataforma Transkribus.

2. A paleografia digital e os Estudos Inquisitoriais

Na última década, dois fatores merecem destaque. Por um lado, muitos arquivos europeus digitalizam as suas coleções. O crescente número de reproduções digitais disponíveis em linha, o avanço qualitativo nas técnicas de reprodução digital e o desenvolvimento de novos métodos digitais para analisar escritas e suportes de escrita fomentam o interesse pela base material do património cultural escrito. Por outro lado, a investigação em Paleografia na Era Digital melhorou muito nas técnicas de reprodução, métodos de manipulação de imagens para melhorar a legibilidade, pesquisa léxico-estatística e bancos de dados de materiais escritos. Mas a distância entre imagens e textos continua grande. A maioria dos fundos digitalizados raramente tem uma ferramenta de busca que permita o acesso à informação interna e não apenas às fichas de catalogação.

É o caso da documentação inquisitorial da Torre do Tombo: parte dela está digitalizada a partir dos documentos originais, mas sem ferramenta de busca. O uso da paleografia digital para a transcrição dos textos permite a leitura por todos das grandes coleções e a criação de bases de dados que podem ser pesquisadas com base numa ampla gama de critérios, como nome da pessoa, caligrafia e local, para citar apenas três exemplos básicos. O projeto TraPrInq visa explorar formas específicas de preencher uma lacuna tão drástica quanto ao acesso público a uma grande coleção de documentos históricos, os processos do tribunal da Inquisição portuguesa (1536-1821). Esta coleção é a mais bem preservada, centralizada e rica que existe no mundo, em particular nos países onde existiu no passado um tribunal do Santo Ofício.

Em dezoito meses, a TraPrInq alcançará dois objetivos principais: 1. a criação de um modelo robusto de reconhecimento de texto manuscrito; 2. a preparação de uma base de dados de leitura e pesquisa e de uma rede para a posterior transcrição maciça e edição em linha dos documentos de arquivo.

 

3. Objectivos

O primeiro objetivo assegurará a posterior transcrição e edição dos documentos. Tecnicamente, baseia-se na transcrição de 5000 páginas por todos os elementos para criar um modelo específico de Reconhecimento de Texto Manuscrito (HTR). Devido ao seu desempenho em projetos de implementação de HTR em larga escala, a TraPrInq trabalhará na plataforma READ com Transkribus, aplicação desenvolvida na década de 2010 na Universidade de Innsbruck. Os membros receberão treino para a usar uma vez estabelecidos 1. um protocolo editorial comum e convenções tipográficas para transcrição; 2. Os critérios de seleção das páginas que cada um escolherá para transcrição conforme a sua dedicação ao projeto. Após dezoito meses, o modelo HTR treinado possibilitará a primeira transcrição sistemática dos processos da Inquisição. Além da execução do modelo para ajustamentos finais nos últimos seis meses de projeto, o segundo objetivo é, por um lado, preparar o quadro em que decorrerá a fase seguinte; por outro, chegar a acordo sobre um protocolo de identificação de palavra-chave (KeyWord Spotting) para a edição da base de dados e preparar a sua criação, possivelmente numa outra ‘interface’ Web da plataforma READ, uma ferramenta de leitura e pesquisa assente em edição digital padronizada.

Conforme o primeiro aspeto, os membros da equipa ocupam posições académicas de destaque em Portugal e no Brasil e integram redes relacionadas com as áreas dos Estudos Inquisitoriais e da Investigação Arquivística. Os membros da TraPrInq são especialistas em paleografia e leitura de manuscritos, tanto em início de carreira como investigadores experientes. O projeto TraPrInq pretende viabilizar algo grande e específico, mas com um indiscutível efeito multiplicador.

4. Normas e critérios de transcrição

Critérios de transcrição

Lista de caracteres