Trabalhando com Dublin Core no Archivematica e no AtoM

Para quem trabalha com essas plataformas, sabemos que infelizmente o Archivematica não envia metadados ISAD(G) para o AtoM. O único envio automatizado de metadados existe apenas para a norma Dublin Core (DC).

Pensando nisso, trago aqui um esquema simples que me ajuda a preencher melhor esses campos, e a relação (equivalência) que existe entre o DC e a ISAD(G).

CampoDescriçãoExemplosCorrelato ISAD(G)Permite repetição no AtoM
Title
Título
Título da descrição (conteúdo).Title
Título
Não
Contributor
Contribuição
Pessoa, organização ou serviço que contribuiu com o conteúdo.Name access point (Contributor)
Ponto de acesso nome (Colaborador)
Sim
Coverage
Cobertura (espacial)
Onde o conteúdo está localizado fisicamente. Normalmente inclui localização espacial (nome do lugar ou coordenadas geográficas), período temporal (data) ou jurisdição.Place access points
Ponto de acesso de local
Sim
Creator
Produção
A pessoa ou organização responsável pelo conteúdo.Name of creator ProdutorSim
Date
Data
Um ponto ou período de tempo associado com o tempo de vida do conteúdo. Normalmente uma data de quando o conteúdo se tornou disponível. Formatos disponíveis:AAAA-MM-DD ou AAAA-MM ou AAAADate
Data
Sim
Description
Descrição
Uma descrição resumida sobre o conteúdo.Scope and content
Âmbito e conteúdo
Não
Format
Formato
Como o conteúdo ou recurso é apresentado.Extent and medium
Dimensão e suporte
Não
Identifier
Identificador
Um identificador único para o seu conteúdo. Pode ser um texto ou um número gerado por um sistema de identificação formal – ou apenas uma URL.Reference Code
Código de Referência
Não
Language
Idioma
Em que linguagem o conteúdo foi escrito. Você precisa especificar o código correto da língua.Usar a ISO 639Sim
Publisher
Publicação
Uma entidade (pessoa, organização ou serviço) responsável por deixar o conteúdo disponível.Name access point (Publisher)
Ponto de acesso nome (Editor)
Sim
Relation
Relação (isLocatedAt)
Como o conteúdo está relacionado com outros recursos. Por exemplo, pense em um capítulo de um livro: o capítulo é parte de (isPartOf) um livro.Repository
Repositório
Não
Rights
Direitos
Onde o conteúdo foi inicialmente publicado / originado. Um conteúdo que tem alguma relação intelectual com o conteúdo descrito. Se for conteúdo original, veiculado pela primeira vez e sem nenhuma relação intelectual com outros conteúdos, deve ser a URL para esse conteúdo.Conditions governing access
Condições de acesso
Não
Source
Fonte
Onde o conteúdo foi inicialmente publicado / originado. Um conteúdo que tem alguma relação intelectual com o conteúdo descrito. Se for conteúdo original, veiculado pela primeira vez e sem nenhuma relação intelectual com outros conteúdos, deve ser a URL para esse conteúdo.Existence and location of originals
Existência e localização de originais
Não
Subject
Assunto
Os assuntos cobertos pelo conteúdo.Subject access points
Ponto de acesso de assunto
Sim
Type
Tipo
Uma categoria para o tipo de conteúdo.Collection (coleção), Dataset (conjunto de dados), Event (evento), Image (imagem), InteractiveResource (recurso interativo), MovingImage (imagem em movimento), PhysicalObject (objeto tridimensional), Service (serviço), Software (programas), Sound (som), StillImage (imagem estática), Text (texto)Sim

Segue aqui o template dos campos DC com exemplos de preenchimento montados pela Artefactual, para envio dos metadados do Archivematica para o AtoM: metadata.csv

Processing Configuration

Transferência (Transfer)

  default (padrão)META
1Name The name of the processingMCP.xml that you are editing.defaultmetapc
2Assign UUIDs to directories
Atribuir arquivos UUIDs e somas de verificação: Atribuir UUIDs aos diretórios?
Os diretórios recebem uma entrada no fileSec e são atribuídos a um identificador universal exclusivo (UUID). Observe que os objetos digitais na transferência são sempre atribuídos a um UUID.  

Options:  
Yes – UUIDs são atribuídos.
No – UUIDs não são atribuídos.
noyes
3Generate transfer structure report
Gerar relatório de estrutura de transferência: Gerar relatório de estrutura de transferência
Um arquivo de texto é gerado mostrando uma árvore de diretórios da estrutura de transferência original.  

Options:  
Yes – relatório de estrutura é criado.
No – relatório de estrutura não é criado.
yesyes
4Perform file identification (Transfer)
Identifique o formato do arquivo: Você deseja realizar a identificação do formato do arquivo?
Escolha se deseja ou não identificar o formato dos arquivos em sua transferência.  

Options:  
Yes – use o comando de identificação de arquivo habilitado.
No – os arquivos não serão identificados.
noneyes
5Extract packages
Extrair pacotes: Extrair pacotes?
Pacotes (como arquivos .zip) são descompactados e extraídos em um diretório.  

Options:  
Yes – o conteúdo do pacote é extraído.
No – o pacote é deixado como está.
noneyes
6Delete packages after extraction
Extrair pacotes: Apagar o pacote após a extração?
Os pacotes que foram extraídos na etapa anterior podem ser excluídos após a extração.  

Options:  
Yes – o pacote é excluído.
No – o pacote é preservado junto com o conteúdo extraído.
noneyes
7Perform policy checks on originals
Validação: Executar verificações de política em originais?
Se você criou políticas usando o MediaConch, o Archivematica executa nos arquivos originais as políticas para avaliar a conformidade.  

Options:  
Yes – a transferência é verificada em relação a quaisquer políticas.
No – as políticas são ignoradas.
nono
8Examine contents
Examinar conteúdos: Examinar o conteúdo?
Execute o Bulk Extractor, uma ferramenta forense que pode reconhecer números de cartão de crédito, números de previdência social e outros padrões de dados (e-mails, URLs, telefones).  

Options:  
Examine contents – o Bulk Extractor verifica o conteúdo e cria saídas de log de padrões reconhecidos para revisão.
Skip examine contents – o Bulk Extractor não é executado.
noneExamine contents
9Create SIP(s)
Crie SIP a partir da transferência: Criar SIP(s)
Crie um SIP a partir da transferência, envie-o para o backlog (depósito) ou cancele a transferência.  

Options:  
Create single SIP and continue processing – a transferência vira um SIP e fica disponível para processamento adicional na guia de Admissão (Ingest).
Send to backlog – transferência é enviada para backlog (depósito) para armazenamento temporário ou avaliação.
Reject transfer – rejeitar transferência
nonecreate single SIP and continue processing

Admissão (Ingest)

10Perform file format identification (Ingest)
Normalizar: Você deseja realizar a identificação do formato do arquivo?
Escolha identificar o formato dos arquivos em seu SIP.  

Options:  
Yes – use o comando de identificação de arquivo habilitado.
No, use existing data – reutiliza dados de identificação de arquivo da guia de transferência.
no, use existing datano, use existing data
11Normalize
Normalizar: Normalizar
Converta objetos digitais admitidos em formatos de preservação e/ou acesso.  

Options:  
Normalize for preservation and access – cria cópias de preservação dos objetos mais cópias de acesso que serão usadas para gerar o DIP.
Normalize for preservation – cria apenas cópias de preservação. Nenhuma cópia de acesso é criada e nenhum DIP será gerado.
Normalize for access – o AIP conterá apenas originais. Nenhuma cópia de preservação será gerada. Serão criadas cópias de acesso que serão utilizadas para gerar o DIP.
Normalize service files for access[2]
Normalize manually
Do not normalize – o AIP conterá apenas originais. Nenhuma cópia de preservação ou acesso é gerada e nenhum DIP será gerado.
Reject SIP – the ingest will be cancelled.
noneNormalize for preservation and access
12Approve normalization
Normalizar: Aprovar a normalização O dashboard permite que os usuários revisem a saída de normalização e o relatório de normalização através do botão de revisão.  

Options:  
Yes – pule a etapa de revisão e continue o processamento automaticamente.
Redo – refazer
Reject – rejeitar
noneyes
13Generate thumbnails
Normalizar: Escolher modo miniatura
Isso dá a opção de gerar miniaturas para uso no AIP e no DIP.  

Options:  
Yes – as miniaturas serão geradas de acordo com as regras de formatação do FPR. Os formatos que não possuem uma regra terão uma miniatura padrão gerada (ícone de documento cinza).
Yes, without default icons – as miniaturas serão produzidas para qualquer formato que tenha uma regra de normalização para miniaturas no FPR. Os formatos que não possuem uma regra não terão uma miniatura gerada.
No – miniaturas não serão geradas.
yesyes
14Perform policy checks on preservation derivatives
Verificações de políticas para derivados: Executar verificações de política sobre derivadas de preservação?
Se você criar políticas usando MediaConch, execute as políticas nas derivadas de preservação recém-criadas para garantir a conformação.  

Options:  
Yes – os arquivos normalizados são verificados em relação a quaisquer políticas.
No – políticas serão ignoradas.
nono
15Perform policy checks on access derivatives
Verificações de políticas para derivados: Executar verificações de política em derivadas de acesso?
Se você criar políticas usando MediaConch, execute as políticas nas derivadas de acesso recém-criadas para garantir a conformação.  

Options:  
Yes – os arquivos normalizados são verificados em relação a quaisquer políticas.
No – as políticas são ignoradas.
nono
16Bind PIDs
Vincular PIDs: Vincular PIDs?
Atribua identificadores persistentes e envie as informações para um servidor Handle.Net.  

Options:  
Yes – PIDs são criados e uma chamada de API envia os PIDs para o Handle Server.
No – PIDs não são criados.
nono
17Document empty directories
Gerar AIP METS: Documentar diretórios vazios?
Por padrão, o Archivematica remove diretórios vazios e não documenta sua existência.  

Options:  
Yes – uma entrada para o diretório é criada no structmap.
No – o diretório não está documentado.
noyes
18Reminder: add metadata if desired
Adicionar metadados finais: Lembrete: adicione metadados se desejar
O Archivematica permite que os usuários vejam os metadados adicionados a um SIP por meio da interface do usuário. Este lembrete ocorre no último momento de que é possível adicionar metadados; uma vez que a ingestão continua além desse ponto, não é mais possível adicionar metadados ao SIP.  

Options:  
Continue – pule o lembrete e continue o processamento automaticamente.[3]
nonecontinue
19Transcribe files (OCR)/Transcribe SIP contents?
Transcreva o conteúdo do SIP: Transcribe SIP contents? Os usuários podem optar por executar o Tesseract, uma ferramenta de OCR incluída no Archivematica, para produzir arquivos de texto contendo transcrições de arquivos (OCR).  
Options:  
Yes – O Tesseract é executado em todos os arquivos compatíveis com OCR.[4]
No – Tesseract não é executado.
noneyes
20Select file format identification command (Submission documentation & metadata)
Processar documentação de submissão: Você deseja realizar a identificação do formato do arquivo?
Escolha identificar o formato dos arquivos que estão nos diretórios “submission documentation” e/ou “metadata” que foram incluídos na sua transferência.  

Options:  
Yes – use the enabled file identification command.
No – files will not be identified.
yesyes
21Select compression algorithm
Prepare AIP: Selecione o algoritmo de compressão
Os AIPs criados pelo Archivematica podem ser armazenados como pacotes compactados ou descompactados, dependendo de seus requisitos de armazenamento.  

Options:  
7z using bzip2 – um arquivo 7Zip é criado usando o algoritmo bzip2.
7z using LZMA – um arquivo 7Zip é criado usando o algoritmo LZMA.
7z without compression – um arquivo 7Zip é criado, mas o conteúdo não é compactado.
Gzipped tar – o AIP é criado usando o algoritmo gzip.
Parallel bzip2 – um arquivo 7Zip é criado usando o algoritmo Parallel bzip2 (pbzip2).
Uncompressed – o AIP não está compactado.
7z using bzip27z using bzip2
22Select compression level
Prepare AIP: Selecione o nível de compressão Se você selecionou uma opção de compactação na etapa acima, pode determinar o quão compactado gostaria que seu AIP fosse. Selecionar um nível de compressão mais alto significa que o AIP resultante é menor, mas a compressão também leva mais tempo. Níveis de compressão mais baixos significam compressão mais rápida, mas um AIP maior.   Options:   1 – fastest compression – o AIP será compactado o mais rápido possível. 3 – fast compression – um AIP maior que será comprimido rapidamente. 5 – normal compression – a ferramenta de compressão alcançará um equilíbrio entre velocidade e compressão para fazer um AIP de tamanho e compactação moderadas. 7 – maximum compression – um AIP menor que leva mais tempo para compactar. 9 – ultra compression – o menor AIP possível.
5-normal compression5-normal compression
23Store AIP
Armazenar AIP: Armazenar AIP
Pausar no microsserviço AIP Store permite que os usuários revisem o conteúdo do AIP antes do armazenamento.  

Options:  
Yes – the AIP is marked for storage automatically.
Reject AIP
yesyes
24Store AIP location
Armazenar AIP: Local de armazenamento do AIP
Depois que a etapa anterior for aprovada, o AIP pode ser enviado automaticamente para um local de armazenamento especificado, definindo o local desejado.  

Options:  
Default location – o AIP é armazenado no local de armazenamento do AIP que foi definido como padrão no Storage Service.
[Other storage locations] – quaisquer outros locais de armazenamento de AIP disponíveis também aparecerão nesta lista.
noneDefault location
25Upload DIP
Carregar DIP: Carregar DIP
Se um DIP foi criado, ele pode ser enviado automaticamente para um sistema de acesso para o qual existe uma integração Archivematica.  

Options:  
Upload DIP to AtoM
Upload DIP to ArchivesSpace
Upload DIP to CONTENTdm
Do not upload -o DIP não será carregado a um sistema de acesso.
noneupload dip to atom/binder
26Store DIP
Carregar DIP: Armazenar DIP?
Se um DIP foi criado, ele pode ser armazenado sem interromper o fluxo de trabalho no dashboard. Observe que o armazenamento DIP não é necessário e que os DIPs podem ser criados sob demanda reinserindo o AIP.  

Options:  
Store DIP – o DIP é marcado para armazenamento automaticamente.
Do not store – o DIP é descartado
nonestore dip
27Store DIP location
Carregar DIP: Armazene o local do DIP
Se a etapa anterior  e esta etapa estiverem configuradas, todos os DIPs serão enviados para o local de armazenamento selecionado (a menos que você tenha incluído uma configuração de processamento personalizada com a transferência que defina outro local).  

Options:  
Default location – o DIP é armazenado no local de armazenamento DIP que foi definido como padrão no Storage Service.
[Other storage locations] – quaisquer outros locais de armazenamento DIP disponíveis também aparecerão nesta lista.
noneDefault location

[1] Mezzanine: Um pouco semelhante à normalização manual e às opções de normalização manual, o Archivematica também pode reconhecer a presença de arquivos de serviço (ou mezanino). Os arquivos de serviço são derivados de alta qualidade criados a partir do arquivo original, que são então usados ​​para criar todos os outros derivados. Por exemplo, durante um projeto de digitalização, você pode escanear uma imagem como um TIFF de alta qualidade e, em seguida, gerar um JP2000 de alta qualidade a partir do TIFF. Em vez de acessar o TIFF sempre que um novo derivado de acesso é necessário, você deve usar o JP2000 para fazer novas cópias do arquivo. No microsserviço de normalização na guia Ingest, você terá a opção de usar as cópias de serviço para gerar derivados de acesso, em vez dos arquivos originais.

[2] Bind PIDs refere-se à integração do Archivematica com Handle.Net, um registro que atribui identificadores persistentes para recursos de informação.

[3] Você deve realizar as seguintes etapas antes do lembrete de microserviço: adicionar metadados, se desejar, até a conclusão desta etapa. Após este ponto, quaisquer metadados inseridos não serão devidamente anexados ao SIP ou inseridos no METS.

[4] O Tesseract transcreve o texto de imagens únicas (por exemplo, páginas individuais de um livro digitalizado como arquivos de imagem). Não suporta a transcrição de objetos de várias páginas ou arquivos de processamento de texto, arquivos PDF, etc.


Instalação e Integração entre AtoM e Archivematica, instalados em VM

Instalação AtoM Ubuntu 20.04 LTS (Focal Fossa)

Sigo TODOS os códigos dos seguintes links (na ordem a seguir):

  1. MySQL
  2. ElasticSearch
  3. PHP
  4. Gearman
  5. Outras Instalações
  6. NGINX
  7. Escolha entre as opções 1 ou 2 de instalação do AtoM
    1. Opção 1
    2. Opção 2
  8. Database
  9. Instalador
  10. Permissões
  11. Workers
  12. PHP-FPM
  13. Inicie o AtoM

Instalação Archivematica (AM) Ubuntu 22.04 (Jammy)

Sigo TODOS os códigos dos seguintes links (na ordem a seguir):

  1. Archivematica
    1. Não executo o item 9
  2. Configuração pós instalação

Integração entre AtoM e Archivematica, instalados em VM

Para quem está seguindo o manual de instalação da artefactual, a parte da integração entre os sistemas Archivematica e AtoM é um pouco complicada, pois partes dos comandos estão espalhadas pelo site. Nesse post, condensarei essas informações em um passo a passo bem simples para que qualquer pessoa consiga fazer com que os pacotes DIP que saem do AM cheguem ao AtoM.

Código adaptado de AtoM DIP upload.

Archivematica server

Assim que o AM já tiver instalado e propriamente testado, vamos criar um par de chaves SSH.

Gere um par de chaves de SSH para o Archivematica autenticar-se no servidor de rsync do AtoM. Quando solicitado por um caminho para salvar o arquivo, apenas pressione ENTER. Faça o mesmo quando for solicitada uma senha (passphrase).

sudo mkdir /var/lib/archivematica/.ssh
sudo chown archivematica:archivematica /var/lib/archivematica/.ssh
sudo -u archivematica ssh-keygen

Copie o conteúdo de /var/lib/archivematica/.ssh/id_rsa.pub para um bloco de notas.

AtoM server

Agora, é hora de configurar o servidor AtoM para que o Archivematica possa enviar os DIPs usando rsync. Para esse fim, será criado um usuário chamado archivematica e atribuido a esse usuário um shell restrito com acesso apenas ao rsync:

sudo useradd -d /home/archivematica -m archivematica
sudo passwd -l archivematica

Adicione a chave SSH que geramos antes:

sudo mkdir /home/archivematica/.ssh
sudo chmod 700 /home/archivematica/.ssh/

Cole em /home/archivematica/.ssh/authorized_keys o conteúdo que foi gerado no documento id_dsa.pub (etapa do Archivematica server).

sudo nano /home/archivematica/.ssh/authorized_keys

Ajuste o owner dos arquivos:

sudo chown -R archivematica:archivematica /home/archivematica

Deletar DIP depois de sua submissão para o AtoM

Instale o pacote acl:

sudo apt-get install acl # Ubuntu

Crie um diretório SWORD:

sudo mkdir /home/archivematica/atom_sword_deposit
sudo chown archivematica:www-data /home/archivematica/atom_sword_deposit
sudo chmod 770 /home/archivematica/atom_sword_deposit

Coloque o ACL no novo diretório:

sudo setfacl -d -m u:www-data:rwX /home/archivematica/atom_sword_deposit

Archivematica server

De volta ao servidor do Archivematica, exercite a comunicação com o servidor de rsync do AtoM executando os comandos abaixo, substituindo o hostname do AtoM:

echo "Teste" >> /tmp/teste
sudo -H -u archivematica rsync /tmp/teste archivematica@HOSTNAME_DO_ATOM:/tmp
(ou, caso tenha que acrescentar porta: sudo -H -u archivematica rsync -e 'ssh -p PORTA' /tmp/teste archivematica@HOSTNAME_DO_ATOM:/tmp)

Será apresentada a chave pública do servidor de rsync do AtoM (gerada automaticamente durante a primeira execução do serviço rsync_server do AtoM). Responda yes para confiar na chave.

Essa operação serve não só para testar a comunicação mas, principalmente, para adicionar a chave pública do servidor de rsync do AtoM ao arquivo de known hosts do Archivematica localizado em /var/lib/archivematica/.ssh/known_hosts.

Configuração Interface do AtoM

Acesse o dashboard do AtoM em um navegador e siga os passos abaixo:

  1. Autentique-se como um usuário administrador
  2. Clique no ícone de engrenagens no menu superior, em seguida clique em Plugins (ou Componentes)
  3. Habilite os plugins arStorageServicePlugin, arRestApiPlugin e qtSwordPlugin, em seguida clique em Salvar
  4. Clique novamente no ícone de engrenagens, em seguida clique em Usuários
  5. Clique em Adicionar Novo para criar um usuário administrador para ser usado pelo Archivematica
    1. Em Username, digite archivematica
    2. Em E-mail, digite archivematica@sua_entidade.com
    3. Digite uma senha forte de sua preferência
    4. Em Grupos de usuários, selecione o grupo administrador
    5. Em REST API chave de acesso, selecione (Re)gerar chave API
    6. Clique em Criar
  6. Copie a chave de API do usuário gerada (campo REST API chave) e guarde em um bloco de notas
  7. Vá em Admin > Settings > Global > Integrações > escreva em “Diretório de depósito SWORD”: /home/archivematica/atom_sword_deposit.
  8. Em Admin > Settings > Storage Service, configure (Storage Service):
    1. Endpoint da API do Storage Service: https://STORAGE_SERVICE_ENDERECO/api/v2.
    2. Preencha o nome do usuário do storage service (atenção, nao é o usuário do Dashboard) e a chave API nos campos seguintes, e clique em Salvar

Configuração Interface do Archivematica

Acesse o dashboard do Archivematica em um navegador e siga os passos abaixo:

  1. Autentique-se como um usuário administrador
  2. Clique em Administration
  3. No menu lateral, na seção DIP upload, clique em AtoM/Binder e preencha:
    1. Em Upload URL, digite http://HOSTNAME_DO_ATOM(sem index.php/ ou a / no final)
    2. Em Login email, digite o e-mail preenchido anteriormente no AtoM para o usuário do Archivematica
    3. Em Login password, digite a senha preenchida anteriormente no AtoM para o usuário do Archivematica
    4. Em AtoM/Binder version, deixe selecionada a opção 2.x
    5. Em Rsync target, preencha archivematica@HOSTNAME_DO_ATOM:/home/archivematica/atom_sword_deposit
    6. Em Debug mode, selecione o que preferir
    7. Em REST API key, cole a chave de API do usuário Archivematica
    8. Clique em Save
  4. Para testar a comunicação com o AtoM, clique no botão Levels of Description (localizado no canto superior direito), em seguida no botão Fetch from AtoM (também no canto superior direito)

Caso os níveis de descrição sejam trazidos do AtoM, significa que a configuração está correta.

> Cada vez que um nível de descrição for adicionado no AtoM, é preciso clicar novamente no botão Fetch from AtoM para que o Archivematica tome conhecimento do novo nível de descrição.

Teste de integração

Para testar a integração, faça um Transfer com o campo Access system ID preenchido com um slug de uma descrição previamente criada no AtoM. Na fase de Ingest, no microsserviço de Normalização, selecione a opção de Normalizar para acesso ou Normalizar para preservação e acesso. Ao final do processamento, verifique se o arquivo aparece no AtoM.