Produto GT 2 - Modelo de Maturidade de publicação de dados

Modified on 19/07/2019 15:31 by Augusto Herrmann — Categorized as: GT2, Produto


Um modelo de maturidade da publicação de dados abertos deve considerar vários aspectos, tais como aqueles relacionados ao processo de publicação, os relacionados aos dados em si e, ainda, os impactos da publicação dos dados na sociedade e na economia, entre outros. A seguir apresentam-se alguns dos principais modelos, classificados pelo tipo de abordagem que utilizam.

Modelos de qualidade de dados

A qualidade dos dados diz respeito a diversos aspectos dos dados, tais como o seu nível de estruturação, unicidade de chaves, consistência, conformidade com esquemas, completude, existência de referências a outros conjuntos de dados, etc. Avaliar a qualidade dos dados é uma tarefa complexa e apenas um modelo de avaliação dificilmente conseguiria capturar todos esses aspectos.

Listam-se aqui alguns modelos que são relevantes no contexto de dados abertos.

5 Estrelas dos Dados Ligados

Modelo proposto por Tim Berners Lee para avaliar o grau de estruturação dos dados em direção aos dados abertos ligados.

Disponível na internet e com uma licença aberta (caso contrário não podem ser considerados dados abertos)
★★ Disponível como dados estruturados e legíveis por máquina
★★★ Como o anterior, mas disponível em formato aberto
★★★★ Como todos os anteriores, e ainda usando os padrões aberto do W3C para identificar as coisas
★★★★★ Como todos os anteriores, e ainda referenciar dados de terceiros para prover contexto

O modelo tem sido refinado e adaptado por diversos grupos de pessoas. Um desses refinamentos, que conta com a participação de algumas pessoas vinculadas ao W3C, é 5 ★ Open Data. Nele, a identificação de coisas por URIs é uma característica exigida para a 4ª estrela. Além disso, vários exemplos de dados em cada estágio são apresentados.

Modelagem de proveniência de dados

A modelagem dos metadados de proveniência dos dados abertos é de grande importância para que se possa não apenas identificar a sua origem e processo de produção, como também documentá-lo e permitir que o mesmo seja reproduzido.

Vários vocabulários de proveniência (e.g. OPMV, X-Prov, W3P, etc.) foram produzidos ao longo dos anos por diferentes grupos de estudiosos para descrever os metadados de proveniência. Os projetos de dados abertos do governo do Reino Unido (data.gov.uk) atualmente utilizam o vocabulário OPMV para descrever seus metadados de proveniência, nos casos em que tais metadados são fornecidos.

Um grupo de trabalho no W3C foi criado para estudar, harmonizar e documentar os diversos vocabulários de proveniência, e produziu um relatório final em 2010. Deste grupo também resultou um modelo de dados e uma ontologia de proveniência.

OPQUAST Checklist

O sítio Open Quality Standards (OPQUAST) possui uma lista de verificação com 72 questões que pretendem verificar o uso de boas práticas relacionadas a dados abertos.

Modelo de Maturidade de Dados Abertos Governamentais

Este modelo foi desenvolvido pelo autor Joshua Tauberer (@JoshData) em seu livro OPEN GOVERNMENT DATA. Na verdade trata-se mais de um mapa, uma tabela que na qual podemos analisar uma ação sob dois eixos:


Baseado no modelo das 5 estrelas, o modelo traz o uma visualização de exemplo do congresso americano, para auxuliar o entendimento do seu funcionamento.

🇦🇺 Modelo de Qualidade de Dados do Governo da Austrália

O governo da Austrália está desenvolvendo um modelo também baseado nas 5 estrelas de Tim Berners-Lee, denominado "data quality framework". A diferença básica é que ele dá mais valor, em vez do uso de um formato aberto, a planilhas "legíveis por máquina", isto é, cujas células podem ser diretamente interpretadas por um programa, sem cabeçalhos ou informações que precisariam ser selecionadas por um ser humano.

O modelo considera também a qualidade dos metadados e a qualidade de APIs de dados abertos.

Kit de ferramentas para dados abertos governamentais do Banco Mundial

O kit de ferramentas para dados abertos governamentais do Banco Mundial tem um componente voltado ao fornecimento e à qualidade de dados. Nesse componente, são citados alguns padrões para qualidade de dados.

Vocabulário de Qualidade de Dados

O World Wide Web Consortium (W3C), no âmbito do grupo de trabalho de melhores práticas para dados na web (Data on the Web Best Practices) está desenvolvendo um vocabulário de Qualidade de Dados (Data Quality Vocabulary), como uma extensão do vocabulário DCAT para descrever a qualidade de conjuntos de dados (por exemplo, com que frequência é atualizado, se aceita correções, se há compromisso de persistência no fornecimento, etc.).

Image Frictionless Data

O Frictionless Data, ou dados sem fricção, é um projeto da Open Knowledge Internacional que pretende remover as barreiras que tomam tempo (fricção) no tratamento dos dados, visando facilitar a sua reutilização. Para isso, promove especificações técnicas baseadas no formato JSON para armazenar os metadados juntamente com os dados, chamado "Data package". No caso de tabelas no formato CSV, a especificação inclui as descrições das colunas da tabela, definição de chaves primárias e estrangeiras e regras de validação, segundo a especificação "Tabular Data Package". Isso possibilita a automatização de tarefas ao consumir os dados.

O projeto também promove uma série de ferramentas livres para facilitar a publicação e o consumo de dados conforme as especificações. Também disponibiliza bibliotecas livres para manipular os dados, para as principais linguagens de programação.

Está disponível uma palestra do José Ferraz Neto sobre o assunto, apresentada durante o 12º PyData BSB, em Brasília, em 5/12/2018.

Qualidade em planilhas

A cidade de Toronto, no Canadá, elaborou uma técnica para melhorar a qualidade de planilhas para que elas sejam mais facilmente utilizadas no contexto de dados abertos. É um passo a passo para converter planilhas do formato .xls(x) para .csv. O foco é na usabilidade, retirando todos os elementos que dificultam o uso por programadores em um contexto processado por máquinas, tais como: cabeçalhos, formatações, fórmulas, etc.

📌 Modelos focados na abertura e nos impactos para a sociedade



🌟 5 stars of Open Data Engagement

Durante um workshop no evento UK Govcamp 2012, um grupo de pessoas, inspirados pelas 5 estrelas dos dados ligados propostas por Tim Berners-Lee, procurou estabelecer uma gradação de 5 estrelas visando medir os impactos sociais, a participação e a colaboração ("engagement") do cidadão em relação aos dados abertos.

Esse modelo compreende:

Ser movido pela demanda
★★ Colocar os dados em contexto
★★★ Suportar conversas que envolvam os dados
★★★★ Construir capacidades, habilidades e redes
★★★★★ Colaborar nos dados como um recurso comum

🎖 Certificação ODI

O Instituto dos Dados Abertos (Open Data Institute - ODI) do Reino Unido estabeleceu uma série de critérios para certificação dos dados abertos. A certificação está dividida em quatro categorias:


Há quatro níveis de certificação:


Esse modelo de certificações segue uma visão estabelecida sobre como avaliar os dados abertos.

🌞 Modelo de maturidade em transparência organizacional

Um modelo que mede o nível de maturidade de uma organização pública em relação à sua transparência institucional foi proposto por um grupo de pesquisadores e publicado em um periódico do Tribunal de Contas do Município do Rio de Janeiro. O artigo pode ser lido na página 77 da edição nº 53, ano XXX, da revista, publicada em fevereiro de 2013.

O detalhamento do segundo nível deste modelo já encontra-se publicado.

Padrões e priorizações na publicação de dados governamentais

Em 2009, Tim Berners-Lee, um dos criadores da web e da web semântica, publicou o documento Putting government data online, onde cita não apenas alguns formatos e padrões técnicos que os governos deveriam utilizar para abrir dados como também sugerindo uma ordem de prioridade baseada no pragmatismo - primeiro publicar dados brutos e depois transformá-los em dados ligados (Linked Data), conectando-os a outras fontes de dados.

Em 2013, o W3C criou um grupo de trabalho para discutir melhores práticas para dados na web. O grupo publicou uma minuta de documento que reúne essas melhores práticas.

No Brasil, a INDA utiliza o critério de priorizações definido na Resolução n.º 3:

I – grau de relevância para o cidadão (descoberto via consulta pública);

II – estímulo ao controle social;

III – obrigatoriedade legal ou compromisso assumido de disponibilização daquele dado;

IV – dado se referir a projetos estratégicos do governo;

V – dado demonstrar resultados diretos e efetivos dos serviços públicos disponibilizados ao cidadão pelo Estado;

VI – sua capacidade de fomento ao desenvolvimento sustentável;

VII – possibilidade de fomento a negócios na sociedade;

VIII – dados mais solicitados em transparência passiva desde o início da vigênciada Lei nº 12.527, de 18 de novembro de 2011 - Lei de Acesso à Informação.

A cidade de Toronto, no Canadá, propõe, em 2019, um modelo baseado em 4 critérios: questão cívica, saída, requisitante e fonte. Estabelece pesos diferentes para cada resposta possível ao critério

🗒 Índice Global e Censo dos Dados Abertos

A Open Knowledge Foundation vem conduzindo um censo dos dados governamentais abertos para países e cidades em todo o mundo. Alguns assuntos são especificados como essenciais para a abertura de dados e, conforme o progresso de cada administração pública em cada uma dessas áreas, é atribuída uma pontuação que é totalizada e mostrada em um ranking geral que deixa claro as forças e fraquezas da abertura de dados em cada país ou cidade.

Em 2015, o ranking de localidades de nível nacional foi renomeado para Global Open Data Index, tendo o nome Census permanecido apenas para o ranking de cidades.

⛅ Open Data Barometer da World Wide Web Foundation

A World Wide Web Foundation criou em 2012 o Web Index, um levantamento onde um questionário é respondido por pesquisadores contratados em diversos países para avaliar diferentes aspectos do uso da web no país. A cada resposta é atribuída uma pontuação, que no final gera um ranking dos países avaliados. Parte das questões do questionário (Q22 a Q26) e nove indicadores se referem às iniciativas de dados abertos governamentais.

Questões:
Indicadores:
Ainda em 2012, a parte do Web Index referente a dados abertos foi destacada, tornando-se o Open Data Index (não confundir com o Global Open Data Index da 'Open Knowledge). Em 2013 foi reformulado novamente para se tornar o Open Data Barometer, ano em que teve a sua primeira edição publicada.

Tabela periódica dos dados abertos

O modelo proposto pelo GovLab da New York University dispõe, em um diagrama semelhante a uma tabela periódica dos elementos, as principais considerações que uma iniciativa de dados abertos deve ter para que produza impacto na sociedade. Abrange desde processos internos, como infraestrutura e qualidade de dados, até processos de interação com a sociedade, como colaboração e ciclos de feedback.

🎰 Bingo dos dados abertos

Uma lista de desculpas comuns que a administração pública em todos os lugares do mundo costuma utilizar para não abrir dados. Criada inicialmente por Christopher Gutteridge (University of Southampton) e Alexander Dutton (University of Oxford), expandido pelo grupo Spaghetti Open Data (em particular Francesco Minazzi), em uma versão italiana, e posteriormente traduzido para o português por Fernanda Campagnucci. O bingo dos dados abertos foi mencionado no Podcast Pizza de Dados, episódio 17, em 2019.

Modelos holísticos

Consideram-se aqui modelos holísticos aqueles que consideram tanto os aspectos da qualidade de dados quanto do impacto e engajamento da sociedade com os mesmos e, ainda, outros aspectos relevantes para que uma iniciativa de dados abertos seja bem-sucedida, tais como os legais, políticos, organizacionais e de gestão.

Estudo da OCDE

A Organização das Nações Unidas para a Cooperação e Desenvolvimento Econômico (OCDE) realizou em 2013 o estudo "Towards Empirical Analysis of Open Government Data Initiatives". O documento explica a cadeia de valores dos dados abertos e como eles são utilizados pela sociedade civil. Além disso, apresenta seis dimensões para a implementação de dados abertos, classificando os desafios em seis tipos: desafios nas políticas, técnicos, econômicos e financeiros, organizacionais, culturais e legais.

Por fim, o estudo propõe um conjunto de métricas e indicadores para os dados abertos governamentais, com as seguintes dimensões ou componentes:


Kit de ferramentas para dados abertos governamentais do Banco Mundial

O Banco Mundial preparou um "kit de ferramentas" para dados abertos governamentais que consiste nos seguintes componentes:


Esse último componente pode apresentar importantes insumos para a avaliação da maturidade de iniciativas de dados abertos. Essa ferramenta, quando aplicada, avalia 8 aspectos independentes, relacionados abaixo, os quais podem ser visualizados em um gráfico do tipo radar.


Common Assessment Framework for Open Data

A Web Foundation está estruturando um documento que propõe um modelo metodológico comum para avaliar dados abertos.

Modelo de Maturidade de Dados Abertos do ODI

O Open Data Institute (ODI) publicou em 2015 um Modelo de Maturidade em Dados Abertos. Ele se baseia em cinco temas com cinco níveis de progresso para cada um. Os 5 temas são:


Há uma tradução do modelo para o português feita pelo Ceweb.br.

🌍 Experiências internacionais

Ao definir um modelo de maturidade para a publicação de dados abertos governamentais no Brasil, é importante considerar o que há de semelhante sendo feito em outros países.

🇩🇪 Alemanha

Relatório sobre Dados Abertos Governamentais, encomendado pelo governo da Alemanha ao Instituto Fraunhoffer.

🇦🇹 Áustria

O Manual de Dados Abertos Governamentais austríaco acrescenta um aspecto referente à documentação dos metadados ao modelo de 5 estrelas de Tim Berners Lee, propondo que se adicione meia estrela ao alcançar esta condição.

O modelo também propõe a padronização de nomes para conjuntos de dados e para colunas em planilhas, níveis de maturidade para a gestão de metadados. Propõe, ainda, critérios pontuados de monitoramento de dados que podem ser utilizados num autodiagnóstico e na priorização de publicação dos dados que a organização detém.

🇨🇱 Chile

O modelo chileno, OD-MM Datos Abiertos, avalia a maturidade do processo de publicação, da qualidade dos dados e do impacto de sua publicação, procurando uma visão holística. Está dividido em três eixos, conforme a estrutura a seguir:

  1. Perspectiva institucional e legal
    1. Estratégia, liderança e institucionalidade
    2. Leis e normas
    3. Gestão
  2. Perspectiva tecnológica
    1. Segurança e disponibilidade
    2. Acesso
    3. Qualidade de dados
  3. Perspectiva cidadã e empresarial
    1. Reutilização de dados
    2. Desenvolvedores
    3. Participação e Colaboração