CGI.br inicia Censo da Web.br

Primeira etapa do censo mapeou os servidores de governo (.gov) em todo o país. Achou 18,7 mil sites, 6,3 milhões de páginas e baixíssimos índices de adesão a padrões web e de acessibilidade.

17/08/2010

O Comitê Gestor da Internet no Brasil (CGI.br) e o Núcleo de Informação e Coordenação do Ponto BR (NIC.br) apresentaram hoje o primeiro resultado do Projeto Censo da Web.br, que prevê a realização de censos sobre a rede formada pelos sites .br. Com isso, o Brasil será o primeiro país no mundo a recensear sua web. A primeira etapa do censo foi realizada na web governamental, da qual fazem parte os sites sob o domínio gov.br, a pedido da Secretaria de Logística e Tecnologia da Informação (SLTI) do Ministério do Planejamento, Orçamento e Gestão.

A coleta de dados foi realizada em duas etapas, em outubro de 2009 e fevereiro de 2010, e identificou 18.796 sites sob o domínio gov.br — inclusive os sites de estados, que usam domínios com a sigla estado.gov.br. Isso representa uma parcela minúscula da web brasileira, que tinha, em julho de 2010, 2,17 milhões de nomes de domínios registrados com a terminação .br. Mas já traz dados interessantes para, a partir de novas rodadas do censo e a construção de séries históricas, entender como é a internet no Brasil e fazer recomendações para que ela funcione de uma maneira eficaz e não excludente, explica Hartmut Glaser, diretor executivo do CGI.br.

Um exemplo: dos 6,3 milhões de páginas coletadas, apenas 2% apresentam algum tipo de conformidade com padrões de acessibilidade. Ou seja, 98% delas não contam com nenhum tipo de ferramentas ou conjuntos de ferramentas para serem usados por portadores de deficiências. Isso significa excluir, do uso de sites de governo, 24,6 milhões de pessoas, equivalentes a 14,48% da população brasileira que, de acordo com o Censo IBGE de 2000, são portadores de deficiência.

Também em relação a padrões, apenas 5% das páginas de governo brasileiras são aderentes aos padrões do W3C, do consórcio World Wide Web e 91% não apresentam conformidade com esses padrões. A aderência aos padrões HTML do W3C permite a universalidade do acesso às páginas web, independente do dispositivo, limitação física, idioma, localização geográfica, tipo de navegador usado, ou seja, é mais um caminho para uma internet universal e não excludente.

O censo constatou que 26% dos dados governamentais na web brasileira, em quantidade de bytes, são do governo federal. Que 17% do número de sites está no Paraná — o maior percentual entre os estados porque, lá, cada escola pública tem um site. Em segundo lugar, em número de sites, estão empatados o esatdo de São Paulo e o governo federal, com 14% cada um.

O mapeamento também mostrou que 62% dos servidores web governamentais usam o software livre Apache, enquanto 31% usam software Microsoft/ISS. A região onde mais se usa servidores com software livre é a Sul (87% dos servidores usam Apache) e a região onde eles têm menor presença é a Centro Oeste (48%). O tipo de documento mais usado é o .pdf (80%), seguido pelo .doc (13%), pelo .xml (5%) e por outros formatos como .docx, .odt, .rtf, .txt, .xsl (2%). Apenas 52% dos servidores .gov brasileiros estão sincronizados com a Hora Legal Brasileira.

Os dados do censo .gov estarão na internet, no site www.cgi.br, a partir do dia 20, quando serão lançados, em sua totalidade, no Secop 2010, seminário de TICs para a gestão pública, que acontece entre os dias 18 e 20 de agosto, em Fortaleza. Até o final do ano, o Censo da Web.br vai realizar coleta e análise de dados em domínios com pouco número de sites, como os .org. Com esses levantamentos, o NIC.br está se preparando para o desafio de recensear os domínios .com — algo que nunca foi feito, nem no Brasil nem no exterior, e que representa um desafio enorme, por conta do volume de dados e da necessidade de estabelecer critérios para poder compará-los em séries históricas.

O censo vai descobrir: o tamanho total da web brasileira, em número de sites, páginas web e gigabytes; a proporção de sites que usa o protocolo IPV6; os idiomas usados nos sites .br; a proporção de páginas aderentes aos padrões HTML do WC3; a proporção de páginas aderentes aos padrões de acessibilidade Ases; a proporção de tipos de objetos usados nas páginas; a proporção de tipos de tecnologias usadas nas páginas; a idade das páginas; a localização geográfica dos servidores que as hospedam e a sincronização de tempo dos servidores.