2. Limpar

Como fazer Limpeza de dados, Refinamento, Mineração, Normalização, Transformacões, … (Data cleaning, mining, refining, transforming, normalizing, …)


Ferramentas para limpar dados

Conversores de formato

Outras coisas

Ferramentas para limpar dados


(Google) Open Refine

Desktop (win/mac). Roda no browser

  • Powerful data-cleaning tool
  • Verificar erros de digitação
  • Mesclar entradas parecidas
  • Fill down
  • Case transformations

http://openrefine.org/

Text Wrangler

Desktop (mac)

  • Ótimo editor de texto.
  • Suporte a expressões regulares (GREP). Aprender a trabalhar com expressões regulares foi a coisa mais eficiente pra limpeza de dados diária, de tabelas de duas linhas a tabelas gigantes.
  • Aguenta arquivos grandes (já processei arquivos com quase 1 milhão de linhas. depende mais da máquina do que do software).

http://www.barebones.com/products/textwrangler/

Microsoft Word

Desktop (mac/win)

  • Parece simples, mas resolve vários problemas
  • Possível ver os caracteres invisíveis
  • Boa busca e substituição (find & replace)
  • Suporte básico de expressões regulares
  • Wildcards (tab, parágrafo, qualquer caracter/letra/dígito, começo/fim de palavra)
  • Na substituição é possível retornar o texto encontrado
  • Melhor opção que encontrei pra usar expressões regulares pra limpar textos no Windows.
  • Tutorial: Expressões regulares no Word

Data Wrangler

Online

  • Colam-se os dados, e ele abre a janela de edição
  • Muitas funções
  • Conforme você seleciona uma palavra ou frase no seu conteúdo, ele sugere o que fazer com a seleção (eliminar, separar em colunas, …)

http://vis.stanford.edu/wrangler/

Conversores de formato de arquivo


CDR > EPS

  • Entrada: Upload de arquivo .cdr (Corel Draw)
  • Saída: Download de arquivo vetorial .eps, que pode ser utilizado nos softwares Adobe e vários outros

https://cloudconvert.com/cdr-to-eps

JSON > CSV

http://www.convertcsv.com/json-to-csv.htm

XML > CSV

http://xmlgrid.net/xml2text.html

Mr. Data Converter

CSV > JSON, XML, HTML

  • Entrada: Copiar/Colar (CSV ou tabela separada por tabs)
  • Saída: Dados em formato JSON, XML, HTML, PHP,

http://shancarter.github.io/mr-data-converter/

Play with data!

Lista de sites para converter dados para os formatos CSV, JSON, KML, GeoJSON or TopoJSON

  • JSON to CSV
  • GeoJSON to TopoJSON
  • CSV to XML, JSON
  • SHP to FusionTables
  • KML to GeoJSON

http://jeanabbiateci.fr/play-with-data/

Shape Escape

Converte shapefiles em:

  • Fusion Tables (shp2fusiontables)
  • GeoJSON (shp2geoJSON)
  • TopoJSON (shp2topoJSON)

http://shpescape.com/

Outras coisas


Cálculo rápido de variação porcentual %

http://percent-change.com/

Testar

Editores de texto pra windows?

http://www.emeditor.com/