OpenRefine

OpenRefine és una aplicació web d'escriptori de codi obert per a la neteja de dades i la transformació a altres formats, una activitat coneguda en anglès com a data wrangling. És similar a les aplicacions de full de càlcul i pot gestionar formats de fitxer com ara CSV, tot i comportar-se més com una base de dades. OpenRefine va començar com a Freebase Gridworks, desenvolupat per Metaweb i està disponible com a codi obert des del gener de 2010. El 16 de juliol de 2010, Google va adquirir Metaweb, els creadors de Freebase, i el 10 de novembre de 2010 va canviar el nom de Freebase Gridwords a Google Refine, llançant la versió 2.0. El 2 d'octubre de 2012, l'autor original David Huynh va anunciar que Google deixaria de donar suport actiu a Google Refine. Des de llavors, la base de codi ha estat en transició a un projecte de codi obert anomenat OpenRefine. Funciona en files de dades que tenen cel·les en columnes, de manera similar a la manera en què funcionen les taules de bases de dades relacionals. Els projectes OpenRefine consisteixen en una taula, les files de la qual es poden filtrar mitjançant facetes que defineixen criteris (per exemple, mostrant files on una columna determinada no està buida). A diferència dels fulls de càlcul, la majoria de les operacions a OpenRefine es fan en totes les files visibles, per exemple, la transformació de totes les cel·les de totes les files sota una columna, o la creació d'una nova columna basada en dades existents. Les accions realitzades en un conjunt de dades s'emmagatzemen al projecte i es poden reproduir en altres conjunts de dades. Les fórmules no s'emmagatzemen a les cel·les, sinó que s'utilitzen per a transformar les dades. La transformació només es fa una vegada. Les expressions de fórmules es poden escriure en General Refine Expression Language (GREL), en Jython i en Clojure.


Developed by StudentB