No podemos negar que los datos masivos son una realidad. No hace falta releer a McKinsey o Gartner para intuir este presente, aveces muy futuro. Hoy proponemos un ejemplo de Big data y Personal data con nuestro buzón de correo electrónico. ¿qué podremo sacar de todo ello?
Para el experimento vamos a necesitar un par de cosas:
(A) Una cuenta de correo electrónico Gmail, Yahoo o MS Exchange.
(B) 10 Minutos de aplicación y exploración práctica.
¿Qué es esto del Big data, Personal Data…?
A la hora de proponer realizaros un ejemplo de Big Data y Personal Data quise hacer la búsqueda más sencilla del mundo para poder entendernos en este ambiente digital. Pregunté a Google que “Qué era el Big Data” y me lo quiso explicar para dummies. Sencillo y práctico. Con más de 21.000.000 de resultados podríamos realizar un buen estudio sobre lo que es y no es el alcance teórico del término, pero vayamos a lo simple.
La página de Big Data For Dummies (Si pinchamos en el enlace nos podremos bajar su libro) nos dice que el “Big Data son de grandes volúmenes de datos con alta variedad de contenido generados con muchísima velocidad, que requieren nuevas formas de procesamiento para permitir una buena toma de decisiones.“
Y el “Personal Data” ¿Cómo lo definimos?
Imagínate que estás en tu comunidad de vecinos. Sois unos 100 y cada uno sabe de ti características personales que le permiten tener una idea de cómo eres en realidad, lo que todo vecino quiere saber de su vecino del sexto “¿Qué pinzas para la ropa usará”.
El personal data son el conjunto de datos estructurados y no estructurados que tienen como origen la propia persona. Con un volumen de datos efectivo y herramientas adecuadas para el análisis podemos proponernos, como vimos en el grafo de nuestra cuenta de Facebook, estudios para simplemente saber ¿qué tendrán los datos de mi que yo no sepa? (Sabran los datos las pinzas de la ropa que utilizo?, tu vecino si lo sabe).
1. Ejemplo de Big data: La herramienta.
Para el estudio de nuestro “personal data” vamos a utilizar una herramienta del MIT con la que vincularemos nuestra cuenta de correo electrónico. Immersión, como así se llama la herramienta va a realizar estas tres funciones recordando la definición de Big Data:
(a) Va a recoger un gran volumen de datos (en este caso nombres de correo electrónico).
(b) Que generamos con cierta velocidad (¿Cuántos correos mandas al día?).
(c) Para realizar un posterior análisis.
Mi hipótesis de trabajo para el ejemplo de Big data.
La hipótesis en la que quiero moverme es la siguiente:
¿Tendré comunidades con relación formal / informal identificables en los procesos de envío de correo electrónico de mi cuenta personal de Google?
Trabajemos.
https://immersion.media.mit.edu/
Visitaremos la herramienta Immersion en:Seleccionaremos el tipo de cuenta de correo electrónico a minar.
Procederemos a que el sistema termine de procesar
Quedando algo parecido a esto:
Identificaremos 6 grandes zonas marcadas en el Dibujo:
Zona A:
Nos permite buscar datos y buscar la relación temporal existente. Ejemplo: Quiero saber que conexiones establecía con mi socio Evaristo Nogales desde mi cuenta personal. Así que pondremos el (id) o nombre a buscar y dejaremos que la herramienta procese. En mi caso me agrada que tire de memoria y me muestre esta comunidad en la que nos movíamos allá en el 2011 en pre Walnuters.
De estos datos concluyo las relaciones formales que se estaban estableciendo hasta poner en acierto la creación de Walnuters. Muchos agentes dentro del grafo siguen trabajando con nosotros y otros están en las mejores agencias nacionales. Como curiosidad tenemos gráfico de cuando fue el “explendor” de correos entre Evaristo y el que escribe en el que fui yo el que introdujo en alguna de las cadenas informales de trabajo a José Reyes Silva, actual director creativo de Walnuters.
Zona B y C:
Vamos a poder dar magnitud y tamaño a nuestro grafo de relaciones. Desde Chance produciendo cambios en el tamaño de la comunidad, hasta el aumento o descenso de nodos y conexiones. En mi caso he puesto nodos al 80% y conexiones al 80%. Aquello que nos de mayor claridad de estudio al experimento. Así como el cambio de las etiquetas.
Zona D:
El querer contestualizar el experimento en una fecha clave (octubre 2008 a Octubre 2009), puede hacernos ver en qué época teníamos relaciones más formales con una comunidad específica. En mi caso quiero analizar mi comunidad en la época que estudié Organización y Dirección de Recursos Humanos en ESIC. ¿Serán mis compañeros / profesores los protagosnistas?
Me han llamado la atención tres aspectos:
(a) El grafo corresponde a la realidad que vivíamos estudiando el máster.
(b) Se refleja perfectamente los equipos de trabajo, profesores y la carga de comunicaciones profesionales.
(c) La curiosidad de las salidas profesionales y el aparecer el dueño de la empresa donde acabé realizando las prácticas.
Zona E:
Es la zona de los números vs. relaciones. Podremos optar por tener los datos por gráficas oestudiar por segmentos de fechas con quienes compartíamos información. Me he quedado de piedra, cuando al poner las fechas de proyectos se esgrime un listado de personas que no eran otras que las que integramos el mejor proyecto de ese año (había que decirlo).
Conclusiones del ejemplo de bigdata destripando nuestro correo.
1. Los datos y la minería de datos, como hemos visto en artículos anteriores, nos ayuda a tomar decisiones.
2. Hay que estudiar la génesis del elemento a estudiar y tener en algún formato “tratable” esos datos, yo me manejo bien con CSV.
3. Podemos sacar de esta práctica una anécdota personal, pero si la llevara a una gran compañía establecería los procesos de relación comercial que tiene un individuo, o simplemente el flujo de comunicación entre equipos de trabajo.
4. Los datos están ahí para que tu los machaques, mines y saques conclusiones. No pienses que las mejores herramientas están en manos de grandes compañías. Prueba Gephi con un buen CSV estructurado y ya me contaras.
5. Una gran compañía debería de realizar este tipo de estudios dentro de la política de comunicación y Recursos Humanos de la empresa. ¿Qué opináis?
Me despido con mi nodo de relaciones del periodo 2010 – 2014.
Espero haya sido útil.
Seguimos!!
@antoniogarcia78 @helleworld_ @Gorzas Twitter es el mal.
Rafael Benítez ;)) (@benitezrafa)
Ya me dirás @adsuara. Recién horneado y minado. Ejemplo de #Bigdata y Personal data (buzón de correo electrónico) http://t.co/R4QEXIs9Dn
@ovinan
Ejercicio de #Bigdata para analisis/optimizacion comerciales y atencion al cliente http://t.co/dVoclWEQqh (via @Recuenco @benitezrafa) #li
@fersgar
Práctica: Ejemplo de Big data y Personal data con el buzón de correo http://t.co/Kj4GtikCWV vía @BenitezRafa
@JulioRAliaga
RT @soniconp: @JulioRAliaga Me acabo de dar cuenta de que se me quedó el enlace atrás Julio, ahí va: http://t.co/0ye6bFqhVp ;) @benitezrafa
@asburon
Práctica: Ejemplo de Big data y Personal data con el buzón de correo http://t.co/H5TJlLqAV8 vía @BenitezRafa
@BAYRONPRIETO
@JoseABermudezD Ejemplo de Big Data y Personal Data. http://t.co/PS4avdInYS
Rafael Benítez ;)) (@benitezrafa)
Propuesta de caso práctico de #BigData y #PersonalData sobre cuentas de correo electrónico http://t.co/R4QEXIs9Dn
@PabloPazRec
RT @benitezrafa: Propuesta de caso práctico de #BigData y #PersonalData sobre cuentas de correo electrónico http://t.co/R4QEXIs9Dn
@TRCInformatica
Ojo: Ejemplo práctico de #Bigdata y uso del #Personaldata con herramienta para análisis del correo http://t.co/Ph3w9FsuVi vía @benitezrafa
El diván de Rafael Benítez Moreno Visualizar Big Data: Mapas de calor con ScraperWiki y Tabulae
[…] otro día ya vimos como jugar con los datos estructurados de nuestro correo electrónico acercándonos a un simple mapa de …. También hemos capturado datos de Twitter, hemos realizado grafos con Facebook en Gephi, pero hoy […]
@espacioIOT
Práctica: Ejemplo de Big data y Personal data con el buzón de correo http://t.co/quARdlidhX
@AccionreaccionA
Diferencia entre #Personaldata y #BIgdata http://t.co/RrFjtPOe5e