Fork me on GitHub
#clojure-italy
<
2017-11-29
>
reborg17:11:17

Vedo sempre di piu' "data lakes" da tutte le parti. Qualcuno mi spiega?

nilrecurring18:11:15

Anni fa erano chiamati Master DB

nilrecurring18:11:22

Prima ancora Data Warehouse

nilrecurring18:11:08

Penso che il cambio di nome derivi dal fatto che i “data lakes” sono praticamente delle “discariche di dati”, dove tutta l’organizzazione dovrebbe scaricare i propri dati

nilrecurring18:11:40

In maniera molto unstructured, schemaless, etc

nilrecurring18:11:41

Poi viene dato tutto in pasto ai Data Scientist, che fanno le magie col Machine Learning™ sui Big Data™

nilrecurring18:11:13

(Molto probabilmente nel Cloud)

nilrecurring18:11:19

Mentre il Data Warehousing è sostanzialmente SQL, con un’interfaccia amichevole per gli analisti business non tecnici

nilrecurring18:11:11

In conclusione, penso che sia semplicemente un trenino al quale le aziende medio-grandi vogliono attaccarsi per dire che anche loro fanno l’intelligenza artificiale e i big data, e che è facile da vendere per le consulenze

reborg19:11:11

immaginavo che ci fosse parecchia fuffa in giro... in pratica se sbatto dei zipponi del traffico ngnix su S3 ho i "data lakes"

nilrecurring20:11:21

Quasi…il punto penso sia che deve essere un repo centralizzato per tutta l’azienda, in modo da poter fare cross-referencing tra le diverse fonti di dati

nilrecurring20:11:34

E.g. noi uploadiamo tutti i nostri dati su BigQuery, cosí che gli analisti possono fare cross-referencing e tirare fuori dashboard in modo abbastanza facile - però non lo chiamiamo data lake

reborg20:11:49

capito, abbiamo anche noi la stessa cosa

nilrecurring21:11:52

Nice 🙂 Penso sia pratica abbastanza diffusa infatti

richiardiandrea21:11:09

Buzzword del momento direttamente da re:Invent: data lake, schema on read, serverless. Enjoy!

nilrecurring21:11:29

“schema on read” continua a farmi orrore

andrea.crotti21:11:09

qualcuno viene a clojure exchange settimana prossima?