IBM investeert stevig in Big Data-software Spark. De technologie wordt via de cloud aangeboden op zijn BlueMix platform. Het Amerikaanse bedrijf opent verder een Spark Technology Center in San Francisco. Spark kan data analyseren die op computerclusters staan, en te groot zijn voor traditionele databases. Maar het grootste voordeel is dat data al kan worden geanalyseerd als het binnenstroomt, in het jargon: streaming data.
Spark kan sneller 100 terabyte aan data doorzoeken dan bijvoorbeeld het rivaliserende Hadoop. Hadoop deed daar in een snelheidstest 72 minuten over, Spark 23. IBM heeft Apache Spark tot dusverre grotendeels links laten liggen, maar wil nu 3500 medewerkers aan Spark-projecten koppelen. Het ziet onder meer toepassingen voor patroonherkenning en machine learning (vertalingen, datavisualisatie).
Een belangrijke concurrent van IBM in dit verband is Databricks, een clouddienst die bovenop Amazon Web Services is gebouwd. IBM wil overigens met Databricks samenwerken. De verwachting is dat de inspanningen van IBM ook gunstige gevolgen hebben voor typische Spark startups als Adatao, Alpine Data Labs en ClearStory Data.