Wielkie dane, małe działania – Big Data a kultura miejska

Niekończące się serie zer i jedynek – tak wyglądają zdigitalizowane mikro dane. Chyba już za późno, by mówić, że świat IT wkracza w naszą codzienność. On już jest w nią immanentnie w wpisany. A jeśli mówimy o informatyce, to jej powszechność pociąga za sobą zyskujący na popularności użytkowania obszar wielkich zbiorów danych – Big Data. Nie idzie tylko o gromadzone wyłącznie dla celów komercyjnych „suche” liczby lub statystykę. To też dane, które mogą rzucić nowe światło na obszar badań kulturowych; na nasze postrzeganie tkanki miejskiej czy badania społeczeństwa w ogóle. To także wizualizacje, które same w sobie mogą być sztuką.

ilustr. Paweł Siodłok

ilustr. Paweł Siodłok

Czym tak naprawdę są Big Data? To ogromne ilości drobnych danych, niewiele znaczących w wymiarze jednostkowym. Dla przykładu: pojedyncze kliknięcie, zapytanie w wyszukiwarce, ogłoszenie o sprzedaży, post w mediach społecznościowych, dane z GPS, dane transakcyjne, dane z sensorów rejestrujących temperaturę, zdjęcia wrzucane w social media, itd. Często podkreśla się takie aspekty tych zbiorów jak ich duża liczba, zmienność, różnorodność czy strumieniowy charakter (ponieważ na bieżąco generowane są setki rekordów). Badacze dużych zbiorów danych podkreślają, że często nieważne jest, dlaczego dane zjawisko występuje, ale sam fakt, że się pojawiło. Takie podejście stoi w opozycji do tego, co do tej pory było podstawą dociekań – pytań „dlaczego”, rozważań na temat mechanizmów funkcjonowania algorytmów, związków przyczynowo-skutkowych między jednym działaniem w sieci a drugim. Jeśli algorytm podpowiada, że korzystniej jest kupić ten sam bilet lotniczy nie dzisiaj, ale za miesiąc, to możemy przecież skorzystać i zaoszczędzić, nie zagłębiając się w to, dlaczego tak się dzieje ani jakie dane wykorzystuje taka aplikacja[1].

Jak Big Data mają się do humanistyki?[2] – Zazwyczaj o tym zjawisku mówimy wtedy, gdy mamy do czynienia z dużymi bazami danych, z przetworzeniem których nie radzą sobie nasze komputery osobiste. Takich badań właściwie nie prowadzi się w polskiej humanistyce (lub prowadzi się ich niewiele). Coraz częściej natomiast wykorzystujemy w różnych badaniach algorytmy, automatyzację i metodologię ze świata data science. Jest to oczywiście temat kontrowersyjny, choćby z tego powodu, że dane pochodzące np. z mediów społecznościowych, które mogłyby zainteresować badaczy kultury najbardziej, wcale nie są powszechnie dostępne – mówi Karol Piekarski, doktor kulturoznawstwa, kurator Medialabu Katowice – projektu, w ramach którego realizowane są różne przedsięwzięcia z pogranicza technologii i sztuki[3].

Jak sam zaznacza, problemem jest często liczba zebranych danych czy wytworów kultury w wersji zdigitalizowanej – to setki tysięcy, jeśli nie miliony zdjęć, filmów, publikacji itp. O ile nie szukamy konkretnych pozycji, nie sposób to przejrzeć, nie wspominając o bardziej szczegółowych badaniach. W tym momencie przydadzą się algorytmy, które pomogą np. znaleźć tylko określone fotografie lub pozwolą na szybkie przeszukiwanie określonych typów treści – mówi Piekarski.

Duże zbiory danych wnoszą nową jakość np. w obszar badań lingwistycznych. W końcu niezliczone teksty są dostępne online. Mowa zarówno o artykułach, komentarzach na forach, blogerskich postach, ale również o zdigitalizowanych przez Google Books[4] tekstach, do tej pory występujących wyłącznie w formie analogowej. Dzięki temu możliwe jest nie tylko poprawianie algorytmów automatycznych tłumaczy, badanie trendów językowych (czy nowe słowo jest niszowe, czy używają go już masy?), ale także stworzenie modelu charakteryzującego osobę mówiącą/piszącą. Ciekawym przykładem jest jedno z polskich badań, w ramach którego przeanalizowano wypowiedzi polskich parlamentarzystów. Na podstawie zbudowanego modelu próbowano określić, jaka jest płeć mówcy, jego wykształcenie i przynależność partyjna[5].

Warto też zastanowić się nad nowym postrzeganiem roli kulturoznawcy i obszaru jego badań. Wygląda na to, że w przyszłości umiejętność programowania będzie tak oczywista, jak obecnie czytanie czy znajomość tabliczki mnożenia.

Jestem przekonany, że coraz częściej będziemy musieli ze sobą współpracować w zespołach. Istnieje pewien podstawowy zasób wiedzy i umiejętności, które będą musieli posiąść jego członkowie, choćby po to, żeby sprawnie się komunikować. To oznacza, że humanista będzie musiał poznać podstawy programowania i pracy z danymi. Tego rodzaju narzędzia mogą się przydać, w szczególności na etapie eksploracji, a następnie wizualizacji wyników pracy – dodaje Piekarski.

Na znaczeniu zyskują też takie obszary jak informatyka społeczna czy analityka kulturowa. Na uczelniach wyższych coraz więcej jest kierunków i specjalizacji, które łączą kompetencje ścisłe oraz humanistyczne. Zgodnie z definicją tzw. data scientist (badacz danych) powinien się cechować interdyscyplinarnymi umiejętnościami, a zespół badaczy składać się nie tylko z osób biegłych w dziedzinie informatyki i statystyki, ale też specjalistów w zakresie badanego obszaru, grafików oraz osób z lekkim piórem, które potrafią zawiłe dane ubrać w ciekawą i przystępną historię.

Humanistyka to również m.in. obszar badań miejskich. Zgodnie z Google Trends (który także de facto działa w oparciu o duże zbiory danych) zainteresowanie pojęciem tzw. smart city jest od paru lat niezwykle wysokie. Czym tak właściwie jest ta idea? Choć trudno ją precyzyjnie zdefiniować, jednym z powtarzających się w myśleniu o smart city punktów jest takie wykorzystanie zdobyczy technologicznych, by wpłynąć pozytywnie na poziom życia, zwiększyć interaktywność, rozumianą jako wpływ działań mieszkańca na rozwój miasta, polepszyć wydajność infrastruktury. Big Data interesują też badaczy miasta pod kątem kulturowym czy socjologicznym.

Jednym z ciekawszych projektów jest Selfiecity, w którym analizie poddawany jest styl selfie, jakie robili mieszkańcy w pięciu miastach na świecie. Dzięki przetworzeniu znacznej liczby danych odkryto m.in. fakt, że w Moskwie 82% takich zdjęć robią kobiety, zaś w Bangkoku odsetek kobiet to nieco ponad 55%. Wyłoniono też miasta, w których na zdjęciach najczęściej pojawia się uśmiech (Sao Paulo, Bangkok). Inny przykład? (x)trees, stworzone przez Agnes Chavez & Alessandro Saccoia, które można było obejrzeć w Albuquerque Museum of Art & History. Stworzyli oni interaktywny, wirtualny las, którego obraz tworzył się w oparciu o tweety, SMS-y i zapytania z wyszukiwarek internetowych. Był to eksperyment z pogranicza wizualizacji danych, wideo mapowania i sztuki partycypacyjnej, a sam las był kreowany w czasie rzeczywistym – każdy widz mógł współtworzyć tę sztukę: wysłać wiadomość lub opublikować post zawierający słowa klucze. Niezwykle ciekawą jest też praca Jera Thorpa, artysty danych związanego kiedyś z „New York Timesem” (jako tzw. Data Artist in Residence). Stworzył on wizualizację przedstawiającą częstotliwość ukazywania się w druku na przestrzeni dziesięcioleci słów „nadzieja” i „kryzys”. Jego działania obrazują, jak zmienia się medialny obraz rzeczywistości w zależności od praktyk językowych, które są przecież odbiciem nastrojów społecznych.

Takich działań nie trzeba jednak szukać tylko za Oceanem. Chociażby w Krakowie pokuszono się o analizę zabytków z wykorzystaniem tzw. geotagowania zdjęć. Spróbowano odpowiedzieć na pytanie, jaka atrakcja zyskała największą popularność wśród turystów i jaki wpływ miała na tę popularność odległość atrakcji od centrum miasta. Pośrednio możemy się więc dowiedzieć, jakie są obecnie gusta estetyczne społeczeństwa lub jak zaplanować rozwój miasta, także pod względem turystyki[6].

Badań bazujących na znacznych zbiorach danych nie zabrakło i w województwie śląskim.W Medialabie poddajemy analizie między innymi dane na temat deklarowanego uczestnictwa w wydarzeniach kulturalnych promowanych w mediach społecznościowych. Na podstawie setek tysięcy rekordów pobranych z Facebooka – postów, lajków i deklaracji o zainteresowaniu bądź udziale w wydarzeniu – możemy wskazać, które z instytucji mają odbiorców o podobnych zainteresowaniach. Za pomocą specjalnej aplikacji pytamy również użytkowników Facebooka, czy naprawdę wzięli udział w eventach, które ich interesowały. Liczymy, że uda się stworzyć model pomagający przewidzieć, ile osób rzeczywiście weźmie udział w danym evencie. Podejrzewam, że to tematy interesujące przede wszystkim socjologów. W innym miejscu analizujemy także bazy danych serwisów informacyjnych, by określić najważniejsze tendencje w wydarzeniach kulturalnych organizowanych na terenie Katowic w ostatnich latach. Z pewnością nie jest to tradycyjna humanistyka – mówi Piekarski[7].

W Katowicach, przy Uniwersytecie Ekonomicznym, działa również Value Miners – Koło Naukowe Data Science, które skupia się na analizach dużych zbiorów danych – zarówno na ich aspekcie naukowym, jak i badawczym. Członkowie koła używają metod i technik, które nie są powszechnie wykorzystywane w praktyce biznesowej, przede wszystkim ze względu na brak ekspertów w tej dziedzinie. – Koło Value Miners działa na zasadzie realizowania różnych projektów autorskich oraz zewnętrznych. Jego członkowie uczestniczyli w Ogólnopolskim Seminarium Naukowym Statistics for Innovation: Data Visualization and Risk Analysis (SIDVRA), którego organizatorem jest Katedra Demografii i Statystyki Ekonomicznej Uniwersytetu Ekonomicznego w Katowicach. W czasie obrad zaprezentowano referat pt. Atrakcyjność Katowic – podejście wizualne, który jest wynikiem zaawansowanej, wielowymiarowej analizy statystycznej wybranych czynników, które mogą wpływać na atrakcyjność inwestycyjną Katowic. Analiza ta wspierana jest odpowiednimi autorskimi rozwiązaniami z zakresu IT. W najbliższej przyszłości planowane jest nawiązanie bliższej relacji z obszarem biznesowym (rozmowy z udziałem przedstawicieli obu stron są na etapie finalizacji), co będzie skutkowało kolejnymi projektami, publikacjami oraz uczestnictwem w seminariach i konferencjach popularyzujących zarówno Data Science jako naukę, jak jej praktyczne zastosowania – mówi dr Dominik Krężołek, opiekun koła.

Dane i ich wizualizowanie mogą nie tylko prowadzić do istotnych konkluzji, lecz także same w sobie być formą sztuki i przekazywać zupełnie do tej pory nieznaną opowieść. Dane meteorologiczne zebrane podczas huraganów mogą być podstawą dla stworzenia rzeźby lub dzieła muzycznego. Innym przykładem jest FLOW – instalacja, której kształt zmienia się w zależności od dostarczanych jej w czasie rzeczywistym danych pogodowych. Warto tu też wspomnieć o projekcie On Broadway[8] – interaktywnej instalacji, która składa się z danych i zdjęć, będących dokumentacją aktywności setek tysięcy ludzi. Wykorzystano dane z Instagrama i Twittera, pojawiły się też informacje o ruchu taksówek, zdjęcia z Google Street View, kolory znane z instagramowych zdjęć. Takie prezentacje danych często są interaktywne, pozwalają widzowi na eksperymenty. Dzięki temu zawiłe i zupełnie niezrozumiałe na co dzień liczby czy zależności stają się choć trochę bliższe – i ciekawsze[9].

Zainteresowanie dużymi zbiorami danych będzie z pewnością (jak i same tego typu zbiory) nieustannie rosnąć. Wartość ukryta w danych jest niezaprzeczalna, choć często jeszcze nieodkryta. Już teraz nasza codzienność jest rejestrowana w każdym detalu, a kto wie, co przyniesie przyszłość? Na ile analiza Big Data pozwoli rozwinąć naukową refleksję na obszarze humanistyki? A może na zawsze pozostanie ona domeną wielkich korporacji?

Wykorzystanie takich zbiorów to także wyzwania: począwszy od pozyskiwania danych (co jest czaso- i kosztochłonne, o ile w ogóle możliwe), przez kwestie ich analizy (niełatwą bez zespołu specjalistów z różnych dziedzin), aż po wizualizację szeregu cyfr tak, by dane stały się sztuką.

Istotne są też aspekty związane z ochroną prywatności. Wszak aby dowiedzieć się jakiejś nowej prawdy o nas samych musimy wyzbyć się odrobiny wolności. Pytanie tylko, czy warto? I do jakiego stopnia będziemy skłonni dzielić się (świadomie lub nie) szczegółami naszego życia?


[1] Zob. V.Mayer-Schönberger, K.Cukier, Big data: rewolucja, która zmieni nasze myślenie, pracę i życie, przekł. Michał Głatki, Warszawa 2014.

[2] Zob. http://www.academia.edu/3488215/Zwrot_Cyfrowy_w_Humanistyce [dostęp: 27.09.2017]

[3] Więcej na temat metod badania miasta można znaleźć w publikacji Medialabu. Zob. https://medialabkatowice.eu/projekty/badanie-miasta/ [dostęp: 27.09.2017]

[4] http://www.academia.edu/25915050/Big_data_jako_nowy_przedmiot_nauk_o_kulturze [dostęp: 27.09.2017]

[5] Zob. http://www.tandfonline.com/doi/abs/10.1080/09296174.2014.944330?journalCode=njql20 [dostęp: 27.09.2017]

[6] Zob. http://badania-w-kulturze.mik.krakow.pl/2014/04/17/krakow-i-malopolska-fotografie-pamiatkowe/ [dostęp: 27.09.1991]

[7] Więcej informacji o projektach Medialabu można znaleźć pod adresem: https://medialabkatowice.eu/. [dostęp: 27.09.2017]

[8] Zob. http://on-broadway.nyc/ [dostęp: 27.09.2017]

[9] Zob. https://www.ted.com/playlists/201/art_from_data , https://flowingdata.com/2017/01/27/immersive-digital-waves-to-visualize-nature/, https://nicolatriscott.org/2012/09/23/art-in-the-age-of-big-data/ [dostęp: 27.09.2017]


sylwia-chrapek-male

Sylwia Chrapek
Rocznik ’93. Studentka Uniwersytetu Ekonomicznego w Katowicach. W wolnym czasie (jeśli już go znajdzie) lubi pisać (o tym, co ją zafascynuje), słuchać (dobrych dźwięków) i uwieczniać rzeczywistość na kliszy (matrycy).