Śmieci na wejściu, śmieci na wyjściu (ang. garbage in, garbage out), czyli jak błędne dane wpływają na systemy sztucznej inteligencji i nie tylko

13 listopada 2024

Każdy, kto próbował lub nawet badał proces uczenia maszynowego i sztucznej inteligencji, zna powiedzenie „śmieci na wejściu, śmieci na wyjściu”. Innymi słowy, jeśli dane wprowadzane do analizy są błędne, to wyniki również będą błędne.

Choć problem ten nie jest nowy, nadal stanowi ograniczenie, które uniemożliwia skalowanie projektów pilotażowych w celu cyfrowej transformacji przedsiębiorstwa. Dużym i ograniczającym elementem „garbage in, garbage out” jest to, że zbiory danych zawierają w sobie zawsze również dobre dane. Ale nikt nie ma czasu na filtrowanie „śmieci”. Rzadko zazwyczaj posiada się mechanizmy lub narzędzia, które pomagają odróżniać „śmieci” od prawdy.

Dowiedz się więcej o rozwiązaniu ERP 4FACTORY

Autor tekstu porównuje dane biznesowe do zabawy swoich dzieci: Moje dzieci mają zabawkową koparkę gąsienicową. Uwielbiają używać jej do zgarniania kamyków i piasku, aby przekształcić nasze podwórko w nierówny krajobraz, który tworzy wyimaginowaną, pełną magii krainę. Odnajdują radość w tworzeniu szarych mini-gór, ale od czasu do czasu odkrywają też coś bardziej interesującego, bo bardziej błyszczącego. Może to być ćwierćdolarówka lub zagubiona muszelka, którą zakopali kilka tygodni wcześniej. A czasami znajdują śrubki. Niektóre z nich zostały zgubione w czasie innych zabaw i mogą pomóc w dokończeniu jakiejś konstrukcji, w której obecnie brakuje łącznika. Znajdują się również śrubki zardzewiałe, nieumyślnie pozostawione przez poprzedniego lokatora, bezużyteczne i niebezpieczne.

Z danymi biznesowymi jest podobne. Dane postrzegane jako przechowywane informacje mogą być przyjemne dla oka, ale oferują niewielka wartość, a od czasu do czasu natrafiamy na coś, co jest bardziej interesujące niż reszta. Ale ku przerażeniu moich dzieci, zabawa z tym przez cały dzień jest po prostu męcząca. Jak tworzyć analizy i znajdować interesujące wnioski, gdy jesteśmy wzywani do innych działań, a dane się ciągle piętrzą?

Czy czyjeś śmieci mogą być skarbem dla innych?

Jednym ze sposobów, żeby tak się stało, jest zniwelowanie problemu „garbage in, garbage out” poprzez wydobycie wartości z tego, co tradycyjnie uważa się za „odpady”. W przykładzie z zabawą, kiedy moje dzieci znajdują te zardzewiałe śruby – śmieci, dziękuję im za to. Nie są jeszcze na tyle duże, by rozumieć proces utleniania, ale coś, co zmienia kolor, jest fajne! Oczywiście to rozczarowujące, że nie możemy jej użyć, ale dziecko, które znalazło zardzewiałą śrubę, czuje się odkrywcą, przy okazji czyniąc podwórko bezpieczniejszym dla swojego rodzeństwa.

To samo podejście można zastosować do danych biznesowych. Technologia zwana eksploracją procesów (ang. process mining) zapewnia możliwość uczenia się na podstawie wszystkich zdarzeń. Niektóre z najbardziej interesujących spostrzeżeń pochodzą z danych, które wydaje się, że straciły swoją użyteczność. Eksploracja procesów opiera się na tym, co system informatyczny przetwarzał i kiedy. Te zapomniane zbiory danych opowiadają nam historię o sekwencji zdarzeń – procesie. I to nie tylko jednej iteracji. Eksploracja procesów obejmuje każdą instancję, w której proces został powtórzony. Łącznie te przepływy procesów opowiadają potężną historię o tym, jak zużywany jest czas, zasoby i pieniądze. Dzięki szybkiej weryfikacji tego, jak powinien zachowywać się proces, każdy wariant można podzielić na kategorie z nim zgodne i niezgodne. Firmy wiedzą, że dochodzi do naruszeń procesów, ale rzadko reagują w odpowiedni sposób na najczęstsze nieefektywności i niestety dokonują potrzebnych zmian.

Jedno z najbardziej „nudnych” podsumowań eksploracji procesów, jakie widziałem, pokazywało wnioski, które były trudne do udowodnienia. Modelowany proces produkcyjny wydawał się niemal idealny. Co w tym złego? Stwierdzę rzecz oczywistą – nawet najlepsi producenci wahaliby się nazwać swoje procesy doskonałymi. Ta firma miała wiele danych pokazujących, że ich produkcja miała problemy. Odkryliśmy, że to, co trafiało do ich systemu, nie odzwierciedlało tego, co działo się na hali produkcyjnej. Możliwe nawet, że ktoś został nagrodzony za to, że dane wyglądały dobrze, wbrew rzeczywistości. Producent ten dowiedział się, że musi ponownie skupić się na zgodnym z rzeczywistością raportowaniu produkcji przed rozpoczęciem planowanego procesu automatyzacji danych. Rozczarowanie teraźniejszością było więcej niż uczciwą zapłatą za uniknięcie rozczarowania wynikami finansowymi. Nawet jeśli dane historyczne nie odzwierciedlały rzeczywistości, eksploracja procesów wykorzystała „śmieci”, aby zaoszczędzić czas i pieniądze w przyszłości.

Znajdowanie skarbów w śmieciach dzięki analizie procesów w oparciu o dane (ang. Process Intelligence)

Przedsiębiorstwa produkcyjne mogą jednak znaleźć „skarby w śmieciach” dzięki QAD Process Intelligence. Rozwiązanie to jest zintegrowane z systemami biznesowymi, obejmującymi obszary takie jak finanse i księgowość, logistyka i transport, produkcja, utrzymanie ruchu czy zarządzanie relacjami z dostawcami i klientami. Wówczas analiza procesów w oparciu o dane zapewnia szybki zwrot z inwestycji w dodatku w skalowalny sposób.

Źródło tekstu: QAD Blog

Autor: Michael Ochi

Senior Product Marketing Manager w QAD Inc.

Tłumaczenie i redakcja: DSR S.A.

Dowiedz się więcej o rozwiązaniu ERP 4FACTORY

Polecamy również:

Jak zbierać dane z produkcji?

9 pytań do podstawowej oceny efektywności produkcji

Przenikanie się sztucznej inteligencji i uczenia maszynowego: współczesne wykorzystanie i perspektywy

DSR