Dane nieustrukturyzowane

Dlaczego warto zaufać Techopedii

Czym są dane nieustrukturyzowane?

Dane nieustrukturyzowane to cyfrowe informacje, które nie mogą być efektywnie przechowywane w relacyjnej bazie danych (RDMS), ponieważ nie korzystają z wcześniej ustalonych modeli danych ani schematów. Dlatego często magazynuje się je w jeziorze danych.

Dane nieustrukturyzowane, które mogą być surowe, pochodzą z sensorów i siłowników, wiadomości e-mail i SMS, dokumentów tekstowych, prezentacji PowerPoint, elektronicznych dokumentacji medycznych (EHR), cyfrowych obrazów, plików audio i wideo, etc.

Przedsiębiorstwa skoncentrowane na kliencie mogą analizować dane w formie nieustrukturyzowanej w celu poprawy marketingu i zarządzania relacjami z klientami (CRM).

Techopedia wyjaśnia pojęcie “dane nieustrukturyzowane”

Dane nieustrukturyzowane to dane, które mają mniej uporządkowaną formę, niż arkusze kalkulacyjne, tabele baz danych czy inne liniowe lub uporządkowane zbiory danych.

Termin „zbiór danych” jest tutaj pomocny, ponieważ kojarzy się z danymi sklasyfikowanymi w schludnych, łatwo dostępnych tablicach, bez żadnych dodatkowych treści. Danymi, które są połączone lub oznaczone w określonej strukturze.

Dane niestrukturalne Dane półstrukturalne Dane strukturalne
Charakterystyka Brak zdefiniowanych modeli danych; trudne do wyszukiwania Luźno powiązane modele danych Jasno zdefiniowane modele danych; łatwe do wyszukiwania
Przykład Plik graficzny Log z call center Arkusz kalkulacyjny
Przechowywanie Jezioro danych Organizowane przez metatagi Relacyjna baza danych

Innymi przykładami nieustrukturyzowanych danych tekstowych są dokumenty Word, prezentacje PowerPoint, wiadomości błyskawiczne, oprogramowanie do współpracy, dokumenty, książki, posty w mediach społecznościowych oraz dokumentacja medyczna.

Z kolei nietekstowe dane nieustrukturyzowane są zazwyczaj tworzone w mediach, takich jak pliki audio MP3, obrazy JPEG, pliki wideo Flash, itp.

Dane nieustrukturyzowane zazwyczaj nie zawierają zdefiniowanego modelu danych i mogą nie pasować dobrze do tabel relacyjnych. Ponadto dane nieustrukturyzowane zwykle obfitują w tekst. Poza nim mogą jednak zawierać pewne liczby i daty, a także fakty.

Taki schemat prowadzi do niejednoznaczności, które trudno zidentyfikować za pomocą konwencjonalnych programów komputerowych.

Co więcej, jeśli przechowywanie ogromnych ilości danych nieustrukturyzowanych generowanych w przedsiębiorstwie jest źle zarządzane, może prowadzić do wyższych kosztów.

Dane w formie papierowej lub elektronicznej muszą być zeskanowane, aby aplikacja wyszukująca mogła wyodrębnić idee w zależności od słów użytych w określonych kontekstach. Określa się to mianem wyszukiwania korporacyjnego lub semantycznego.

Related Terms

Monika Ktowska
ekspertka ds. ekonomii i fin-tech
Monika Ktowska
ekspertka ds. ekonomii i fin-tech

Jestem z wykształcenia ekonomistką, ale moją pasją są nowinki technologiczne sposoby ich wykorzystywania w nowoczesnych strategiach marketingowych. Od wielu lat zarządzam projektami. Umiejętności analityczne zdobyte na warszawskiej SGH łączę z kreatywnym pisaniem tworząc innowacyjne strategie komunikacji dla klientów z branży fin-tech. Trzymam rękę na pulsie nowości technologicznych i badam, w jakim stopniu wpływają na procesy finansowe, automatyzują obsługę firm i przyczyniają się do zmiany roli człowieka w organizacjach. W pracy badawczej przyglądam się szczególnie najnowszym narzędziom do obsługi procesów finansowych, uwzględniając również rozwój inicjatyw open-source.