Najtańsze skanowanie,
OCR i archiwizacja elektroniczna
dokumentów w Katowicach i na Śląsku

Słownik pojęć związanych z digitalizacją dokumentów

Digitalizacja dokumentów
proces zamiany tradycyjnej, zazwyczaj papierowej formy materiałów drukowanych lub rękopiśmiennych na postać cyfrową. Proces digitalizacji zazwyczaj realizowany jest metodą skanowania. W wyniku digitalizacji tworzone są obrazy cyfrowe - pliki graficzne będące elektroniczną kopią materiałów oryginalnych. W przypadku digitalizacji materiałów drukowanych, obrazy cyfrowe dokumentów często poddawane są w dalszej kolejności procesowi OCR.
Skanowanie dokumentów
proces kopiowania rzeczywistych obrazów dokumentów (np. kartek papieru) do postaci cyfrowej przechowywanej na nośnikach elektronicznych. Tworzone cyfrowe obrazy dokumentów zazwyczaj w pierwszej kolejności przyjmują postać plików graficznych takich jak TIFF, JPEG, DJVU, itp. Później mogą one być konwertowane do plików PDF lub innych w zależności od typu dokumentu i indywidualnych potrzeb.
Skaner optyczny
urządzenie współpracujące z komputerem służące do kopiowania rzeczywistego obrazu obiektu, np. kartki papieru do postaci cyfrowej. W chwili obecnej, na rynku dostępnych jest wiele rodzajów skanerów optycznych. Podstawowa praktyczna klasyfikacja to: skanery płaskie do użytku domowego, pozwalające skanować pojedyncze dokumenty lub zdjęcia, skanery ręczne typu Docupen pozwalające skanować dokumenty w dowolnych warunkach, oraz profesjonalne skanery płaskie pozwalające skanować obustronnie nawet kilkanaście tysięcy dokumentów dziennie.
Dokument elektroniczny
plik komputerowy zawierający określone informacje. Dokumentem elektronicznym mogą być pliki tekstowe, graficzne, muzyczne lub filmowe.
OCR
(ang. Optical Character Recognition) proces zautomatyzowanego (komputerowego) rozpoznawania tekstu z pliku graficznego zawierającego obraz dokumentu z pismem maszynowym. Dzięki procesowi OCR, możliwe jest traktowanie zeskanowanych dokumentów jako zbioru informacji tekstowych zamiast obrazów graficznych.
ICR
(ang. Intelligent Character Recognition) - proces zautomatyzowanego (komputerowego) rozpoznawania tekstu z pliku graficznego zawierającego obraz dokumentów z pismem odręcznym.
Archiwizacja
proces wykonywania kopii danych (różnego typu dokumentów) w celu zabezpieczenia ich przed utratą np. w razie fizycznego zniszczenia, kradzieży, zgubienia, itp.
Archiwum online
zbiór danych (elektronicznych kopii dokumentów) dostępny przez Internet. Osoby uprawnione, tzn. posiadające dane autoryzacyjne, mogą poprzez stronę internetową wyszukiwać, przeglądać i kopiować dokumenty z archiwum on-line 24h/dobę z każdego miejsca na świecie (pod warunkiem że posiadają one w danym miejscu dostęp do Internetu).
Text mining
zbiór algorytmów i technik eksploracji danych służących do wydobywania informacji statystycznych z tekstowych zbiorów danych.
PDF
(ang. Portable Document Format) popularny format pliku komputerowego służącego do przechowywania dokumentów elektronicznych zawierających głównie informacje tekstowe. Pliki PDF mogą być przeszukiwalne - zawarty w nich tekst traktowany jest jako informacje tekstowe, lub nieprzeszukiwalne - cała zawartość taktowana jest jako obraz graficzny, podobnie jak to jest w plikach graficznych.
Pliki graficzne
pliki komputerowe przechowujące obraz graficzne, zdjęcia, itp. Popularne typy plików graficznych to TIFF, JPEG, GIF, PNG, BMP i DJVU.
Wyszukiwanie pełnotekstowe
forma przeszukiwania dowolnych zbiorów dokumentów tekstowych oparta na statystyce występowania poszczególnych słów w tychże dokumentach.
Przykładem narzędzia oferującego przeszukiwanie pełnotekstowe jest wyszukiwarka Google. Analizuje ona treść stron internetowych i zwraca te, które (w pewnym uproszeniu) zawierają najwięcej informacji związanych z zadanym przez nas tekstem zapytania.
Nośnik danych cyfrowych
urządzenie elektroniczne służące do przechowywania danych cyfrowych. Najczęściej spotykanymi nośnikami danych cyfrowych są: karty SD, płyty CD i DVD, pamięci flash (pendrive'y), zewnętrzne (sieciowe lub podpinane przez USB) i wewnętrzne dyski komputerowe.