guide

Μορφές αρχείων

Languages:  de  el  en  es  fr  he  hr  id  is  it  ja  ko  lt  lv  my  ne  nl_BE  pt_BR  ro  ru  zh_CN  zh_TW 

Επισκόπηση των μορφών αρχείων

JSON

Η JSON είναι μια απλή μορφή αρχείων η οποία διαβάζεται εύκολα από οποιαδήποτε γλώσσα προγραμματισμού. Η απλότητά της σημαίνει ότι είναι γενικά απλούστερο για τους υπολογιστές να την επεξεργασθούν, σε σύγκριση με άλλες, όπως η XML.

XML

Η XML χρησιμοποιείται ευρέως για την ανταλλαγή δεδομένων επειδή προσφέρει καλές προϋποθέσεις ώστε να διατηρηθεί η δομή στα δεδομένα και στον τρόπο που δομούνται τα αρχεία, και επιτρέπει στους προγραμματιστές να τεκμηριώνουν επιτόπου τα δεδομένα χωρίς να επιδρούν στην ανάγνωσή τους.

RDF

Η μορφή RDF, που προτείνεται από το W3C, επιτρέπει την αναπαράσταση των δεδομένων σε μορφή που κάνει ευκολότερο το συνδυασμό δεδομένων από πολλαπλές πηγές. Η RDF ενθαρρύνει τη χρήση των URL ως αναγνωριστικών, τα οποία παρέχουν έναν αξιόπιστο τρόπο διασύνδεσης υπάρχοντων {term:ανοικτών δεδομένων} από τον Ιστό. Η RDF δεν είναι προς το παρόν ευρέως διαδεδομένη, όμως είναι μια δημοφιλής τάση στις πρωτοβουλίες της Ανοικτής Διακυβέρνησης, συμπεριλαμβανομένων των έργων Συνδεδεμένων Ανοικτών Δεδομένων της Ισπανικής και της Βρετανικής Κυβέρνησης. Ο εφευρέτης του Ιστού, Tim Berners-Lee, πρόσφατα πρότεινε ένα σχήμα 5 αστέρων, το οποίο περιλαμβάνει τα διασυνδεδεμένα RDF δεδομένα ως στόχο που πρέπει να επιτευχθεί για τις πρωτοβουλίες ανοικτών δεδομένων.

Λογιστικά φύλλα

Πολλές υπηρεσίες αφήνουν πληροφορίες στο λογιστικό φύλλο, πχ στο Microsoft Excel. Αυτά τα δεδομένα μπορούν συνήθως να χρησιμοποιηθούν άμεσα για την περιγραφή του τι αναπαριστούν οι διάφορες στήλες.

Ωστόσο, σε μερικές περιπτώσεις, μπορεί να ενσωματώνονται μακροεντολές και τύποι στα λογιστικά φύλλα, τα οποία μπορεί να είναι δύσκολα στο χειρισμό. Είναι, συνεπώς, καλή τακτική να τεκμηριώνετε αυτούς τους υπολογισμούς δίπλα από το λογιστικό φύλλο, κάνοντάς το πιο προσβάσιμο για τους χρήστες που θα το διαβάσουν.

Αρχεία διαχωρισμένα με κόμματα.

Τα αρχεία CSV αποτελούν μια πολύ χρήσιμη μορφή αρχείων, επειδή είναι συμπαγή και επομένως κατάλληλα για τη μεταφορά μεγάλων συνόλων δεδομένων που έχουν την ίδια δομή. Ωστόσο, η μορφή είναι τόσο λιτή, που τα δεδομένα είναι συνήθως άχρηστα χωρίς τεκμηρίωση, αφού είναι σχεδόν αδύνατο να μαντέψει κάποιος την σημασία των διαδόρων στηλών. Είναι, συνεπώς, εξαιρετικά σημαντικό για τη μορφή αυτή, η τεκμηρίωση των διαφορετικών πεδίων να είναι ακριβής.

Επομένως είναι σημαντικό ότι η δομή του αρχείου πρέπει να ακολουθηθεί πιστά, εφόσον η παράλειψη ενός και μόνον πεδίου μπορεί να επηρεάσει αρνητικά όλα τα εναπομείναντα δεδομένα στο αρχείο, χωρίς δυνατότητα να γίνει διόρθωση, αφού δε μπορεί να υπολογιστεί πώς θα ερμηνευτούν τα εναπομείναντα δεδομένα.

Έγγραφο κειμένου

Οι κλασικές μορφές εγγράφων όπως Word, ODF, OOXML, ή το PDF μπορεί να είναι επαρκείς για να προβάλλετε κάποια είδη δεδομένων, όπως για παράδειγμα, mailing lists που αλλάζουν σπάνια. Μπορεί να είναι φθηνό να τις χρησιμοποιείτε, εφόσον είναι συνήθως η μορφή στην οποία τα δεδομένα πρωτογράφονται. Η μορφή δεν παρέχει υποστήριξη για τη διατήρηση της δομής των δεδομένων, το οποίο συχνά σημαίνει ότι είναι δύσκολο να εισαχθούν δεδομένα με αυτόματο τρόπο. Βεβαιωθείτε ότι χρησιμοποιείτε πρότυπα σαν βάση των εγγράφων που θα απεικονίσουν δεδομένα για επαναχρησιμοποίηση, ώστε να είναι τουλάχιστο δυνατό να εξαχθούν πληροφορίες από το έγγραφο.

Μπορεί επίσης να υποστηρίξει την τυπογραφική μοροφοποίηση ώστε να γίνει ευκολότερο για μια μηχανή να αναγνωρίσει τις επικεφαλίδες από το περιεχόμενο (ανεξάρτητα από τη γραμματοσειρά) και ούτω καθ’ εξής. Γενικά, προτείνεται να μην διανέμετε τα δεδομένα σε μορφή εγγράφου κειμένου, εφόσον υπάρχουν σε κάποια άλλη μορφή.

Απλό κείμενο

Τα έγγραφα απλού κειμένου είναι πολύ εύκολα αναγνώσιμα για τους υπολογιστές. Στη γενική περίπτωση δεν περιέχουν μεταδεδομένα δομής μέσα στο έγγραφο, κάτι που σημαίνει ότι οι προγραμματιστές πρέπει να δημιουργήσουν ειδικό αναλυτή που θα μεταγλωτίζει κάθε έγγραφο, με το που γίνεται διαθέσιμο.

Κάποια προβλήματα μπορεί να προκληθούν όταν ανταλλάσσονται αρχεία απλού κειμένου μεταξύ διαφορετικών λειτουργικών συστημάτων. Τα Microsoft Windows, το Mac OS X και άλλες παραλλαγές του Unix έχουν το δικό τους τρόπο να αναγνωρίζουν ότι το κείμενο αλλάζει γραμμή.

Σαρωμένη εικόνα

Πιθανότατα η πιο ακατάλληλη μορφή για τα περισσότερα δεδομένα, ωστόσο η μορφές TIFF και JPEG-2000 μπορούν τουλάχισστο να συνοδεύσουν τις εικόνες με τεκμηρίωση σχετική με το τι περιέχουν - ακόμα και να συνοδεύσουν ένα σαρωμένο έγγραφο με το πλήρες περιεχόμενό του σε κείμενο. Μπορεί να είναι καλή λύση στην απεικόνιση δεδομένων τα οποία δεν δημιουργήθηκαν ηλεκτρονικά - ένα προφανές παράδειγμα είναι οι παλιές καταχωρήσεις της Εκκλησίας και άλλο αρχειακό υλικό, όπου μια εικόνα είναι καλυτερα από το τίποτα.

Ιδιόκτητες μορφές

Κάποια ειδικά συστήματα, έχουν τις δικές τους μορφές δεδομένων, με τις οποίες διαβάζουν και γράφουν αρχεία. Μερικές φορές, ίσως είναι αρκετό να εκθέτετε τα δεδομένα σε τέτοια μορφή, ειδικά αν αναμένεται να χρησιμοποιηθούν σε σύστημα παρόμοιο με αυτό από το οποίο προήλθαν. Όταν είναι δυνατό να προσφερθούν επιπλέον πληροφορίες σχετικά με τέτοιες ιδιόκτητες μορφές, πρέπει να δίνονται πάντοτε, για παράδειγμα με έναν σύνδεσμο στην ιστοσελίδα του προμηθευτή. Γενικά, προτείνεται να παρέχετε τα δεδομένα σε μη ιδιόκτητες μορφές, όπου αυτό είναι δυνατόν.

HTML

Στις μέρες μας, πολλά δεδομένα είναι διαθέσιμα σε μορφή HTML, σε διάφορες ιστοσελίδες. Αυτό μπορεί να είναι παραπάνω από επαρκές, εάν τα δεδομένα είναι γενικά στατικά και περιορισμένης εμβέλειας. Σε μερικές περιπτώσεις, θα ήταν προτιμότερο να υπάρχουν τα δεδομένα σε μια μορφή ευκολότερη να ληφθεί τοπικά και να τροποποιηθεί, αλλά εφόσον είναι φθηνό και εύκολο να αναφερθεί κανείς σε μια σελίδα στον Ιστό, μπορεί αυτό να είναι ενα καλό ξεκίνημα για την δημοσίευση των δεδομένων.

Τυπικά, θα ήταν σωστότερο να χρησιμοποιηθούν στα έγγραφα HTML πίνακες που θα περιέχουν τα δεδομένα, και μετά να δωθούν στα διάφορα πεδία αναγνωριστικά, τα οποία θα έκαναν ευκολότερη την εύρεση και την τροποποίηση των δεδομένων. Η Yahoo έχει αναπτύξει ένα εργαλείο (http://developer.yahoo.com/yql/) που μπορεί να εξάγει δομική πληροφορία από μια ιστοσελίδα, και τέτοια εργαλεία μπορούν να κάνουν πολλά περισσότερα, αν η πληροφορία είναι προσεκτικά επισημασμένη.

Ανοικτές μορφές αρχείων

Ακόμα και αν η πληροφορία παρέχεται σε ηλεκτρονική, αναγνώσιμη από μηχανές μορφή, και είναι λεπτομερής, μπορεί να υπάρχουν προβλήματα που σχετίζονται με την ίδια τη μορφή του αρχείου.

Οι μορφές στις οποίες δημοσιεύεται η πληροφορία -με άλλα λόγια, η ψηφιακή βάση, με την οποία αποθηκεύεται η πληροφορία - μπορούν να είναι είτε “ανοικτές” είτε “κλειστές”. Ανοικτή είναι η μορφή για την οποία η τεκμηρίωση και το λογισμικό είναι διαθέσιμα σε όλους, χωρίς χρέωση, ώστε ο καθένας να μπορεί να χρησιμοποιήσει αυτήν την τεκμηρίωση στο δικό του λογισμικό, χωρίς περιορισμούς στην επαναχρησιμοποίηση, που να προέρχονται από δικαιώματα πνευματικής ιδιοκτησίας.

Το ότι η μορφή αρχείου είναι “κλειστή”, μπορεί να συμβαίνει επειδή είναι ιδιόκτητη και η τεκμηρίωσή της δεν είναι διαθέσιμη στο κοινό, ή επειδή, παρόλο που η τεκμηρίωσή της είναι διαθέσιμη, η επαναχρησιμοποίηση είναι περιορισμένη. Εάν η πληροφορία δημοσιεύεται σε κλειστή μορφή αρχείου, μπορεί να προκύψουν σημαντικά εμπόδια στην επαναχρησιμοποίησή της, αναγκάζοντας αυτούς που θέλουν να την χρησιμοποιήσουν να αγοράσουν το απαραίτητο λογισμικό.

Το όφελος των ανοικτών μορφών αρχείων είναι ότι επιτρέπουν στους προγραμματιστές να παράγουν πολλαπλά πακέτα εφαρμογών και υπηρεσιών χρησιμοποώντας τες. Αυτό κατόπιν ελαχιστοποιεί τα εμπόδια στο να επαναχρησιμοποιηθούν οι πληροφορίες που περιέχονται.

Η χρήση ιδιόκτητων μορφών αρχείων, για τις οποίες η τεκμηρίωση δεν είναι διαθέσιμη δημόσια, μπορεί να δημιουργήσει εξάρτηση από λογισμικό ή από κατόχους αδειών. Στην χειρότερη περίπτωση, αυτό μπορεί να σημαίνει ότι η πληροφορία μπορεί να αναγνωσθεί μόνον χρησιμοποιώντας συγκεκριμένα πακέτα λογισμικού, τα οποία μπορεί να είναι απαγορευτικά ακριβά, ή τα οποία μπορεί να απαρχαιωθούν.

Ο όρος {term:ανοικτά κυβερνητικά δεδομένα} υποδηλώνει ότι η πληροφορία πρέπει να δημοσιεύεται σε ανοικτές μορφές δεδομένων που είναι αναγνώσιμες από τις μηχανές

Παράδειγμα: Δεδομένα για την κυκλοφορία στο Ηνωμένο Βασίλειο

Ο Andrew Nicolson είναι ένας προγραμματιστής λογισμικού που ενεπλάκη σε μια (απολύτως επιτυχή) εκστρατεία εναντίον της δημιουργίας ενός καινούριου δρόμου, της Ανατολικής παράκαμψης του WestBury, στο Ηνωμένο Βασίλειο.

Παρόλο που δεν υπάρχει νόμος σχετικός με την πρόσβαση στην πληροφορία που να δίνει δικαίωμα πρόσβασης σε ανοικτές μορφές, οι πρωτοβουλίες για τα ανοικτά κυβερνητικά δεδομένα, άρχισαν να συνοδεύονται από έγγραφα πολιτικής που απαιτούν οι επίσημες πληροφορίες να διατίθενται σε ανοικτές μορφές. Η αρχή έγινε από τη Διοίκηση Obama, με την Οδηγία για τα Ανοικτά Κυβερνητικά Δεδομένα, που εκδόθηκε το Δεκέμβριο του 2009, και αναφέρει:

  • Στο βαθμό που αυτό μπορεί να είναι πρακτικό και μέσα στους υπάρχοντες περιορισμούς, οι υπηρεσίες πρέπει να δημοσιεύουν τις πληροφορίες στο Διαδίκτυο σε ανοικτή μορφή που μπορεί να ανακτηθεί, να ληφθεί, να δεικτοδοτηθεί και να αναζητηθεί από κοινές εφαρμογές αναζήτησης στον Ιστό. Ανοικτή μορφή θεωρείται εκείνεη που είναι ανεξάρτητη από την πλατφόρμα, αναγνώσιμη από μηχανές, και που είναι διαθέσιμη στο κοινό χωρίς περιορισμούς που θα εμπόδιζαν την επαναχρησιμοποίηση αυτής της πληροφορίας.*

Πώς χρησιμοποιώ μια συγκεκριμένη μορφή;

Όταν μια υπηρεσία πρέπει να εκθέσει νέα δεδομένα, δεδομένα που δεν έχουν εκτεθεί πρωτύτερα, πρέπει να επιλεγεί η μορφή που παρέχει την καλυτερη ισορροπία μεταξύ κόσοτυς και βιωσιμότητας. Για κάθε μορφή, υπάρχουν κάποια πράγματα που πρέπει να γνωρίζετε, και αυτή η ενότητα στοχεύει να τα περιγράψει.

Αυτή η ενότητα εστιάζει μόνο στο πως θα φροντίσετε ώστε οι μηχανές να έχουν απευθείας πρόσβαση στα δεδομένα σας. Συμβουλές και καθοδήγηση για το πως θα σχεδιάσετε και ιστοσελίδες και εφαρμογές Ιστού, μπορούν να βρεθούν αλλού.

Υπηρεσίες Ιστού

Για δεδομένα που αλλάζουν συχνά, και που κάθε ανάκτηση είναι μικρή σε μέγεθος, είναι καλό να εκτίθενται μέσα από Υπηρεσίες Ιστού. Υπάρχουν πολλοί τρόποι να δημιουργήσετε μια Υπηρεσία Ιστού, αλλά κάποιοι από τους πιο συχνά χρησιμοποιούμενους είναι το SOAP και το REST. Γενικά, προτιμήστε το REST, αν και τα δύο είναι εύκολα να αναπτυχθούν και χρησιμοποιούνται ευρέως.

Βάση Δεδομένων

Όπως οι υπηρεσίες Ιστού, οι βάσεις δεδομένων παρέχουν άμεση πρόσβαση στα δεδομένα, δυναμικά. Οι βάσεις δεδομένων έχουν το πλεονέκτημα ότι μπορούν να επιτρέπουν τους χρήστες να ανακτούν μόνον τα δεδομένα για τα οποία ενδιαφέρονται.

Υπάρχουν κάποια θέματα ασφάλειας σχετικά με την παραχώρηση δικαιωμάτων εξαγωγής και η πρόσβαση σε απομακρυσμένες βάσεις δεδομένων είναι χρήσιμη μόνο αν η δομή της βάσης και η σημασία των επιμέρους πινάκων και πεδίων είναι καλά τεκμηριωμένη. Συχνά, είναι σχετικά απλό και φθηνό να δημιουργηθούν υπηρεσίες Ιστού που εκθέτουν δεδομένα από μια βάση, κάτι που μπορεί να αποτελέσει εύκολη λύση για τα θέματα ασφάλειας.