Ασφαλής διασύνδεση εγγραφών κατανεμημένων βάσεων δεδομένων με χρήση πρωτοκόλλων κρυπτογράφησης
Öffnen
Autor
Μητρογιάννης, ΒασίλειοςSupervisor name
Βερύκιος, Βασίλειος Σ.
Datum
2008Language
el
Schlagwort
Access
free
Zusammenfassung
Η ασφαλής διασύνδεση εγγραφών είναι μια πολύ σημαντική διαδικασία, ιδιαίτερα όταν
εφαρμόζεται για την επεξεργασία ευαίσθητων προσωπικών δεδομένων. Οι διάφοροι
οργανισμοί προσπαθούν να συγκρίνουν την ομοιότητα των δεδομένων τους, χωρίς
όμως να αποκαλύπτονται ιδιωτικές ή ανταγωνιστικές πληροφορίες σε τρίτους. Προς
αυτήν την κατεύθυνση, διάφορες επιστημονικές ομάδες έχουν αναπτύξει και προτείνει
αρκετές μεθόδους και πρωτόκολλα που πληρούν αυτές τις προϋποθέσεις.
Η διαδικασία της διασύνδεσης των εγγραφών ουσιαστικά συγκρίνει τις εγγραφές
που υπάρχουν σε δυο ή περισσότερα σύνολα δεδομένων, και εξετάζει κατά πόσο
κάποιες εγγραφές αντιστοιχούν στην ίδια οντότητα του πραγματικού κόσμου. Σε αυτήν
την εργασία γίνεται η διερεύνηση ορισμένων μεθόδων που επιτυγχάνουν την ασφαλή
διασύνδεση των γνωρισμάτων των εγγραφών [6, J_0, J_5, 2JJ. Ουσιαστικά η μέθοδος
εφαρμόζεται ξεχωριστά για κάθε γνώρισμα των εγγραφών και κατόπιν, συγκρίνοντας
την ομοιότητα των γνωρισμάτων, κρίνεται αν οι εγγραφές ταιριάζουν ή όχι. Για την
επίτευξη της ασφαλούς διασύνδεσης εγγραφών θα προταθούν τέσσερις τεχνικές,
καθώς και ορισμένες βελτιώσεις τους, οι οποίες βασίζονται στο ίδιο πλαίσιο ασφαλούς
ανταλλαγής πληροφοριών, το οποίο είναι ευρύτερα γνωστό ως μοντέλο τρίτης έμπιστης
πηγής [20], Οι τέσσερις τεχνικές υλοποιούνται υπό το πλαίσιο τεσσάρων
πρωτοκόλλων. Ένα πρωτόκολλο είναι ένα σύνολο τυπικών κανόνων που περιγράφουν
πώς οφείλει να εκτελείται μια ενέργεια.
Δύο από τα πρωτόκολλα που θα παρουσιαστούν στις ενότητες 32. και 3.3
υλοποιούν αλγορίθμους σύγκρισης της ομοιότητας των δεδομένων με χρήση Ν-
γραμμάτων [J_0, 21, 23], Συγκεκριμένα στο πρώτο παράγονται Ν-γράμματα καθώς και
τα δυναμοσύνολα τους [J_0], Μάλιστα προτείνεται και μια βελτιωμένη εκδοχή του όπου
παράγονται μόνο δύο υπο-λίστες Ν-γραμμάτων και όχι ολόκληρο το δυναμοσύνολο. Στο δεύτερο πρωτόκολλο παράγονται μόνο Τρι-γράμματα Γ231 στα οποία προστίθεται
ένα διάνυσμα που περιλαμβάνει αριθμούς που αντιστοιχούν στο πόσες φορές
εμφανίζεται το αντίστοιχο Τρι-γράμμα μέσα στο αλφαριθμητικό.
Τα άλλα δύο πρωτόκολλα που παρουσιάζονται στις ενότητες 3Α και 3.5
υλοποιούν αλγορίθμους σύγκρισης της ομοιότητας με χρήση μετρικών απόστασης. Το
ένα χρησιμοποιεί την απόσταση Levenshtein [35], ενώ το άλλο εφαρμόζει την
απόσταση Jaro - Winkler [46, £7]. Σε όλα τα πρωτόκολλα η ασφάλεια επιτυγχάνεται
κάνοντας χρήση κρυπτογραφικών τεχνικών και συναρτήσεων κατακερματισμού.
Παράλληλα, προκειμένου να μειωθεί ο χρόνος εκτέλεσης των πρωτοκόλλων,
υλοποιήθηκε μια εναλλακτική εκδοχή όλων των πρωτοκόλλων όπου εφαρμόζεται στα
δεδομένα μια τεχνική Blocking [1, 3, 4, 28]. Με την τεχνική αυτή οι εγγραφές αρχικά
οργανώνονται σε μπλοκς με βάση ένα ή περισσότερα κοινά γνωρίσματα, και η
σύγκριση γίνεται μόνο μεταξύ εγγραφών που ανήκουν στο ίδιο μπλοκ.
Για όλα τα πρωτόκολλα υλοποιήθηκαν ορισμένα προγράμματα στην γλώσσα
προγραμματισμού Perl [56], Η παρουσίαση, καθώς και επεξήγηση του πηγαίου κώδικα
των προγραμμάτων γίνεται στην εργασία.
Τέλος, παρατίθενται ορισμένα ενδεικτικά πειραματικά αποτελέσματα εκτέλεσης
των πρωτοκόλλων. Από αυτά εξάγονται χρήσιμα συμπεράσματα όσον αφορά την
συνολική απόδοση των πρωτοκόλλων, τα οποία αφορούν τους χρόνους εκτέλεσης τους
και την ικανότητα τους να επιτυγχάνουν με ορθό τρόπο και με ασφάλεια την
διασύνδεση των εγγραφών.
Academic publisher
Πανεπιστήμιο Θεσσαλίας. Πολυτεχνική Σχολή. Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών.