Η ελαστική καθαρή γραμμική παλινδρόμηση χρησιμοποιεί τις ποινές τόσο από τις τεχνικές λάσο όσο και από την κορυφογραμμή για να κανονίσει τα μοντέλα παλινδρόμησης. Η τεχνική συνδυάζει τόσο το λάσο LASSO LASSO, συντομογραφία του Least Absolute Shrinkage και Selection Operator, είναι ένας στατιστικός τύπος του οποίου ο κύριος σκοπός είναι η επιλογή χαρακτηριστικών και η τακτοποίηση και οι μέθοδοι παλινδρόμησης κορυφής, μαθαίνοντας από τα μειονεκτήματά τους να βελτιώσουν την κανονικοποίηση των στατιστικών μοντέλων.
Η ελαστική καθαρή μέθοδος βελτιώνεται στους περιορισμούς του λάσο, δηλαδή, όταν το λάσο παίρνει μερικά δείγματα για δεδομένα υψηλής διαστάσεων, η διαδικασία ελαστικού καθαρού παρέχει τη συμπερίληψη του αριθμού "n" μεταβλητών έως τον κορεσμό. Σε μια περίπτωση όπου οι μεταβλητές είναι πολύ συσχετισμένες ομάδες, το λάσο τείνει να επιλέξει μία μεταβλητή από αυτές τις ομάδες και να αγνοήσει εντελώς τις υπόλοιπες.
Για να εξαλειφθούν οι περιορισμοί που βρέθηκαν στο λάσο, το ελαστικό δίχτυ περιλαμβάνει μια τετραγωνική έκφραση (|| β || 2) στην ποινή, η οποία, όταν χρησιμοποιείται μεμονωμένα, γίνεται παλινδρόμηση της κορυφογραμμής. Η τετραγωνική έκφραση στην ποινή αυξάνει τη λειτουργία απώλειας ως κυρτή. Το ελαστικό δίχτυ βασίζεται στα καλύτερα και των δύο κόσμων - δηλαδή, παλινδρόμηση λάσο και κορυφογραμμή.
Στη διαδικασία εύρεσης του εκτιμητή της ελαστικής καθαρής μεθόδου, υπάρχουν δύο στάδια που περιλαμβάνουν τόσο τις τεχνικές λάσο και παλινδρόμησης. Αρχικά βρίσκει τους συντελεστές παλινδρόμησης κορυφογραμμής και στη συνέχεια πραγματοποιεί το δεύτερο βήμα χρησιμοποιώντας μια συρρίκνωση των συντελεστών λάσο.
Αυτή η μέθοδος, επομένως, υποβάλλει τους συντελεστές σε δύο τύπους συρρίκνωσης. Η διπλή συρρίκνωση από την αφελής έκδοση του ελαστικού διχτυού προκαλεί χαμηλή απόδοση στην προβλεψιμότητα και υψηλή προκατάληψη. Για τη διόρθωση τέτοιων εφέ, οι συντελεστές επανασυνδέονται πολλαπλασιάζοντάς τα επί (1 + λ 2 ).
Γρήγορη περίληψη
- Η ελαστική καθαρή μέθοδος εκτελεί ταυτόχρονα μεταβλητή επιλογή και κανονικοποίηση.
- Η ελαστική καθαρή τεχνική είναι καταλληλότερη όταν τα διαστατικά δεδομένα είναι μεγαλύτερα από τον αριθμό των δειγμάτων που χρησιμοποιήθηκαν.
- Η ομαδοποίηση και η επιλογή μεταβλητών είναι οι βασικοί ρόλοι της τεχνικής του ελαστικού καθαρού.
Ελαστική καθαρή γεωμετρία
Όταν σχεδιάζεται σε καρτεσιανό επίπεδο, το ελαστικό δίχτυ πέφτει μεταξύ των σχημάτων παλινδρόμησης κορυφογραμμής και λάσου, καθώς είναι ο συνδυασμός αυτών των δύο μεθόδων παλινδρόμησης. Το διάγραμμα για το ελαστικό δίχτυ παρουσιάζει επίσης μοναδικότητα στις κορυφές, οι οποίες είναι σημαντικές για την αραιότητα. Δείχνει επίσης αυστηρές κυρτές ακμές όπου η κυρτότητα εξαρτάται από την τιμή του α.
Η κυρτότητα εξαρτάται επίσης από το φαινόμενο ομαδοποίησης που εξαρτάται από τη συσχέτιση. Συσχέτιση Η συσχέτιση είναι ένα στατιστικό μέτρο της σχέσης μεταξύ δύο μεταβλητών. Το μέτρο χρησιμοποιείται καλύτερα σε μεταβλητές που δείχνουν μια γραμμική σχέση μεταξύ τους. Η προσαρμογή των δεδομένων μπορεί να αναπαρασταθεί οπτικά σε ένα scatterplot. από τις επιλεγμένες μεταβλητές. Όσο υψηλότερη είναι η συσχέτιση των μεταβλητών, τόσο υψηλότερη είναι η επίδραση ομαδοποίησης και, ως εκ τούτου, τόσο μεγαλύτερος είναι ο αριθμός των μεταβλητών που περιλαμβάνονται στο δείγμα.
Επιλογή μεταβλητών
Η δημιουργία μοντέλων απαιτεί επιλογή μεταβλητών για να σχηματίσει ένα υποσύνολο προβλέψεων. Το Elastic net χρησιμοποιεί την προσέγγιση προβλήματος p >> n, που σημαίνει ότι ο αριθμός των αριθμών των προβλέψεων είναι υψηλότερος από τον αριθμό των δειγμάτων που χρησιμοποιούνται στο μοντέλο. Το ελαστικό δίχτυ είναι κατάλληλο όταν οι μεταβλητές σχηματίζουν ομάδες που περιέχουν πολύ συσχετισμένες ανεξάρτητες μεταβλητές Ανεξάρτητη μεταβλητή Μια ανεξάρτητη μεταβλητή είναι μια είσοδος, υπόθεση ή πρόγραμμα οδήγησης που αλλάζει προκειμένου να εκτιμηθεί η επίδρασή της σε μια εξαρτημένη μεταβλητή (το αποτέλεσμα). .
Η επιλογή μεταβλητής ενσωματώνεται στη διαδικασία δημιουργίας μοντέλων για την ενίσχυση της ακρίβειας. Στην περίπτωση που μια ομάδα μεταβλητών συσχετίζεται σε μεγάλο βαθμό και μία από τις μεταβλητές επιλέγεται στο δείγμα, ολόκληρη η ομάδα συμπεριλαμβάνεται αυτόματα στο δείγμα.
CATREG Σύσταση
Το CATREG είναι ένας αλγόριθμος που διευκολύνει τον μετασχηματισμό μεταβλητών, γραμμικός και μη γραμμικός. Ο αλγόριθμος χρησιμοποιεί συναρτήσεις βήματος και στίγματος για μετασχηματισμό μεταβλητών είτε μη μονοτονικά είτε μονοτονικά σε μη γραμμικούς μετασχηματισμούς. Το CATREG μπορεί ταυτόχρονα να μετασχηματίζει και να τακτοποιεί τις μεταβλητές μη μονοτονικά χωρίς απαραίτητα να επεκτείνει πρώτα τις μεταβλητές σε βασικές λειτουργίες ή εικονικές μεταβλητές.
Οι λειτουργίες ελαστικής καθαρής απώλειας μπορούν επίσης να ονομαστούν ως περιορισμένος τύπος της συνάρτησης απώλειας παλινδρόμησης των συνηθισμένων τετραγώνων. Ο αλγόριθμος CATREG ενσωματώνεται στο ελαστικό δίχτυ, το οποίο βελτιώνει την αποτελεσματικότητα και την απλότητα του προκύπτοντος αλγορίθμου. Συγκριτικά, το ελαστικό δίχτυ ξεπερνά το λάσο, το οποίο ξεπερνά το ίδιο την παλινδρόμηση κορυφογραμμής ως προς την αποδοτικότητα και την απλότητα.
Ελαστική καθαρή τακτοποίηση
Κατά τη διάρκεια της διαδικασίας τακτοποίησης, το l 1 τμήμα της ποινής σχηματίζει ένα αραιή μοντέλο. Από την άλλη πλευρά, η τετραγωνική τμήμα της ποινής καθιστά το l 1 μέρος πιο σταθερό στη διαδρομή προς τακτοποιήσεως, εξαλείφει το όριο ποσότητας των μεταβλητών που πρέπει να επιλεγεί, και προωθεί την ομαδοποίηση αποτέλεσμα.
Το αποτέλεσμα ομαδοποίησης βοηθά τις μεταβλητές να αναγνωρίζονται εύκολα χρησιμοποιώντας συσχέτιση. Αυτό βελτιώνει τη διαδικασία δειγματοληψίας. Αυξάνει επίσης τον αριθμό των μεταβλητών που επιλέχθηκαν, καθώς όταν μία μεταβλητή γίνεται δειγματοληψία σε μια πολύ συσχετισμένη ομάδα, όλες οι άλλες μεταβλητές σε αυτήν την ομάδα προστίθενται αυτόματα στο δείγμα.
Αποτελεσματικοί βαθμοί ελευθερίας
Οι αποτελεσματικοί βαθμοί ελευθερίας μετρά την πολυπλοκότητα ενός μοντέλου. Οι βαθμοί ελευθερίας είναι σημαντικοί κατά τη διάρκεια της εκτίμησης ή της ακριβούς πρόβλεψης ενός μοντέλου. Οι βαθμοί ελευθερίας ενσωματώνονται επίσης στην εκμάθηση των γραμμικών πλυμένων. Σε οποιαδήποτε μέθοδο που σχετίζεται με την ποινή l 1 , η μη γραμμική φύση των μοντέλων εγείρει την πρόκληση στην ανάλυση.
Το ελαστικό δίχτυ μπορεί επίσης να χρησιμοποιηθεί σε άλλες εφαρμογές, όπως σε αραιό PCA, όπου αποκτά κύρια συστατικά που τροποποιούνται από αραιά φορτία. Η άλλη εφαρμογή είναι στο ελαστικό δίχτυ του πυρήνα, όπου πραγματοποιείται η παραγωγή μηχανών πυρήνα κατηγορίας με διανύσματα υποστήριξης.
Επιπρόσθετοι πόροι
Το Finance προσφέρει την πιστοποίηση Πιστοποιημένου Τραπεζικού & Πιστοποιητικού Αναλυτή (CBCA) ™ CBCA ™ Η πιστοποίηση Πιστοποιημένου Τραπεζικού & Πιστωτικού Αναλυτή (CBCA) ™ είναι ένα παγκόσμιο πρότυπο για πιστωτικούς αναλυτές που καλύπτει χρηματοοικονομικά, λογιστικά, πιστωτική ανάλυση, ανάλυση ταμειακών ροών, μοντελοποίηση συμβολαίων, δάνειο αποπληρωμές και άλλα. πρόγραμμα πιστοποίησης για όσους θέλουν να πάρουν την καριέρα τους στο επόμενο επίπεδο. Για να συνεχίσετε να μαθαίνετε και να αναπτύσσετε τη βάση γνώσεων σας, ανατρέξτε στους παρακάτω σχετικούς πόρους χρηματοδότησης:
- Απόφαση Δέντρου Απόφασης Το δέντρο αποφάσεων είναι ένα εργαλείο υποστήριξης με μια δομή που μοιάζει με δέντρο που διαμορφώνει πιθανά αποτελέσματα, κόστος πόρων, βοηθητικά προγράμματα και πιθανές συνέπειες.
- Εξαρτημένη μεταβλητή Εξαρτημένη μεταβλητή Μια εξαρτημένη μεταβλητή είναι αυτή που θα αλλάξει ανάλογα με την τιμή μιας άλλης μεταβλητής, που ονομάζεται ανεξάρτητη μεταβλητή.
- Πολλαπλή γραμμική παλινδρόμηση Πολλαπλή γραμμική παλινδρόμηση Η πολλαπλή γραμμική παλινδρόμηση αναφέρεται σε μια στατιστική τεχνική που χρησιμοποιείται για την πρόβλεψη του αποτελέσματος μιας εξαρτημένης μεταβλητής με βάση την τιμή των ανεξάρτητων μεταβλητών
- Overfitting Overfitting Overfitting είναι ένας όρος που χρησιμοποιείται στα στατιστικά στοιχεία που αναφέρεται σε σφάλμα μοντελοποίησης που παρουσιάζεται όταν μια συνάρτηση αντιστοιχεί πάρα πολύ σε ένα συγκεκριμένο σύνολο δεδομένων