Bagging (Bootstrap Aggregation) - Επισκόπηση, Πώς λειτουργεί, Πλεονεκτήματα

Το σύνολο της μηχανικής μάθησης μπορεί να κατηγοριοποιηθεί κυρίως σε σάκκο και ενίσχυση. Η τεχνική συσκευασίας είναι χρήσιμη τόσο για παλινδρόμηση όσο και για στατιστική ταξινόμηση. Το Bagging χρησιμοποιείται με δέντρα αποφάσεων, όπου αυξάνει σημαντικά τη σταθερότητα των μοντέλων στη μείωση της απόκλισης και στη βελτίωση της ακρίβειας, γεγονός που εξαλείφει την πρόκληση της υπερβολικής τοποθέτησης.

Σακκόπανο

Σχήμα 1. Ροή Bagging (Bootstrap Aggregation). Πηγή

Η ενσωμάτωση στη μηχανική εκμάθηση απαιτεί αρκετά αδύναμα μοντέλα, συγκεντρώνοντας τις προβλέψεις για να επιλέξετε την καλύτερη πρόβλεψη. Τα αδύναμα μοντέλα ειδικεύονται σε ξεχωριστά τμήματα του χώρου των δυνατοτήτων, γεγονός που επιτρέπει στις προβλέψεις μόχλευσης να προέρχονται από κάθε μοντέλο για να επιτύχουν τον μέγιστο σκοπό.

Quick Su mmary

  • Το bagging και το boosting είναι οι δύο βασικές μέθοδοι της μηχανικής μάθησης.
  • Το Bagging είναι μια μέθοδος συνόλου που μπορεί να χρησιμοποιηθεί στην παλινδρόμηση και την ταξινόμηση.
  • Είναι επίσης γνωστό ως συσσωμάτωση bootstrap, το οποίο διαμορφώνει τις δύο ταξινομήσεις του bagging.

Τι είναι το Bootstrapping;

Το Bagging αποτελείται από δύο μέρη: τη συγκέντρωση και το bootstrap. Το Bootstrapping είναι μια μέθοδος δειγματοληψίας, όπου ένα δείγμα επιλέγεται από ένα σύνολο, χρησιμοποιώντας τη μέθοδο αντικατάστασης. Στη συνέχεια, ο αλγόριθμος εκμάθησης εκτελείται στα επιλεγμένα δείγματα.

Η τεχνική εκκίνησης χρησιμοποιεί δειγματοληψία με αντικαταστάσεις για να κάνει τη διαδικασία επιλογής εντελώς τυχαία. Όταν ένα δείγμα επιλέγεται χωρίς αντικατάσταση, οι επόμενες επιλογές μεταβλητών εξαρτώνται πάντα από τις προηγούμενες επιλογές, καθιστώντας έτσι τα κριτήρια μη τυχαία.

Τι είναι το σύνολο;

Οι προβλέψεις μοντέλων υποβάλλονται σε συγκέντρωση για να τις συνδυάσουν για την τελική πρόβλεψη ώστε να ληφθούν υπόψη όλα τα πιθανά αποτελέσματα. Η συγκέντρωση μπορεί να γίνει με βάση τον συνολικό αριθμό των αποτελεσμάτων ή την πιθανότητα των προβλέψεων που προέρχονται από την εκκίνηση κάθε μοντέλου στη διαδικασία.

Τι είναι μια μέθοδος συνόλων;

Τόσο η τσάντα όσο και η ενίσχυση αποτελούν τις πιο εμφανείς τεχνικές συνόλου. Μια μέθοδος συνόλου είναι μια πλατφόρμα μηχανικής μάθησης που βοηθά πολλαπλά μοντέλα στην εκπαίδευση μέσω της χρήσης του ίδιου αλγορίθμου μάθησης. Η μέθοδος ensemble συμμετέχει σε μια μεγαλύτερη ομάδα πολλαπλών ταξινομητών.

Οι πολλαπλοί ταξινομητές είναι μια ομάδα πολλαπλών μαθητών, που έχουν χιλιάδες, με κοινό στόχο που μπορεί να συγχωνεύσει και να λύσει ένα κοινό πρόβλημα. Μια άλλη κατηγορία πολλαπλών ταξινομητών είναι οι υβριδικές μέθοδοι. Οι υβριδικές μέθοδοι χρησιμοποιούν ένα σύνολο μαθητών, αλλά σε αντίθεση με τους πολυ-ταξινομητές, μπορούν να χρησιμοποιούν ξεχωριστές μεθόδους μάθησης.

Η εκμάθηση αντιμετωπίζει πολλές προκλήσεις, όπως λάθη που οφείλονται κυρίως σε προκατάληψη, θόρυβο και διακύμανση. Η ακρίβεια και η σταθερότητα της μηχανικής μάθησης διασφαλίζονται από σύνολα μεθόδων όπως η τοποθέτηση και η ενίσχυση. Πολλοί συνδυασμοί ταξινομητών μειώνουν τη διακύμανση, ειδικά όταν οι ταξινομητές είναι ασταθείς και είναι σημαντικοί στην παρουσίαση πιο αξιόπιστων αποτελεσμάτων από έναν μεμονωμένο ταξινομητή.

Η εφαρμογή είτε της τοποθέτησης είτε της ενίσχυσης απαιτεί πρώτα την επιλογή ενός βασικού αλγορίθμου μαθητή. Για παράδειγμα, εάν κάποιος επιλέξει ένα δέντρο ταξινόμησης, τότε η ενίσχυση και η τοποθέτηση θα ήταν μια ομάδα δέντρων με μέγεθος ίσο με την προτίμηση του χρήστη.

Πλεονεκτήματα και μειονεκτήματα του Bagging

Τυχαίο δάσος Τυχαίο δάσος Το τυχαίο δάσος είναι μια τεχνική που χρησιμοποιείται στη μοντελοποίηση προβλέψεων και στην ανάλυση συμπεριφοράς και βασίζεται σε δέντρα αποφάσεων. Ένα τυχαίο δάσος περιέχει πολλά δέντρα αποφάσεων είναι ένας από τους πιο δημοφιλείς αλγόριθμους συσκευασίας. Το Bagging προσφέρει το πλεονέκτημα ότι επιτρέπει σε πολλούς αδύναμους μαθητές να συνδυάσουν τις προσπάθειες για να ξεπεράσουν έναν μόνο ισχυρό μαθητή. Βοηθά επίσης στη μείωση της διακύμανσης, εξ ου και η εξάλειψη του overfitting Overfitting Overfitting είναι ένας όρος που χρησιμοποιείται στα στατιστικά στοιχεία που αναφέρεται σε ένα σφάλμα μοντελοποίησης που εμφανίζεται όταν μια συνάρτηση αντιστοιχεί πάρα πολύ σε ένα συγκεκριμένο σύνολο δεδομένων μοντέλων στη διαδικασία.

Ένα μειονέκτημα της συσκευασίας είναι ότι εισάγει μια απώλεια ερμηνείας ενός μοντέλου. Το προκύπτον μοντέλο μπορεί να αντιμετωπίσει πολλή προκατάληψη όταν αγνοηθεί η σωστή διαδικασία. Παρά το γεγονός ότι το σάκο είναι πολύ ακριβές, μπορεί να είναι υπολογιστικά ακριβό και αυτό μπορεί να αποθαρρύνει τη χρήση του σε ορισμένες περιπτώσεις.

Bagging εναντίον Boosting

Η βέλτιστη τεχνική που χρησιμοποιείται μεταξύ της τοποθέτησης και της ώθησης εξαρτάται από τα διαθέσιμα δεδομένα, την προσομοίωση και τυχόν υπάρχουσες περιστάσεις εκείνη τη στιγμή. Η διακύμανση μιας εκτίμησης μειώνεται σημαντικά με την τοποθέτηση και την ενίσχυση τεχνικών κατά τη διάρκεια της διαδικασίας συνδυασμού, αυξάνοντας έτσι την ακρίβεια. Επομένως, τα αποτελέσματα που λαμβάνονται καταδεικνύουν υψηλότερη σταθερότητα από τα μεμονωμένα αποτελέσματα.

Όταν ένα γεγονός παρουσιάζει την πρόκληση της χαμηλής απόδοσης, η τεχνική της τοποθέτησης σε σάκκους δεν θα οδηγήσει σε καλύτερη προκατάληψη Ωστόσο, η τεχνική ενίσχυσης δημιουργεί ένα ενοποιημένο μοντέλο με χαμηλότερα σφάλματα, δεδομένου ότι επικεντρώνεται στη βελτιστοποίηση των πλεονεκτημάτων και τη μείωση των ελλείψεων σε ένα μόνο μοντέλο.

Όταν η πρόκληση σε ένα μόνο μοντέλο είναι κατάλληλη, η μέθοδος τοποθέτησης αποδίδει καλύτερα από την τεχνική ενίσχυσης. Το Boosting αντιμετωπίζει την πρόκληση του χειρισμού του over-fitting, καθώς συνοδεύεται από over-fitting.

Σχετικές αναγνώσεις

Το Finance προσφέρει την πιστοποίηση Financial Modeling & Valuation Analyst (FMVA) ™ FMVA® Συμμετάσχετε 350.600+ μαθητές που εργάζονται σε εταιρείες όπως το Amazon, το JP Morgan και το πρόγραμμα πιστοποίησης Ferrari για όσους θέλουν να πάρουν την καριέρα τους στο επόμενο επίπεδο. Για να συνεχίσετε να μαθαίνετε και να αναπτύσσετε τη βάση γνώσεων σας, ανατρέξτε στους παρακάτω σχετικούς πόρους χρηματοδότησης:

  • Δειγματοληψία συμπλέγματος Δειγματοληψία συστάδων Στατιστικά, η δειγματοληψία συστάδων είναι μια μέθοδος δειγματοληψίας στην οποία ολόκληρος ο πληθυσμός της μελέτης χωρίζεται σε εξωτερικά ομοιογενή αλλά εσωτερικά
  • Υπέρβαση εμπιστοσύνης Μεροληψία υπερβολικής εμπιστοσύνης Η μεροληψία υπερβολικής εμπιστοσύνης είναι μια ψευδή και παραπλανητική αξιολόγηση των δεξιοτήτων, της διάνοιας ή του ταλέντου μας. Εν ολίγοις, είναι μια εγωιστική πεποίθηση ότι είμαστε καλύτεροι από ό, τι στην πραγματικότητα. Μπορεί να είναι μια επικίνδυνη προκατάληψη και είναι πολύ παραγωγική στις χρηματοοικονομικές αγορές και στις κεφαλαιαγορές.
  • Ανάλυση παλινδρόμησης Ανάλυση παλινδρόμησης Η ανάλυση παλινδρόμησης είναι ένα σύνολο στατιστικών μεθόδων που χρησιμοποιούνται για τον υπολογισμό των σχέσεων μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Μπορεί να χρησιμοποιηθεί για την αξιολόγηση της ισχύος της σχέσης μεταξύ των μεταβλητών και για τη μοντελοποίηση της μελλοντικής σχέσης μεταξύ τους.
  • Ανάλυση δεδομένων χρονικών σειρών Ανάλυση δεδομένων σειρών χρόνου Η ανάλυση δεδομένων χρονοσειρών είναι η ανάλυση συνόλων δεδομένων που αλλάζουν σε μια χρονική περίοδο. Τα σύνολα δεδομένων χρονοσειρών καταγράφουν παρατηρήσεις της ίδιας μεταβλητής σε διάφορα χρονικά σημεία. Οι χρηματοοικονομικοί αναλυτές χρησιμοποιούν δεδομένα χρονοσειρών όπως οι μεταβολές των τιμών των μετοχών ή οι πωλήσεις μιας εταιρείας με την πάροδο του χρόνου

Πρόσφατες δημοσιεύσεις