Alles, was Sie schon immer über das Fliegen und Vulkane wissen wollten, aber Angst hatten, danach zu fragen

Data Science, Big Data, Data Lakes, Künstliche Intelligenz, Data Mining, Maschinelles Lernen, Deep Learning, Business Intelligence, Business Analytics ... In den letzten Jahren wurde viel darüber geschrieben und darüber gesprochen. Und wie immer, wenn etwas in Mode kommt, verschwinden die Konzepte, Definitionen und Grenzen allmählich.

In diesem Artikel versuche ich, Ordnung zu schaffen und zu erklären, wer wer ist auf einfache Weise. Wenn Ihnen diese Dinge nicht klar sind, bleiben Sie bei mir!

Wenn Sie ein Konto auf Linkedin haben und es regelmäßig nutzen, wird es möglicherweise immer komplizierter zu wissen, was zum Teufel eine Person tut, indem Sie einfach ihre Überschrift lesen. Wir haben alles mit extravaganten technischen Wörtern und Akronymen gefüllt, die wir vielleicht nicht mehr sehen wollen, aber wir haben uns sicherlich nicht die Mühe gemacht, nach ihrer Bedeutung zu suchen.

"Aber du ... was machst du genau?"

Und dann beginnt der Spaß…

  • Wenn die Frage von jemandem gestellt wird, der an derselben Rolle arbeitet, können Sie sie ausführlich erklären (oder Sie sollten in der Lage sein, dies zu tun).
  • Wenn dies von jemandem aus demselben Sektor durchgeführt wird, können Sie eine Erklärung abgeben, vorausgesetzt, die andere Person kennt alle Technologien, mit denen Sie arbeiten, und Sie werden wahrscheinlich scheitern.
  • Wenn die Frage von jemandem kommt, der sich etwas anderem verschrieben hat: Dann werden Sie wirklich auf die Probe gestellt. Vor allem, wenn die andere Person anfängt, dir Fragen zu stellen ...
  • Was wäre, wenn du es deiner Großmutter erklären müsstest?

Und hier wollte ich hingehen. Es gibt ein "berühmtes" Zitat (fälschlicherweise Albert Einstein zugeschrieben), das besagt:

"Du verstehst etwas erst wirklich, wenn du es deiner Großmutter nicht erklären kannst."

In einer anderen Variante wird ein Sechsjähriger anstelle der Großmutter verwendet. Wenn es sich jedoch um Technologie handelt, kann ich die erste Variante verwenden.

Vor ein paar Jahren hat mein Kollege Antonio Calderone das kaputte Telefon erfunden). Ich musste über Big Data, Business Analytics und ein wenig über maschinelles Lernen sprechen. Die Wahrheit ist, dass es für mich nicht einfach war ... obwohl ich denken möchte, dass sie die Grundideen haben.

Nun, ich werde die gleiche Übung hier wiederholen, die umfassenderen Konzepte in Bezug auf die Datenwelt erläutern und versuchen, sie für alle Zielgruppen geeignet zu machen :)

Datenwissenschaft (DS)

Eine einfache Definition: Data Science ist die Sammlung von Fähigkeiten und Techniken, mit denen nützliches Wissen aus Daten extrahiert wird.

Diese Fähigkeiten werden oft mit einem Venn-Diagramm dargestellt, das von Drew Conway (oder einer seiner Varianten) erstellt wurde:

Wir haben drei Kreise, die drei differenzierte Felder darstellen. Einerseits haben wir das Gebiet der Programmierung (Kenntnis einer Sprache, ihrer Bibliotheken, Entwurfsmuster, Architektur usw.). Auf der anderen Seite gibt es Mathematik (Algebra, Analysis, ...) und Statistik. Zu guter Letzt die Domäne der Daten (Branchenkenntnisse, Gesundheit, Finanzen, Industrie usw.).

Diese Felder kommen zusammen und ergeben die Fähigkeiten und Techniken aus der Definition. Hier haben wir Dinge wie das Abrufen der Daten, ihre Bereinigung, ihre Analyse, die Erstellung von Hypothesen, die Algorithmen, das maschinelle Lernen, die Optimierung, die Visualisierung zur Präsentation der Ergebnisse und ein langes usw.

Data Science vereint diese Bereiche und Fähigkeiten und ermöglicht und verbessert Prozesse zur Gewinnung von Erkenntnissen und Wissen aus Rohdaten.

Und was ist "nützliches Wissen"? Derjenige, der einen Mehrwert schafft, eine Frage beantwortet oder ein Problem aus der realen Welt löst.

Data Science könnte auch als das Gebiet definiert werden, das Fortschritte bei der Behandlung und Analyse von Daten untersucht und anwendet, um uns Lösungen und Antworten zu geben.

WAS IST DEIN PROBLEM?

Elliott Advocacy ist eine gemeinnützige Organisation, die kostenlose Beratung und Anwaltschaft für Verbraucher anbietet. Wenn Sie Hilfe benötigen irgendein Problem, kontaktieren Sie uns bitte über dieses Formular. Sie können Ihre Frage auch in unserem öffentlichen Hilfeforum posten. Wir sind hier um zu helfen.

Große Daten

Dies wird die einfachste sein: Big Data ist einfach eine riesige Datenmenge und sonst nichts :)

Um Big Data zu definieren, ist es üblich, es mit den 3 V zu erklären, die die 3 Hauptursachen für die Entstehung sind:

  • Volumen: Die Menge der absurd gesammelten Daten wächst mit jeder Minute, und wir müssen unsere Speicher- und Verarbeitungstools mithilfe von Distributed an dieses Volumen anpassen Lösungen (Einsatz mehrerer Maschinen anstelle eines sehr teuren Supercomputers / Großrechners).
  • Geschwindigkeit: Die Dringlichkeit, die für die Verarbeitung der Daten erforderlich ist, hängt von der Häufigkeit ihrer Erzeugung / Erfassung ab und von der Notwendigkeit, sie bei Entscheidungen so schnell wie möglich zu verwenden, auch in Echtzeit (oder nahezu).
  • Vielfalt: Die Daten sind nicht mehr (nur) strukturiert, daher müssen wir vergessen, dass alles in eine herkömmliche Datenbank eingepasst werden kann. Wir müssen bereit sein, neue Datenquellen mit allen Arten von Formaten hinzuzufügen, von einfachem Text bis zu Multimedia-Inhalten.

Mit der Zeit kamen weitere V hinzu: Wahrhaftigkeit (Die Daten müssen authentisch, glaubwürdig und verfügbar sein.) (Die Daten müssen einen Wert für das Unternehmen oder die Gesellschaft haben) und Verwundbarkeit (Die Daten müssen der Legalität entsprechen, den Datenschutz respektieren und auf sichere Weise gespeichert und abgerufen werden.)

Big Data wäre die Lösung für all diese Probleme. Verwechseln Sie es nicht mit dem ersten in diesem Artikel erläuterten Konzept: Big Data ist alles, was die Anwendung von Fortschritten auf dem Gebiet der Datenwissenschaft ermöglicht oder erleichtert, wenn die Art der Daten dies erfordert. Beispiel: Wir als Datenwissenschaftler versuchen, Antworten aus einem Datensatz zu erhaltenDies übersteigt nicht nur die Größe unseres Arbeitsspeichers, sondern auch die Größe unserer Festplatte. Big Data bietet uns verteilte Speichertechnologien für das Hosten von Daten auf mehreren Computern sowie verteilte Verarbeitungstechnologien für deren parallele Verarbeitung.

UNTERSTÜTZEN SIE DIESE WEBSITE

Wenn Sie von den Ratschlägen, der Anwaltschaft oder den Kontakten von Führungskräften auf dieser Website profitiert haben, können Sie uns unterstützen. Sie können heute ein Underwriter werden und sich unserer Sache anschließen oder freiwillig helfen, Fälle zu vertreten.
Spenden

Präsentationsprotokoll

Alles, was Sie schon immer über WDVS wissen wollten, aber noch nie gewagt haben Fragen Sie Alberto Di Meglio (CERN), WDVS-Projektleiter

Überblick • Aktueller Status • Übersicht über häufig auftretende Fehler • Neue Funktionen • Ihre Anwendungsfälle

Aktueller Stand des WDVS • Aktuelle Version des Clients: 0.7.4-1 • Hauptserver: etics.cern.ch • Die Bereitstellung von WDVS 1.0 RC erfolgt bei CNAF. • Client-Version: 0.8.4-1 • Hauptserver: etics-06.cnaf. infn.it • Es kann für Tests verwendet werden, Daten zu etics-06.cnaf.infn.it bleiben jedoch nicht erhalten. • Es sollte während der Woche ein Produktionsserver werden, sobald einige letzte Firewall-Probleme behoben sind

Aktueller Status von gLite • Regelmäßige Builds auf SLC3 / 32, SLC4 / 32 und SLC4 / 64 • Bisher von WDVS-Mitarbeitern verwaltet, jetzt auf SA3 übertragen • Aktuelle Erfolgsquote beim Build: • SLC3 (ia32): 86% • SLC4 (ia32): 70 % • SLC4 (x86_64): 62% • Regelmäßige Builds für Metapakete und Subsysteme, die von SA3 verwaltet werden

Die häufigsten Probleme • Fehlende Abhängigkeiten: Die alten Build-Systeme haben alle Abhängigkeiten an das Subsystem angehängt, die Komponenten mussten nicht über sie informiert werden. Dies hat sich geändert, alle Komponenten müssen ihre eigene Liste von Abhängigkeiten verwalten. Wenn eine Komponente ausfällt, überprüfen Sie zunächst, ob die Informationen korrekt sind

Die häufigsten Probleme • Fehlgeschlagene Abhängigkeiten: Eine Abhängigkeit wird nicht erstellt und hat eine Kettenreaktion ausgelöst

Die häufigsten Probleme • Installationsbefehl: Auf dem alten System wurde der Installationsbefehl selten verwendet. Jetzt ist ein funktionierender Installationsbefehl erforderlich, um gut erzogene Pakete zu erstellen und die Dateien bereitzustellen. Wenn eine Komponente ausfällt, überprüfen Sie, ob ihre Abhängigkeiten alle erforderlichen Dateien installieren. • Dies ist beispielsweise häufig ein Problem bei Include-Dateien. In der Vergangenheit war es genug, sie auf der Bühne zu haben. Jetzt müssen sie vom installierten Befehl verarbeitet werden, oder das Erstellen von vorkompilierten Paketen funktioniert nicht

Die häufigsten Probleme • Kompilierungsfehler: Dies ist insbesondere bei SLC4 / 32 und SLC4 / 64 ein Problem. Der Compiler ist anders und strenger. Wenn eine Komponente ausfällt und alle Abhängigkeiten vorhanden sind und alle erforderlichen Dateien bereitgestellt werden, überprüfen Sie, ob aus alten Warnungen jetzt Fehler geworden sind

Die häufigsten Probleme • Fehlende externe Geräte: Dies ist hauptsächlich ein Problem auf Plattformen, die sich von SLC3 / 32 und SLC4 / 32 unterscheiden. Externe Komponenten für SLC4 / 64 werden hinzugefügt, für andere Plattformen fehlen die meisten wahrscheinlich noch. • Das Erstellen der externen Komponenten ausgehend von der Quelle ist natürlich möglich, aber manchmal ist das Ergebnis nicht das gleiche wie das, das mit einem Paket aus einer Distribution erhalten wurde (z. B. : Boost oder MySQL)

Die häufigsten Probleme • Fehlende Dokumentation: Dies ist sicherlich ein Problem. Wir wollten die Dokumentation bereits vor zwei Wochen veröffentlichen, aber es kommt immer zu Verzögerungen. Dies ist jetzt meine persönliche Priorität

Die häufigsten Probleme • Was hat sich geändert ?: Diese Frage wiederholt sich häufig. Es gibt zwei verschiedene Probleme: • Manchmal ändern sich die Dinge, aber die Benutzer können nicht auf die ordnungsgemäße Überwachung und Protokollierung zugreifen. Wir beheben dies. Sie werden im April verfügbar sein. • Manchmal ändern sich die Dinge nicht, aber das System verhält sich aufgrund von anders die verschiedenen verwendeten Befehle.

Die häufigsten Probleme • Das Hauptbeispiel für den zweiten Fall ist der Unterschied zwischen • etics-checkout –c glite_branch_3_1_0, etics-build org.glite.wms • etics-checkout –project-config glite_branch_3_1_0 org.glite.wms, etics-build org.glite .wms • In beiden Fällen wird die aktuelle Konfiguration von org.glite.wms im 3.1.0-Baum erstellt. • Im ersten Fall werden ALLE Glite-Komponenten aus dem Quellcode erstellt. Im zweiten Fall werden nur WMS-Komponenten aus dem Quellcode erstellt. Wenn also mindestens einmal ein Nicht-WMS-Paket erstellt wurde, das jetzt fehlschlägt, funktioniert der zweite Befehl, der erste nicht

Die häufigsten Probleme • An dieser Stelle lautet Ihre Frage natürlich: Warum wurde diese Komponente einmal erstellt und jetzt nicht mehr? • Die Antwort lautet: Weil die Art und Weise, wie gLite-Builds verwaltet werden, nicht vollständig reproduzierbar ist. • Alle Änderungen werden immer in den Zweig glite_branch_3_1_0 eingefügt. Abhängigkeiten können sich daher im Laufe der Zeit ändern und zu unterschiedlichen Builds führen. • Eine mögliche Lösung besteht darin, jedes Mal, wenn sich eine Änderung auf die Art und Weise auswirkt, in der eine Komponente erstellt wird, neue Projekt- und Komponentenkonfigurationen zu erstellen.

Die häufigsten Probleme • Eine andere Lösung ist die Verwendung der Option --frombinary. • Bei Verwendung dieser Option werden alle Komponenten, für die bereits ein Paket vorhanden ist, aus der Binärdatei entnommen und die Quellen werden nur verwendet, wenn das Paket noch nie erstellt wurde Seien Sie gleichwertig. • Als allgemeine Regel gilt: • Verwenden Sie --frombinary, um eine Erstellung zu überprüfen und die Konsistenz aufrechtzuerhalten. • Verwenden Sie das Standardverhalten für die Entwicklung, wenn Sie die Quellen auschecken müssen. Ganz einfach, weil während der Migration vollständige Builds ausgeführt werden mussten, um sicherzustellen, dass Kompilierungsprobleme nicht übersehen wurden

Echte Beispiele • org.glitergma.api-cpp • cp /home/condor/execute/dir_23685/userdir/org.glite.rgma.api-cpp/build/scripts/rgma-client-check/producer / home / condor / execute / dir_23685 /userdir/org.glite.rgma.api-cpp/etics-tmp/libexec/rgma-client-check/C++cp /home/condor/execute/dir_23685/userdir/org.glite.rgma.api-cpp/ build / scripts / rgma-client-check / consumer /home/condor/execute/dir_23685/userdir/org.glite.rgma.api-cpp/etics-tmp/libexec/rgma-client-check/C++03/06 / 07 08: 38: 54.485 INFO main write - cp: not stat `/home/condor/execute/dir_23685/userdir/org.glite.rgma.api-cpp/build/scripts/rgma-client-check/producer ': Keine solche Datei oder kein solches Verzeichnis • Ursache: Installationsbefehl

Echte Beispiele • org.glite.wms.classad-plugin • 03/06/07 08: 51: 03.844 INFO main write - 03/06/07 08: 51: 03.937 INFO main write - glite / wms / ism / ism.h: Nein Eine solche Datei oder ein solches VerzeichnisretrieveCloseSEsInfo.cpp: 30: unbekannter Namespace `glite :: wms :: ism '• Ursache: Fehlgeschlagene Abhängigkeit

Echte Beispiele • org.glite.wms.ns • 03/06/07 08: 56: 13.386 INFO main write - 03/06/07 08: 56: 14.274 INFO main write - CommandFactoryServerImpl.cpp: 70: 49: glite / security / proxyrenewal /renewal.h: Keine solche Datei oder kein solches Verzeichnis03 / 06/07 08: 56: 14.276 INFO main write - 03/06/07 08: 56: 14.372 INFO main write - CommandFactoryServerImpl.cpp: 76: 37: glite / wms / purger /purger.h: Keine solche Datei oder kein solches Verzeichnis03 / 06/07 08: 56: 14.374 INFO main write - 03/06/07 08: 56: 15.163 INFO main write - CommandFactoryServerImpl.cpp: 91: unbekannter Namespace `glite :: wms :: purger '• Ursache: Fehlende Abhängigkeit

Echte Beispiele • org.glite.wms.wmproxy • 03/06/07 09: 38: 21.058 INFO main write - ./../src/utilities/.libs/libglite_wms_wmproxy_utilities.so: undefinierter Verweis auf `glite :: wms :: common :: utilities :: quota :: getFreeQuota (std :: basic_string, std :: allocator> const &) '../../ src / utilities / .libs / libglite_wms_wmproxy_utilities.so: undefinierter Verweis auf `glite :: wms :: common :: utilities :: quota :: getQuota (std :: basic_string, std :: allocator> const &) 'collect2: ld hat 1 Exit-Status zurückgegeben • Ursache:.

Echte Beispiele • org.glite.wms.wmproxy • 03/06/07 09: 38: 21.058 INFO main write - ./../src/utilities/.libs/libglite_wms_wmproxy_utilities.so: undefinierter Verweis auf `glite :: wms :: common :: utilities :: quota :: getFreeQuota (std :: basic_string, std :: allocator> const &) '../../ src / utilities / .libs / libglite_wms_wmproxy_utilities.so: undefinierter Verweis auf `glite :: wms :: common :: utilities :: quota :: getQuota (std :: basic_string, std :: allocator> const &) 'collect2: ld hat 1 Exit-Status zurückgegeben • Ursache:.

Echte Beispiele • org.glite.wms-utils.tls (SLC4 / 64) • 03/06/07 08: 42: 25.571 INFO main write - Überprüfung auf /home/condor/execute/dir_17683/userdir/repository/externals/globus/4.0 .3-VDT-1.6.0 / slc4_x86_64_gcc346 / include / gcc64pthr / lber.h. nochecking für ldapthr. "GLOBUS gefunden nein" • Ursache: Fehlende externe (VDT auf x86_64 bietet keine ldap-Komponenten, muss openldap hinzufügen)

Echte Beispiele • mysql-client (SLC4 / 64) • 03/06/07 07: 11: 33.156 INFO main write - Bei der Konfiguration von 'mysql-client v. 4.1.11' wurde folgender Fehler festgestellt: Fehler beim Extrahieren von Binärdateien oder Quellen für die Konfiguration 'mysql-client v. 4.1.11'03 / 06/07 07: 11: 33.157 INFO main write - • Ursache: Falsche Konfiguration (mysql auf x86_64 muss v. 4.1.20 sein, v. 4.1.11 nicht) nicht vorhanden)

Hauptänderungen in 0.8 / 1.0 • Unterschiedliche Methoden zum Zwischenspeichern von Konfigurationsinformationen: Es werden nur die tatsächlich verwendeten Konfigurationen gespeichert, nicht das gesamte Projekt. Dies beschleunigt die Arbeit mit einzelnen Komponenten oder Subsystemen erheblich. • Plugins: unabhängige Programme, die im Client implementiert werden können, um die Funktionalität zu erweitern (a la ECLIPSE). Wir stellen einige grundlegende Berichte zur Verfügung, aber jeder wird aufgefordert, seine eigenen (Messdaten, Tests, Scheinobjekte usw.) gemäß den WDVS-Plug-in-Spezifikationen zu erstellen. • Überarbeitete Build-Berichte: Diese werden jetzt statisch im Client generiert und müssen nicht mehr mit Tomcat angezeigt werden und auch in den lokalen Builds verfügbar • Dem Bericht wurden Abhängigkeitsnavigationen hinzugefügt und alles, was von den Plugins erzeugt wird

Versionspläne für 1.1 • Nutzungsprotokollierung und -prüfung hinzufügen • Konfigurationssperre hinzufügen • Volle Unterstützung für Debian und Windows hinzufügen • Einige Engpässe korrigieren, um die Leistung des Clients zu erhöhen • Den Scheduler hinzufügen, um die Automatisierung von Remote-Builds zu verwalten • Mehr Plugins (aber Plugins werden normalerweise asynchron von der freigegeben Klient)

Release-Pläne nach 1.1 (April-September) • Fügen Sie die Funktionalität hinzu, um lokale Änderungen an Modulen und Konfigurationen vorzunehmen und später mit der Datenbank zu synchronisieren (wie das CVS-Commit). • Führen Sie den vollständigen Software Repository-Webdienst ein. • Entwerfen Sie die Webanwendungen neu, um sie intuitiver zu gestalten und das Benutzerportal hinzuzufügen das Testsystem, dh die Möglichkeit, Ferntests auszuführen, die die Ausführung von Befehlen auf verschiedenen Rechnern erfordern

Testen • WDVS dient nicht nur zum Erstellen, sondern auch (und insbesondere) zum Testen. • Die Implementierungstests für das gLite-Metapaket werden in WDVS auf SLC3 / 32, SLC4 / 32, SLC4 / 64 implementiert. • Nach der Implementierung werden wir mit SA3 zusammenarbeiten, um sie zu implementieren Mehr System- und Funktionstests auf allen erforderlichen Plattformen

Anwendungsfall von Ales • Beginnen Sie mit der lokalen Erstellung einer bestimmten (zuletzt bekannten funktionierenden) Konfiguration eines Subsystems. • Beheben Sie einen gemeldeten Fehler, überprüfen Sie den Fehler und übergeben Sie ihn an CVS. Erstellen Sie neue Tags und Konfigurationen, sofern sich die Fehlerbehebung über mehrere Komponenten erstreckt

Anwendungsfall von Ales • Subsystem: Catania_All_Hands (in testProject) • Zwei Komponenten: HelloCPP, DepCPP • HelloCPP ist von DepCPP abhängig • Beginnen Sie mit allen HEAD-Konfigurationen • Führen Sie Standardbefehle aus: • etics-get-project testProject • etics-checkout Catania_All_Hands

Anwendungsfall von Ales • Fall 1: • Ändern Sie DepCPP nach Bedarf. • Markieren Sie DepCPP mit dem Befehl: etics-tag –c --config-version DepCPP. • Dieser Befehl markiert den Code in CVS und erstellt die neue Konfiguration im WDVS-Klonen aus der aktuellen (HEAD in dieser Fall)

Anwendungsfall von Ales • Fall 2: • Ändern Sie DepCPP und HelloCPP nach Bedarf. • Markieren Sie das Catania_All_Hands-Subsystem mit dem folgenden Befehl: etics-tag –c --config-version --childlist Catania_All_Hands • Dieser Befehl markiert den Code in CVS und erstellt neue Konfigurationen und Parent-Child Beziehungen beim WDVS-Klonen aus den aktuellen Konfigurationen (in diesem Fall HEAD) • Die mit der Option --childlist übergebene Datei enthält einen Eintrag für jedes Kind, das in der folgenden Form an das Subsystem angehängt werden soll: • Komponentenname Konfigurationsname xyz-r • Kann eine Erweiterung der Datei gLite dependencies.properties.xml sein

Anwendungsfall von Ales • Hinweis: • Der Befehl etics-tag ist nicht als Lösung für alle möglichen Fälle gedacht. • Es handelt sich vielmehr um eine API, mit der Projektbetreuer ihre eigenen Tagging-Skripts implementieren können. • Möglicherweise müssen Sie mehrere Komponenten gleichzeitig taggen Zeit, aber nicht als Teil eines Subsystems • Es unterstützt zusätzliche Optionen wie eine Konfigurationseingabedatei (dasselbe Format, das von etics-configuration verwendet wird), um vollständig neue Konfigurationen zu erstellen, anstatt von der aktuellen zu klonen. • Wir fügen eine Art der Generierung hinzu automatisch die Versionsinformationen, zum Beispiel Optionen wie --increasemajor, --increaseminor, etc

Data Lake

Ein Data Lake ist ein zentrales Speicher-Repository, in dem Daten aller Art gespeichert werden: strukturiert (die Daten, die wir zum Einfügen in Tabellen verwendet haben, perfekt definiert), halbstrukturiert (Daten in einem Format, in das fast alles passt: CSV, Protokolle, JSON, XML usw.) und unstrukturiert (Dokumente, E-Mails, PDFs, Bilder, Video, Audio usw.). Es spielt keine Rolle, ob Daten intern oder außerhalb unseres Geschäfts generiert werden.

Zentralisiert zu sein, bedeutet alles wird am gleichen Ort aufbewahrt werden, und jeder wird dort zugreifen, um Daten zu erhalten. Dies bedeutet nicht, dass sich alle Daten auf demselben Computer oder innerhalb des Unternehmens befinden. Der verteilte Speicher wird in der Regel fast vollständig genutzt, und die Daten können sich auch in der Cloud befinden.

Übersehen Sie kein entscheidendes Detail: Daten werden in gespeichert roh Format (das Original), ohne Änderungen. Dies bedeutet, dass keine Informationen für zukünftige Analysen verloren gehen. Daten werden nur verarbeitet und transformiert, wenn sie verwendet werden. Abgesehen davon… wozu sollten die Fische gekocht werden, bevor sie in einen See gelegt werden? :)

Künstliche Intelligenz (KI)

1950 formulierte Alan Turing diese Frage und erstellte sogar einen berühmten Test, um zu bewerten, ob die von einer Maschine gegebenen Antworten denen eines Menschen ähnlich waren. Seitdem begann die Fantasie über künstliche Intelligenz mit dem Fokus auf der Nachahmung menschlichen Verhaltens.

Oh, Moment mal! ich wollte Ihnen nicht die Geschichte der künstlichen Intelligenz erzählen ...

Wir werden auf das Konzept selbst zurückkommen. Künstliche Intelligenz ist nicht die Nachbildung von Blade Runner oder der Zylonen von Battlestar Galactica. Wir können eine künstliche Intelligenz als jede Maschine oder Software mit einer Art intelligentem Verhalten definieren.

Und was ist intelligentes Verhalten?

Gute Frage! Dies ist der Punkt, an dem wir uns nicht einig sind.… Während Maschinen neue Fähigkeiten entwickeln, gibt es Aufgaben, die bisher als intelligent galten und aus der KI-Umgebung entnommen wurden. Zum Beispiel, als das erstaunliche Deep Blue Garry Kasparov in einem Schachspiel besiegte und seine Schöpfer erklärten, wie es wirklich funktionierte, wurde das arme Mädchen vom klügsten Mädchen zur Qualifikation sogar als „dumm“ (mit einer großen rohen Kraft). das ist richtig).

Definieren wir künstliche Intelligenz als eine Maschine oder Software, die in der Lage ist, Daten aus ihrer Umgebung korrekt zu interpretieren, daraus zu lernen und das erworbene Wissen zu verwenden, um eine bestimmte Aufgabe in einem sich ändernden Kontext auszuführen.

Beispiele: Ein Auto, das alleine parkt, wird nicht als intelligent angesehen, es misst einfach Entfernungen und bewegt sich nach einer Routine. Ein Auto, das autonom fahren kann, wird als intelligent eingestuft, da es Entscheidungen auf der Grundlage der Umgebung treffen kann (in einer völlig unsicheren Umgebung).

Das Gebiet der Künstlichen Intelligenz umfasst mehrere Zweige, die derzeit in vollem Gange sind. Es ist praktisch, sie zu visualisieren, um genau zu wissen, wovon wir sprechen:

Data Mining

Bei Data Mining handelt es sich um die Kunst, mithilfe von Datenexplorationstechniken einige interessante (und nicht offensichtliche) Muster zu finden.

Auf welche Muster beziehen wir uns? Dinge wie: die Art und Weise, wie Daten anhand bestimmter Merkmale gruppiert werden können, die Erkennung von Anomalien (seltene Werte), die Abhängigkeit zwischen einigen Beobachtungen und anderen, eine Abfolge bestimmter Ereignisse, die Identifizierung von Verhaltensweisen usw.

Data Mining verwendet unter anderem Methoden des maschinellen Lernens.

Fragethread: Was Sie schon immer wissen wollten, aber nie gewagt haben zu fragen.

Bin heute zu HAM und zurück geflogen, und es ist mir aufgefallen, dass ich nie herausgefunden habe, warum die Kabinenbeleuchtung während des Starts und der Landung ausgeschaltet ist. jemand, der weiß und bereit ist, den Grund mitzuteilen?

Maschinelles Lernen (ML)

Maschinelles Lernen ist der wichtigste Zweig der künstlichen Intelligenz. Ihre Aufgabe: die Erforschung und Entwicklung von Techniken, die es den Maschinen ermöglichen, selbstständig zu lernen, um eine bestimmte Aufgabe ohne ausdrückliche Anweisungen des Menschen auszuführen.

Die Maschine lernt aus einem Eingabedatensatz (bekannt als Probe- oder Trainingsdaten) und erstellt ein mathematisches Modell auf der Grundlage der von einem Algorithmus erkannten Muster. Das ultimative Ziel dieses Modells ist es, (genaue) Vorhersagen oder Entscheidungen zu den Daten zu treffen, die anschließend aus denselben Quellen stammen.

Im klassischen Maschinelles Lernen gibt es zwei Haupttypen:

    Überwachtes Lernen: wenn die Trainingsdaten „beschriftet“ sind”. Dies bedeutet, dass wir für jede Stichprobe die Werte haben, die den beobachteten Variablen (den Eingaben) und der Variablen entsprechen, die wir vorhersagen möchten, oder> unbeaufsichtigtes Lernen : Wenn die Trainingsdaten nicht beschriftet sind (wir haben keine Zielvariable). Ziel ist es, eine Struktur oder ein Muster zu finden, beispielsweise um die Trainingsmuster zu gruppieren oder modern Aspekte:

  • Ensemble-Methoden : Im Grunde ist es die gemeinsame Verwendung mehrerer Algorithmen, um durch Kombinieren der Ergebnisse bessere Ergebnisse zu erzielen. Das bekannteste Beispiel ist Random Forests, obwohl XGBoost aufgrund seiner Siege in Kaggle sehr berühmt geworden ist.
  • Verstärkung Lernen: Die Maschine lernt durch Versuch und Irrtum dank des Feedbacks, das sie als Reaktion auf die Iterationen mit ihrer Umgebung erhält. Vielleicht haben Sie schon von AlphaGo (dem weltbesten Go-Spieler) oder AlphaStar (der uns in Starcraft II vernichten kann) gehört.
  • Tiefes Lernen : das Kronjuwel…

Deep Learning (DL)

Wie wir gerade gesehen haben, ist Deep Learning ein Teilbereich des maschinellen Lernens.

Es basiert auf der Verwendung von künstlichem Neuronale Netze. Ein künstliches neuronales Netzwerk ist ein Rechenmodell mit einer Schichtstruktur, die aus miteinander verbundenen Knoten besteht, die zusammenarbeiten. Sie haben diesen Namen aufgrund ihrer Inspiration (oder ihres Versuchs, biologische neuronale Netze zu simulieren), die wir in unserem Gehirn finden.

Obwohl neuronale Netze über viele Jahre untersucht und verwendet wurden, waren die Fortschritte auf diesem Gebiet bis vor kurzem sehr langsam, hauptsächlich aufgrund des Mangels an Rechenleistung. Deep Learning Boom in den letzten Jahren unter anderem dank der Einführung von GPUs für das Training von neuronalen Netzen.

Es gibt einen erweiterten Glauben: Jedes noch so komplizierte Problem des maschinellen Lernens kann durch ein neuronales Netzwerk gelöst werden, indem es einfach größer genug gemacht wird. Heutzutage werden in den übrigen Bereichen der künstlichen Intelligenz viele Fortschritte erzielt, und zwar sowohl in den traditionelleren Bereichen (Verbesserung der erzielten Ergebnisse) als auch in den angesagtesten Bereichen: natürliche Sprachverarbeitung, künstlich Vision, Spracherkennung, Erzeugung von realistischen Multimedia-Inhalte usw.

Was passiert, wenn Sie ein illegales Airbnb buchen?

Was passiert, wenn Sie nur halb um die Welt gereist sind, um festzustellen, dass die von Ihnen gebuchte Airbnb-Vermietung wahrscheinlich illegal ist? Das ist ...

Business Intelligence (BI)

Dieser Begriff bezieht sich auf die Verwendung von Daten innerhalb eines Unternehmens, die den Managern bei der Entscheidungsfindung helfen.

BI-Tools (Berichte, Dashboards) teilen uns mit, was passiert istund darauf basierende Entscheidungen werden daher reaktiv sein.

Sollten Sie keine Rückerstattung erhalten, wenn der Gastgeber Sie auffordert zu gehen?

Als Whitney Todd versuchte, in eine Vrbo-Ferienwohnung einzuchecken, forderte ein Hausverwalter sie auf, zu gehen. (Tatsächlich,…

Ich mag die Augeneinstellung>

Leute mögen es einfach, außerhalb des Flugzeugs auf alle "Ameisen" zu schauen, wenn es etwas zu sehen gibt. Und warum nicht? Für einige sehen sie diese Ansicht zum ersten Mal.

Mich? Ich bin eher ein Kerl auf einer Insel, wenn ich es vermeiden kann, aber als ich ein Kind war, wurde ich ans Fenster geklebt.

Russisches Uhrenforum, Rolex- und Tudor-Uhrenforum, Moderator des Piloten- und Militäruhrenforums

Was sind all diese zusätzlichen Gebühren von United Airlines?

Mary Bradley entdeckte auf ihrem selbst gebuchten Ticket Hunderte von Dollar an Aufschlägen von United Airlines. Sie kann nicht herausfinden ...

Achtung: Nicht jeder Mietwagen hat unbegrenzte Meilen

Richard Wallerstein und seine Frau haben kürzlich einen teuren Mietwagenfehler begangen, als sie davon ausgegangen sind, dass ihre Reservierung unbegrenzte Meilen umfasst.…

Business Analytics (BA)

Es ist die Weiterentwicklung der traditionellen Business Intelligence, bei der die Fortschritte bei Big Data genutzt werden, um Unternehmen in die Lage zu versetzen, eine größere Datenmenge jeglicher Art aus mehr Quellen (fast) in Echtzeit zu ermitteln und mit diesen zu interagieren. Es nutzt auch Verbesserungen auf dem Gebiet der Datenwissenschaft, sodass Entdeckungen aus den Daten viel wertvoller sind.

Die BA-Tools informieren darüber, was passiert ist und was ist passieren, aber sie sagen auch voraus, was passieren wirdund sogar simulieren, was passieren könnte, abhängig von den Aktionen, die wir durchführen. Die getroffenen Entscheidungen können daher proaktiv seineher als reaktiv.

Die Idee hinter BA ist, dass das gesamte Unternehmen von diesen Entdeckungen profitieren kann, was bessere (und schnellere) Entscheidungen in allen Bereichen impliziert.

Und das ist alles! Ich hoffe, jetzt ist alles klarer, oder? :)