Voici pourquoi GPT-4 surpasse GPT3.5, LLM dans le débogage de code

Lecture 8 minutes

L’augmentation de la popularité de l’intelligence artificielle (IA) a probablement conduit beaucoup à se demander s’il ne s’agit que du prochain engouement technologique qui se terminera dans six mois.

Cependant, un récent test d’analyse comparative mené par CatId a révélé le chemin parcouru par GPT-4, suggérant qu’il pourrait changer la donne pour l’écosystème Web3.

Test de débogage du code AI

Les données ci-dessous présentent plusieurs tests sur les grands modèles de langage open source disponibles, tels que ChatGPT-3.5 et GPT-4 d’OpenAI. CatId a testé le même échantillon de code C+ sur chaque modèle et a enregistré les fausses alarmes pour les erreurs et le nombre de bugs identifiés.

LLaMa 65B (4-bit GPTQ) model: 1 false alarms in 15 good examples.  Detects 0 of 13 bugs.
Baize 30B (8-bit) model: 0 false alarms in 15 good examples.  Detects 1 of 13 bugs.
Galpaca 30B (8-bit) model: 0 false alarms in 15 good examples.  Detects 1 of 13 bugs.
Koala 13B (8-bit) model: 0 false alarms in 15 good examples.  Detects 0 of 13 bugs.
Vicuna 13B (8-bit) model: 2 false alarms in 15 good examples.  Detects 1 of 13 bugs.
Vicuna 7B (FP16) model: 1 false alarms in 15 good examples.  Detects 0 of 13 bugs.

GPT 3.5: 0 false alarms in 15 good examples.  Detects 7 of 13 bugs.
GPT 4: 0 false alarms in 15 good examples.  Detects 13 of 13 bugs.

Les LLM open source n’ont détecté que 3 bogues sur 13 sur six modèles tout en identifiant quatre faux positifs. Pendant ce temps, GPT-3.5 a détecté 7 des 13, et la dernière offre d’OpenAi, GPT-4, a détecté les 13 bogues sur 13 sans fausses alarmes.

Le bond en avant dans la détection de bogues pourrait changer la donne pour le déploiement de contrats intelligents dans le web3, en dehors des innombrables autres secteurs du web2 qui en bénéficieront massivement. Par exemple, le web3 relie l’activité et la propriété numériques aux instruments financiers, lui donnant le surnom d' »Internet de la valeur ». Par conséquent, il est d’une importance vitale que tout le code exécuté sur les contrats intelligents qui alimentent Web3 soit exempt de bogues et de vulnérabilités. Un point d’entrée unique pour un mauvais acteur peut entraîner la perte de milliards de dollars en quelques instants.

GPT-4 et AutoGPT

Les résultats impressionnants du GPT-4 démontrent que le battage médiatique actuel est justifié. De plus, la capacité de l’IA à aider à assurer la sécurité et la stabilité de l’écosystème Web3 en évolution est à portée de main.

Des applications telles qu’AutoGPT ont vu le jour, permettant à OpenAI de créer d’autres agents d’IA pour déléguer des tâches de travail. Il utilise également Pinecone pour l’indexation vectorielle afin d’accéder au stockage de mémoire à long et à court terme, répondant ainsi aux limitations de jeton de GPT-4. Plusieurs fois la semaine dernière, l’application a été diffusée sur Twitter dans le monde entier par des personnes créant leurs propres armées d’agents d’IA dans le monde entier.

En utilisant AutoGPT comme référence, il peut être possible de développer une application similaire ou bifurquée pour surveiller en permanence, détecter les bogues et suggérer des résolutions au code dans des contrats intelligents évolutifs. Ces modifications pourraient être approuvées manuellement par les développeurs ou même par un DAO, garantissant qu’il y a un « humain dans la boucle » pour autoriser le déploiement du code.

Un flux de travail similaire pourrait également être créé pour le déploiement de contrats intelligents via l’examen des bogues et des transactions simulées.

Vérification de la réalité?

Cependant, les limitations techniques devraient être résolues avant que les contrats intelligents gérés par l’IA puissent être déployés dans les environnements de production. Alors que les résultats de Catid révèlent que la portée du test est limitée, se concentrant sur un court morceau de code où GPT-4 excelle.

Dans le monde réel, les applications contiennent plusieurs fichiers de code complexe avec d’innombrables dépendances, qui dépasseraient rapidement les limites de GPT-4. Malheureusement, cela signifie que les performances du GPT-4 dans des situations pratiques peuvent ne pas être aussi impressionnantes que le test le suggère.

Pourtant, il est maintenant clair que la question n’est plus de savoir si un éditeur/débogueur de code IA sans faille est faisable ; la question est maintenant de savoir quelles sont les préoccupations éthiques, réglementaires et d’agence qui se posent. De plus, des applications comme AutoGPT sont déjà raisonnablement proches de pouvoir gérer de manière autonome une base de code grâce à l’utilisation de vecteurs et d’agents d’IA supplémentaires. Les limites résident principalement dans la robustesse et l’évolutivité de l’application, qui peut rester coincée dans des boucles.

Le jeu change

GPT-4 n’est sorti que depuis un mois et déjà, il existe une abondance de nouveaux projets publics d’IA – comme AutoGPT et X.AI d’Elon Musk – réinventant la future conversation sur la technologie.

L’industrie de la cryptographie semble primordiale pour tirer parti de la puissance de modèles tels que GPT-4 en tant que contrats intelligents offrant un cas d’utilisation idéal pour créer des produits financiers véritablement autonomes et décentralisés.

Combien de temps faudra-t-il pour voir le premier DAO véritablement autonome sans être humain dans la boucle ?

Voici pourquoi GPT-4 surpasse GPT3.5, les LLM dans le débogage de code sont apparus en premier sur CryptoSlate.

Source https://cryptoslate.com/heres-why-gpt-4-outperforms-gpt3-5-llms-in-code-debugging/

Crypto Week

Avertissement : Crypto Week ne fournit pas de conseils financiers de quelque manière que ce soit. Nous ne vous recommandons pas d'investir de l'argent dans une crypto-monnaie ou un actif financier sans avoir effectué des recherches approfondies. Nous ne sommes pas responsables de vos décisions financières de quelque manière que ce soit.

Derniers articles de Featured Posts