Under the hood - Comment Cavell passe de la parole à une note ?
- Cavell

- 23 janv.
- 5 min de lecture
Dès le départ, Cavell a été conçu comme un moteur d’IA générique, capable d’être utilisé dans de nombreux contextes de soins. Les médecins généralistes, les infirmiers à domicile et les médecins spécialistes travaillent chacun selon leurs propres méthodes, avec des flux de travail et des attentes différentes vis-à-vis du dossier patient. Pourtant, toutes ces applications reposent sur le même socle technologique. D’un point de vue technique, Cavell est un moteur de conversion parole-texte-code. Les composants qui transforment la parole en texte, puis ce texte en un compte rendu clinique codé, sont conçus comme des briques génériques et réutilisables. Ce choix architectural est volontaire : toute amélioration du moteur Cavell bénéficie automatiquement à l’ensemble des applications, permet des économies d’échelle et facilite le déploiement rapide de nouveaux cas d’usage sans devoir repartir de zéro.
Anthony, notre responsable technique et cofondateur, a récemment présenté les coulisses du CareConnect AI Assistant lors d’un podcast organisé par Corilus. À la suite de cet échange, nous souhaitons apporter davantage de contexte sur les différents blocs qui composent le moteur Cavell et montrer comment ces blocs sont configurés différemment selon le cadre de soins. Les briques restent identiques, mais leur configuration est adaptée à la réalité de chaque contexte clinique.
Étape 1 : la capture de la parole
Tout commence par la capture de l’information orale. La manière dont cette information est fournie varie fortement selon le contexte. Les infirmiers à domicile travaillent généralement avec de courtes notes vocales de vingt à trente secondes, enregistrées après une visite. Dans ces enregistrements, ils dictent l’ensemble des observations et des actes réalisés. Comme il s’agit d’un seul locuteur et d’une dictée volontaire, le microphone d’un smartphone est parfaitement suffisant. Les consultations sont différentes. Lors des consultations chez un médecin généraliste, un spécialiste ou un psychologue, les informations essentielles sont exprimées non seulement par le soignant, mais aussi par le patient, souvent tout au long de l’échange. Pour capter ces informations de manière fiable, la capture audio doit être plus large et plus constante. Anthony l’explique clairement dans le podcast :
« La raison pour laquelle nous fournissons un microphone externe n’est pas qu’il n’y a pas de micro dans l’ordinateur. Les microphones intégrés sont conçus pour les appels vidéo. Lorsqu’un patient est assis en face ou légèrement de côté, le son n’est pas correctement capté. Ils ne sont tout simplement pas conçus pour cela. »
Afin d’offrir un bon équilibre entre qualité audio, portée et coût, nous avons développé ce microphone externe sur mesure. Le microphone actuel se connecte à l’ordinateur via USB et fournit une qualité sonore suffisante pour capter correctement plusieurs intervenants, sans perturber le flux de travail au cabinet.
Étape 2 : la transcription
L’audio capté constitue ensuite l’entrée de l’étape suivante : la transcription. À ce stade, la parole est convertie en texte via un traitement cloud, indispensable pour garantir la rapidité et la scalabilité du système. Anthony explique pourquoi cette étape n’est pas réalisée localement :
"Au début, nous avons envisagé de faire tourner cela localement sur l’ordinateur du médecin, mais il est vite apparu que les modèles d’IA nécessaires pour une transcription de qualité sont tellement volumineux et gourmands en calcul qu’il est impossible de les faire fonctionner sur une machine standard. Rien que l’infrastructure coûterait environ 100 000 euros pour équiper un seul cabinet. C’est pourquoi nous utilisons le cloud. "
Un facteur important lors des consultations est la reconnaissance des locuteurs (speaker diarization). Lors des consultations chez un médecin généraliste ou un spécialiste, un accompagnant est souvent présent, ce qui rend essentiel de distinguer ce qui est dit par le patient, par l’accompagnant ou par le médecin. Cette distinction est cruciale pour une interprétation correcte de la consultation. Chez les infirmiers à domicile, où une seule personne dicte généralement, la reconnaissance des locuteurs est beaucoup moins pertinente et la chaîne de traitement peut être simplifiée.
Étape 3 : de la transcription au compte rendu codé
La transcription n’est pas une finalité. Lors de la troisième étape, le texte est transformé en un compte rendu clinique codé, adapté au contexte de soins et à la manière dont le dossier patient électronique attend l’information. Ce compte rendu combine généralement du texte libre avec des codes de diagnostic et des paramètres structurés et codés.
Pour les infirmiers à domicile, Cavell extrait un champ de texte libre limité ainsi qu’une quarantaine de paramètres spécifiquement pertinents pour les observations infirmières et les soins de plaies. Pour les médecins généralistes, Cavell génère un compte rendu au format SOEP, distinguant clairement les éléments subjectifs rapportés par le patient, les observations et mesures objectives, l’évaluation codée et le plan de prise en charge. Là encore, environ quarante paramètres sont automatiquement identifiés et structurés, allant de la tension artérielle et du poids à des paramètres plus spécifiques, par exemple dans le cadre de consultations diabétologiques.
Chez les médecins spécialistes, le format du compte rendu est encore plus critique. Chaque spécialité possède son propre focus, sa terminologie et sa structure de rapport. Cavell propose donc des modèles pour plus de vingt-cinq spécialités et sous-spécialités, allant de l’endocrinologie et de la cardiologie à l’orthopédie et à la psychiatrie.
Afin d’assurer une adaptation optimale à tous ces contextes de soins, nos ingénieurs en IA ont mis en place un ensemble de modèles collaboratifs. Ensemble, ces modèles permettent de générer des comptes rendus codés qui sont non seulement rapides, mais aussi cliniquement précis et pertinents pour chaque contexte spécifique.
Anthony décrit cette collaboration pour les consultations de médecine générale comme suit :
« C’est en quelque sorte une équipe de modèles d’IA qui travaille ensemble. D’un côté, un modèle génère le compte rendu en texte libre. De l’autre, un modèle extrait de ce texte des informations codées, comme des codes de diagnostic, des liens avec des éléments de soins existants ou des paramètres tels que la tension artérielle. »
À l’issue de ce processus, le compte rendu codé est directement disponible dans le dossier patient électronique.
Cavell a donc été conçu comme un moteur d’IA unique et générique, capable de s’adapter au contexte dans lequel il est utilisé. Qu’il s’agisse d’une courte note vocale d’un infirmier à domicile, d’une consultation de médecine générale ou d’un compte rendu spécialisé, Cavell suit toujours les mêmes étapes fondamentales : capture de la parole, transcription et conversion en un compte rendu clinique codé. Ce qui varie, c’est la configuration de ces étapes, alignée sur le flux de travail, le contenu et les exigences de chaque contexte de soins. Grâce à l’utilisation de briques réutilisables, Cavell combine qualité, rapidité et scalabilité, sans sacrifier la spécificité. Cela rend Cavell largement déployable dans les soins aujourd’hui, tout en étant prêt à évoluer avec de nouveaux usages et modèles de soins.


Commentaires