Това е инженерното допълнение към нашата статия „Бизнес казусът за сърдечна диагностика с изкуствен интелект“ . Ако сте изпълнителен директор, ръководител на продуктов отдел или основател, който обмисля програма за сърдечен изкуствен интелект на стратегическо ниво, пазари, изграждане/закупуване/партньорство, регулаторни разходи, възстановяване на разходи, започнете оттам. Тази статия е за ръководителите по машинно обучение, клинично инженерство и регулаторни органи, които реално трябва да изградят устройството.
Статията разглежда конкретно 12-канални системи за интерпретация на ЕКГ, предназначени за подпомагане на клиничните решения, регулирани като устройства от клас IIa съгласно EU MDR. Едноканалните носими устройства (клас Apple Watch, KardiaMobile) и интерпретацията на ЕКГ при деца са различни проблеми с различни данни, регулаторни и клинични профили и не са разгледани тук.
Следващото отразява опита в проектирането и изграждането на сърдечно-съдовата диагностика на KARDI AI, от първите тренировъчни модели до устройства с маркировка CE, а не е преглед на литературата.
Защо интерпретацията на ЕКГ е по-труден проблем с машинното обучение, отколкото изглежда
Сърдечният ИИ е едно от най-зрелите подобласти в клиничния ИИ, с публични набори от данни (PTB-XL съдържа 21 837 записа), добре дефинирани цели за класификация и десетилетие публикувани изследвания, показващи резултати, близки до кардиологично ниво, при изпълнение на специфични задачи. По отношение на бенчмаркове проблемът изглежда разрешен.
В клиничното приложение не е така. Разликата между бенчмарк производителността и надеждността в реалния свят при сърдечния ИИ е необичайно голяма, по-голяма отколкото в радиологичния ИИ, който се възползва от по-стандартизирано събиране на данни, и по-голяма отколкото в дерматологичния ИИ, който има по-малко диагнози с тежки последици. Три структурни причини:
Вариабилност на придобиването. ЕКГ сигналите зависят от оборудването, разположението на електродите, импеданса на кожата, движението на пациента и околния електромагнитен шум. Моделите, обучени предимно върху сигнали от системата на един производител, не се представят толкова добре на други устройства от друг производител. Публичните набори от данни помагат по-малко, отколкото изглежда, тъй като повечето са доминирани от малък брой контексти на придобиване. Устройство, предназначено за употреба в различни клинични условия, се нуждае от данни за обучение и валидиране, обхващащи променливостта на придобиването, с която реално ще се сблъска, което рядко е постижимо само от публични данни. По-конкретно, моделите за обучение и фина настройка за KARDI AI изискваха стотици хиляди собствени ЕКГ от клинични партньори от множество доставчици на оборудване и заведения за грижи.
Редки, но критични състояния. Състоянията, при които сърдечният ИИ е най-клинично ценен, STEMI (миокарден инфаркт с елевация на ST), пълен сърдечен блок, животозастрашаващи аритмии, също са най-слабо представени в повечето обучителни набори от данни. Публични набори от данни като PTB-XL съдържат относително малко случаи на STEMI в сравнение с по-често срещаните находки, които доминират. Модел с висока обща точност може да има ниска чувствителност точно към състоянията, при които пропуснатата диагноза е най-клинично тежка. Създаването за клинична употреба изисква изрично боравене с редки, но критични състояния чрез целенасочено събиране на данни, свръхсемплиране или обучение с претегляне по класове и валидиране на производителността за всяко състояние, а не само върху общата точност.
Нормална ЕКГ вариабилност. Пространството на „нормалното“ е по-голямо, отколкото повечето бенчмаркове обхващат. Промените, свързани с възрастта, половите разлики (жените имат средно по-къси QT интервали), морфологията на спортното сърце и артефактите от хронични лекарства, всички те създават модели, които изглеждат необичайни за модел, който не е наблюдавал достатъчно нормални вариации. Повишените фалшиви положителни резултати в клиничното приложение генерират умора от тревога и подкопават клиничното доверие по-бързо от почти всеки друг режим на неуспех – включително, често, пропуснати положителни резултати. След като клиницистът научи, че системата сигнализира твърде агресивно, той я изключва.
Проблемът с качеството на етикетите, който повечето екипи не решават
Преди архитектурата на модела, преди предварителната обработка, въпросът е: спрямо какво се обучавате? Кардиологичните етикети са стандартната основна истина за ЕКГ ИИ. Те също така са известни с противоречивостта си. Междуоценяващата надеждност сред кардиолозите по отношение на често срещани ЕКГ находки е в каппа стойности от приблизително 0,5 – 0,7, което означава, че двама кардиолози не са съгласни относно една и съща ЕКГ по-често, отколкото купувачите на сърдечни ИИ системи биха предположили.
Това има три конкретни последици. Първо, един модел не може да бъде по-точен от своите етикети. Ако 15% от етикетите за обучение са наистина грешни (или разумните разминавания се третират като правилни), постигането на 95% точност на бенчмарка най-вече означава, че сте се настроили върху шума. Второ, „производителност на кардиологично ниво“ е по-ниска летва, отколкото маркетингът предполага. Това означава съпоставяне на средната стойност на шумен референтен стандарт, а не съпоставяне на достоверната информация. Трето, изграждането на сериозен клиничен ИИ изисква процес на етикетиране, който да адресира това: консенсус между множество оценители относно етикетите за обучение, отделни оценени тестови набори, където достоверната информация е клинично потвърдена (след катетеризационна лаборатория, ехокардиограма, данни за резултатите) и изрично докладване на процентите на несъгласие между оценители в регулаторното представяне.
Това е една от най-недооценените части от изграждането на сърдечен изкуствен интелект и е по-важна от всичко останало.
Решението за архитектурата на модела
Доминиращите архитектури за ЕКГ класификация:
1D конволюционни невронни мрежи (CNN). Оригиналният подход за дълбоко обучение за интерпретация на ЕКГ, създаден от Rajpurkar et al. (2017) в Станфорд. 1D CNN прилагат конволюционни филтри по времевата ос, изучавайки характеристики в множество времеви скали - от индивидуална морфология на QRS комплекса до ритмични модели. Бързи, изчислително ефективни, интерпретируеми на ниво характеристики. Основно ограничение: ограничено моделиране на дългосрочни зависимости.
Рекурентни невронни мрежи (RNN/LSTM). По-добри при времеви зависимости от чистите CNN. Двупосочните LSTM обработват сигнала и в двете посоки, полезни, когато контекстът от по-късен етап от записа информира за интерпретацията на по-ранни сегменти. По-скъпи от CNN и по-трудни за паралелизиране. Често използвани като компонент в хибридни архитектури.
Трансформаторни архитектури. Самовниманието се справя добре с дългосрочните зависимости в ЕКГ. Връзката между P вълната и QRS комплекса или между морфологията на ударите и редовността на ритъма може да бъде уловена без изрично инженерство на характеристики. Предварително обучени ЕКГ трансформатори (аналогични на BERT за текст), обучени върху големи немаркирани корпуси, могат да бъдат фино настроени със значително по-малко етикетирани примери, отколкото обучението от нулата. Това е архитектурното направление с най-активен изследователски импулс към 2025-26 г.
Хибридни CNN-Transformer архитектури. Комбинирането на CNN front-end (за локално извличане на характеристики от отделни удари) с back-end, базиран на внимание (за темпорални и ритмични модели), често е по-ефективно от всеки от тях поотделно. Компромисът е сложността в циклите на изграждане, отстраняване на грешки и валидиране.

Клиничното разглеждане е преди избора на архитектура. По-сложните модели са по-трудни за обяснение на клиницистите и регулаторните органи, а обяснимостта, макар и да не е строго регулаторно изискване в Клас IIa, е практическо изискване за клиничното приемане. Архитектурите, които създават карти на вниманието или атрибуция на характеристики (важност на такт, принос на ниво потенциален клиент, акценти на ниво сегмент), правят значително по-лесно задоволяването на очакванията за прозрачност, които клиницистите и нотифицираните органи ще проучват. Модел, който е малко по-точен, но архитектурно непрозрачен, често е по-лош бизнес резултат от модел, който е малко по-малко точен, но обясним.
Предварителна обработка на сигнали: Където повечето екипи инвестират недостатъчно
Качеството на предварителната обработка има по-голямо влияние върху крайното представяне на модела, отколкото изборът на архитектура на модела. Това е най-противоречивото инженерно откритие в сърдечния изкуствен интелект и това, което най-често се пропуска от екипите, които първо оптимизират модела.
Премахване на отклонението на базовата линия. DC отместването и нискочестотният дрейф на базовата линия (от дишане, движение на електрода) трябва да бъдат премахнати преди анализа. Подходите с високочестотно или медианно филтриране премахват отклонението на базовата линия, като същевременно запазват клинично значимите промени в ST сегмента. Агресивното филтриране, което премахва информацията за ST сегмента, е често срещана грешка, която нарушава ефективността на откриване на исхемия, една от малкото грешки при предварителната обработка, която е и проблем с клиничната безопасност.
Премахване на смущения от електропреносната мрежа. Смущенията от електропреносната мрежа с честота 50Hz (ЕС) или 60Hz (САЩ) са почти универсален артефакт. Режекционното филтриране на честотата на електропреносната мрежа е стандартно. Недостатъкът е, че режекционното филтриране леко изкривява морфологията на сигнала. Несъответствието при предварителната обработка на обучението и внедряването (обучение върху филтрирани сигнали, внедряване в различна среда на смущения) добавя шум към входните данни, което може да се избегне чрез стриктно версийно управление на конвейера.
Пресемплиране. Различните ЕКГ системи записват данни с различна честота на семплиране (обикновено 250–1000Hz). Моделите, обучени с една честота, трябва да бъдат оценени с тази честота или сигналите да бъдат пресемплирани към нея. Очевидно е, че по принцип се пропуска при многоцентрови оценки по-често от очакваното.
Проверка на отвежданията и плавно деградиране. 12-каналната ЕКГ приема, че всички 12 отвеждания са правилно получени. В клиничната практика, откачането на отвежданията, лошият контакт с кожата и движението на пациента водят до липсващи или ненадеждни отвеждания. Клиничната система се нуждае от изрична политика: изключване на записа от анализа (с подходяща документация в Инструкцията за употреба) или плавно деградиране до анализ с намален брой отвеждания с изрична сигнализация за несигурност. Тихият отказ при ненадеждни отвеждания е както регулаторен, така и проблем, свързан с безопасността на пациента.
Нормализиране. Амплитудата на ЕКГ варира значително между пациентите. Нормализирането на ниво отвеждане, стандартизацията на запис или увеличаването на амплитудата по време на обучение са валидни. Непоследователната нормализация между обучението и внедряването е източник на влошаване на производителността, което е напълно избегнато с документиран, контролиран от версиите конвейер за предварителна обработка.
Проблемът с множеството етикети
Повечето клинично значими ЕКГ анализи са мулти-етикетиращи: една ЕКГ може едновременно да покаже предсърдно мъждене, блок на левия бедрен сноп и ST депресия. По-болните пациенти, които имат най-голяма полза от AI триаж, са тези, които е най-вероятно да имат множество съпътстващи находки.
Класификацията с един етикет се справя неправилно с това. Класификацията с множество етикети, независимо прогнозиране на наличието/отсъствието на всяко условие, е правилната формулировка и тя повдига специфични предизвикателства.
Означете корелациите. Някои състояния се срещат едновременно (блок на левия бедрен сноп и сърдечна недостатъчност). Други са взаимно изключващи се (синусов ритъм и предсърдно мъждене). Архитектурите, които третират всяко състояние напълно независимо, пропускат тази структура; архитектурите, които изрично моделират корелациите, са по-сложни, но по-добре калибрирани.
Прагове, специфични за състоянието. Моделите с множество етикети генерират вероятност за всяко състояние. Прагът на преобразуване трябва да бъде специфичен за състоянието, зададен от клиничната цена на фалшиво отрицателните спрямо фалшиво положителните резултати за това откритие. Нисък праг за STEMI (улови всички, приеми някои фалшиво положителни резултати). По-висок праг за находки с ниска острота, където фалшиво положителните резултати струват повече от фалшиво отрицателните. Изборът на праг трябва да бъде документиран, клинично обоснован и валидиран върху задържани данни, а не избран върху същите данни, върху които е обучен моделът. Техническото досие трябва да показва методологията за избор на праг, а не само получените числа.
Дисбаланс в класовете за всяко състояние. Обучителният набор ще има много различни нива на разпространение за всяко състояние. STEMI и пълният сърдечен блок се нуждаят от целенасочена обработка: свръхсемплиране, класово претегляне или аугментация, в противен случай моделът ще се срине до прогнози за мнозинството от класовете точно за състоянията, които са най-важни.
Конформно прогнозиране и изходи, базирани на множество стойности. Струва си да се обмисли за внедряванията през 2025-26 г.: вместо да излъчват точкови вероятности за всяко условие, конформните методи излъчват множества от прогнози с гарантирани проценти на покритие. За клиничния ИИ, където са необходими защитими граници на неопределеност, конформното прогнозиране дава статистически строг отговор на въпроса „колко уверен трябва да бъде клиницистът?“ и рамката започва да получава регулаторно внимание като път към формализиране на количественото определяне на неопределеността.
Пристрастие, представяне на подгрупите и валидиране
Производителността в различните демографски и клинични подгрупи е все по-често въпрос, свързан с регулаторните изисквания и репутацията. Отчитането за валидиране, което обобщава данните за целия набор от тестове без разбивка по подгрупи, се превръща в неприемливо представяне.
За сърдечния ИИ, подгрупите, които съществено влияят на производителността, са пол (разлики в QT интервала, разлики в телесния хабитус при позиционирането на електродите), възраст (педиатричната ЕКГ е по същество различен проблем и повечето системи за възрастни трябва изрично да изключват педиатричната употреба; гериатричната ЕКГ има по-високи нива на проводимостни нарушения в изходното ниво), етническа принадлежност (някои морфологични варианти имат етнически модели на разпространение, които се съпоставят с дисбаланса на данните за обучение) и клинична обстановка (пациенти в интензивно отделение, следоперативни и амбулаторни пациенти, всички произвеждат различни характеристики на сигнала).
Сериозната валидация отчита производителността по подгрупи, с доверителни интервали, и изрично документира подгрупите, за които моделът е валидиран и не. Изключването на подгрупа е легитимен стратегически избор; неразкриването на изключването не е.
Калибриране на достоверността
Моделът генерира вероятностен резултат. За клинична употреба резултатът трябва да означава нещо. 0,8 трябва да съответства на приблизително 80% емпирична точност, а не само на максимална достоверност на модела.
Повечето модели за дълбоко обучение са лошо калибрирани „по подразбиране“. Температурното скалиране, един-единствен научен параметър за скалиране, приложен към изходните логитове, настроен върху задържан калибровъчен набор, е стандартното post-hoc решение. Добре калибрираните резултати позволяват клинично значими прагове на несигурност (незабавен преглед над 0,9; рутинен преглед 0,5 – 0,9; деприоритизиране под 0,5), честна комуникация с клиницистите относно доверието в модела за всяка прогноза и мониторинг след пускане на пазара (намаляващата средна доверие е ранен сигнал за промяна в разпределението).
За подаване на MDR за клас IIa, калибровъчният анализ на валидационния комплект трябва да бъде документиран като част от доказателствата за ефективност.
Заключени срещу обучителни модели и въпросът за PCCP
Първият регулаторен въпрос, който задава един опитен рецензент: дали това е заключен модел или той продължава да се учи след внедряването? Отговорът определя цялата история на управлението на промените.
Повечето сърдечни ИИ с маркировка CE днес са заключени: внедреният модел е фиксиран, преобучението произвежда нова версия и всяка значителна промяна изисква регулаторно уведомление или нова оценка на съответствието. Това е безопасният път и доминиращият модел.
Алтернативата е Предварително определен план за контрол на промените (PCCP), формализиран от FDA през 2024 г., следван от регулаторните органи на ЕС, при който специфични видове актуализации на моделите са предварително одобрени в рамките на документирани граници. PCCP ви позволяват да се преобучите върху нови данни, да коригирате прагове в рамките на диапазони или да разширите обхвата до допълнителни условия без пълно ново подаване, при условие че промяната остава в рамките на предварително одобрения пакет.
PCCP са оперативно по-взискателни, но могат драстично да намалят регулаторните разходи през целия жизнен цикъл на успешен продукт. За всяка програма за сърдечен изкуствен интелект, която планира непрекъснато подобряване на модела след пускането му на пазара, въпросът за PCCP вече е стратегически, а не технически. Третирането му като регулаторен последващ фактор е честа и скъпа грешка.
Мониторинг на ефективността след пускане на пазара
Сърдечният ИИ е податлив на промени в разпределението: клинични промени в популацията (демография, съпътстващи заболявания), промени в оборудването, промени в практиката на кодиране, които влияят върху етикетите, и промени в работния процес, които променят кои пациенти получават ЕКГ.
Клиничната система се нуждае от инфраструктура за мониторинг, която открива влошаване на производителността, преди то да се превърне в събитие, свързано с безопасността на пациента. Практическите компоненти:
Проследяване на ефективността в реалния свят. Когато данните за резултатите са достъпни — потвърдени диагнози, решения за лечение, резултати за пациентите — систематичното сравняване на прогнозите с резултатите предоставя директни доказателства за ефективността върху извадка от случаи след разполагане на екипа.
Мониторинг на разпределението на входните сигнали. Статистическото наблюдение на характеристиките на входящия сигнал (разпределение на амплитудата, разпределение на сърдечната честота, показатели за качество на електродите) открива кога устройството се използва в популации или контексти, различни от валидираните. Промяната на входните сигнали е водещ индикатор за промяна в производителността.
Мониторинг на честотата на аномалиите. Проследяването на процента на положителни резултати с висока степен на доверие, процента на несигурните резултати и процента на отхвърляне на входни данни с ниско качество предоставя оперативни сигнали, които не изискват данни за клиничните резултати – полезно, тъй като данните за клиничните резултати са бавни.
Наблюдение на оплаквания и инциденти. Бдителността на ЕС по отношение на MDR изисква формална система за получаване и разследване на клинични оплаквания (пропуснати диагнози, неочаквано маркиране, объркване, свързано с потребителски интерфейс) и е водещ източник на сигнали за реална производителност.
Резултатите от мониторинга се отразяват в историята на управлението на промените: задействане на решения за преквалификация в рамките на пакета за PCCP или официални регулаторни предложения за промени извън него.
Киберсигурността и Законът за изкуствения интелект (ИИ)
Два регулаторни измерения са станали задължителни за подаване на нови проекти за сърдечен изкуствен интелект и често са подценявани от екипите, ръководени от машинно обучение.
Киберсигурност (ръководство на IEC 81001-5-1 и MDCG 2019-16). Мрежовите устройства с изкуствен интелект за сърдечни заболявания са изправени пред изисквания за документация за киберсигурност, обхващащи моделиране на заплахи, сигурен жизнен цикъл на разработка, управление на уязвимостите и мониторинг на сигурността след пускане на пазара. Очакваните артефакти вече са достатъчно обширни, така че киберсигурността е паралелен работен поток, наред с обработката на сигнали и клиничната оценка, а не отметка в късен етап.
Закон на ЕС за ИИ. Сърдечният диагностичен ИИ е високорисков съгласно Закона за ИИ, освен че е медицинско изделие от клас IIa съгласно MDR. Двойният режим добавя изисквания относно управлението на данните за обучение, прозрачността за внедрителите, разпоредбите за човешки надзор и оценката на съответствието на системата с ИИ по-специално (припокриваща се, но различно от оценката на съответствието по MDR). За програми, насочени към стартирането в ЕС през 2026 г. и след това, спазването на Закона за ИИ вече е съществена част от тежестта на подаване.
Американските програми са изправени пред паралелната рамка на FDA: De Novo или 510(k) път в зависимост от наличността на предикати, насоки на FDA относно AI/ML SaMD и формализирана рамка за PCCP. Повечето програми за сърдечен AI, които са сериозни за търговски мащаб, се нуждаят от съгласувани стратегии както на ЕС, така и на САЩ от самото начало, а не от последователност.
Документационна тежест, преведена
Специфичната документация на ЕС за MDR за сърдечен ЕКГ ИИ клас IIa (предназначение: маркиране на ЕКГ аномалии за преглед от кардиолог) включва декларацията за предназначението (специфична за типа ЕКГ записване, обхванатите състояния, предвидената клинична обстановка, предвидения потребител); документация по IEC 62304 за конвейер за обработка на сигнали, архитектура на модела, конвейер за обучение и механизъм за извод; файл за управление на риска по ISO 14971, разглеждащ специфични за ЕКГ рискове (пропуснат STEMI, обработка на артефакти от електроди, вариабилност на записването, изместване на разпределението); документация за киберсигурност по IEC 81001-5-1; клинична оценка, обхващаща преглед на литературата, валидационно проучване с предварително зададена чувствителност/специфичност/AUC за всяко състояние, доказателства за валидиране от множество центрове или външни фактори, сравнение с кардиологичната дейност, когато е налична, и анализ на подгрупи; оценка на използваемостта (IEC 62366-1), демонстрираща, че кардиолозите правилно интерпретират изходните данни и разбират ограниченията; план за постмаркетингово наблюдение, включително методология за мониторинг на ефективността и обхват на PCCP, когато е приложимо; и документация за съответствие със Закона за ИИ, която се припокрива с MDR.
Фазата на документиране е мястото, където повечето програми за сърдечен изкуствен интелект провалят своите срокове. Екипи, които не предоставят достатъчно ресурси за писане на регулаторни документи в полза на подобряване на модела, постоянно се оказват със силен модел и без път до пазара. Техническото досие е продуктът от регулаторна гледна точка и е реалистично да се бюджетира като приблизително една четвърт от общите усилия на програмата.
Какво означава всичко това
Изграждането на сърдечен изкуствен интелект до клинично ниво не е основно проблем, свързан с машинното обучение. Изборът на архитектура на модела е сравнително установен. Трудните части са събирането на данни с достатъчна широта и качество на етикета, предварителната обработка и дисциплината на конвейера, валидирането на специфични за състоянието параметри, калибрираната неопределеност, стратегията за управление на промените, която оцелява след преобучение след пускането на продукта в експлоатация, и усилията за регулаторна документация, оразмерени спрямо действителния обхват.
Екипите, които доставят, са екипите, които осигуряват тези ресурси като паралелни работни потоци от първия ден, а не екипите, които първо изграждат модела и след това „вършат регулаторната част“.
Ако обмисляте обхвата на програма за сърдечен изкуствен интелект на стратегическо ниво, пазари, решения за изграждане/покупка/партньорство, регулаторни разходи, реалност на времевата рамка, защитимост, съпътстващата статия е тук: Бизнес казус за сърдечна диагностика с изкуствен интелект .
Ако искате да проверите програмата си спрямо наученото, докато разработвахме KARDI AI, ние провеждаме техническа проверка и оценка на обхвата на ангажираността за екипи, занимаващи се с изкуствен интелект в сърдечните заболявания. Свържете се с нас на vector-labs.ai.

