Czy asystent AI do rozmów kwalifikacyjnych może transkrybować zarówno rekrutera, jak i kandydata?

Autor: Aaron Cao · Zaktualizowano 2026-06-02

Tak. Przechwytując jednocześnie dźwięk systemowy (głos rekrutera z głośników) i mikrofon, asystent AI do rozmów kwalifikacyjnych może w czasie rzeczywistym transkrybować obie strony rozmowy. SubcueAI robi to za pomocą natywnego przechwytywania dwóch źródeł audio — bez konieczności użycia bota do spotkań.

Dlaczego transkrybowanie obu stron wymaga dwóch źródeł audio

Jeśli próbowałeś nagrać rozmowę kwalifikacyjną za pomocą jednego mikrofonu, znasz już ten problem: Twój własny głos jest głośny i wyraźny, ale rekruter — dobiegający z głośników lub słuchawek — jest cichy, brzmi echem lub jest w ogóle pomijany. Aby czysto transkrybować obie strony, potrzebne są dwa oddzielne źródła audio.

Asystent AI do rozmów kwalifikacyjnych rozwiązuje ten problem, przechwytując jednocześnie dwa strumienie: dźwięk systemowy (wszystko, co odtwarza komputer, w tym głos rekrutera w Zoom, Google Meet lub Microsoft Teams) oraz Twój mikrofon (Twoje własne odpowiedzi). Każdy strumień jest transkrybowany niezależnie, dzięki czemu słowa są przypisywane do właściwego mówcy, a nie mieszane w jedną nieczytelną ścieżkę.

Jak SubcueAI przechwytuje zarówno rekrutera, jak i Ciebie

SubcueAI działa jako natywna aplikacja desktopowa na macOS i Windows — nie jako wtyczka do przeglądarki ani bot dołączający do spotkania. Na macOS korzysta z systemowych interfejsów API audio do przechwytywania ekranu; na Windows używa systemowego urządzenia loopback. Mikrofon jest przechwytywany równolegle za pomocą normalnego urządzenia wejściowego.

Wyobraź sobie inżyniera backendu ubiegającego się o stanowisko seniora podczas rozmowy przez Zoom: pytania menedżera ds. rekrutacji docierają jako dźwięk systemowy, mówione odpowiedzi kandydata jako dźwięk mikrofonu, a SubcueAI transkrybuje oba w czasie rzeczywistym. Ponieważ dwa strumienie pozostają oddzielne, transkrypcja wygląda jak oznakowana wymiana zdań, a nie jeden jednolity blok tekstu.

Przechwytywanie odbywa się w całości na Twoim komputerze, a pływająca nakładka wyświetlająca transkrypcję jest lokalna na Twoim pulpicie. Krótki przewodnik konfiguracji opisuje instalację.

Rozdzielanie mówców, opóźnienie i dokładność

Utrzymywanie rekrutera i kandydata na oddzielnych kanałach robi więcej niż porządkowanie transkrypcji — pozwala asystentowi zdecydować, którą turę obsłużyć. Pytanie na kanale rekrutera to to, na co powinna odpowiadać sugestia odpowiedzi; Twój własny kanał to kontekst, a nie nowy monit.

Oznaczanie mówców wynika naturalnie z projektu dwuźródłowego, ponieważ każdy strumień ma znanego właściciela.
Opóźnienie zależy od ścieżki zamiany mowy na tekst; strumieniowa transkrypcja zwraca częściowy tekst, gdy osoba jeszcze mówi.
Dokładność jest najlepsza przy czystym sygnale dźwięku systemowego — dobry zestaw słuchawkowy i cicha przestrzeń pomagają obu kanałom.

Aby zapoznać się z pełną ścieżką od przechwycenia do sugestii, odwiedź centrum how it works.

Gdzie podwójna transkrypcja nie ma zastosowania

Dwustronna transkrypcja zakłada, że dźwięk faktycznie dociera do urządzeń wyjściowych i wejściowych Twojego komputera. Nie obejmuje każdej sytuacji i warto to szczerze przyznać:

Na urządzeniu zarządzanym przez firmę, nad którym nie masz kontroli, możesz w ogóle nie być w stanie zainstalować aplikacji desktopowej.
Środowiska nadzorowane i oprogramowanie do zdalnego monitorowania mogą ograniczać aplikacje działające w tle lub aktywność ekranu.
Jeśli sesja jest nagrywana z ekranu po drugiej stronie, to nagranie jest niezależne od tego, co Twój asystent robi lokalnie.
Rozmowy osobiste, podczas których dźwięk nigdy nie przechodzi przez Twój komputer, są poza zakresem przechwytywania dźwięku systemowego.

SubcueAI jest zbudowany dla Twoich własnych zdalnych rozmów kwalifikacyjnych na Twoim własnym komputerze; jego ograniczenia zostały omówione w centrum detectability.

FAQ

Czy głos rekrutera też jest transkrybowany, czy tylko mój?

Oba. Głos rekrutera jest przechwytywany jako dźwięk systemowy (to, co odtwarza Twój komputer), a Twój głos jako dźwięk mikrofonu, więc transkrypcja pokazuje obie strony rozmowy.

Czy potrzebuję bota do spotkań lub rozszerzenia przeglądarki?

Nie. SubcueAI to natywna aplikacja desktopowa, która lokalnie przechwytuje dźwięk systemowy i z mikrofonu — nic nie dołącza do rozmowy i nie ma wtyczki do przeglądarki.

Czy potrafi rozpoznać, kto co powiedział?

Tak. Ponieważ rekruter i kandydat docierają na dwóch oddzielnych strumieniach audio, każda transkrybowana linia ma już znanego właściciela, więc oznaczanie mówców jest wbudowane.

Czy działa na Zoom, Google Meet i Microsoft Teams?

Tak. Przechwytywanie dźwięku systemowego jest niezależne od platformy do spotkań, więc głos rekrutera jest transkrybowany niezależnie od tego, czy rozmowa odbywa się przez Zoom, Google Meet czy Microsoft Teams.

Czy transkrybuje obie strony rozmowy osobistej?

Nie. Przechwytywanie dźwięku systemowego działa tylko wtedy, gdy dźwięk przechodzi przez Twój komputer. Rozmowy osobiste, podczas których nie jesteś na połączeniu, są poza zakresem.

Powiązane pytania

← Więcej o Jak to działa