GovTech BETA
Platforma Konkursowa
System automatycznego rozpoznawania mowy i mówcy
OBSERWUJ KONKURS
Otrzymasz powiadomienia o zmianach i upływających terminach
kiedy można wysyłać zgłoszenia
od 12.09.2019 do 28.10.2019
pula nagród
60 000,00 zł brutto
maksymalny budżet wdrożenia
600 000,00 zł brutto
Funkcjonowanie dziś, opis potrzeby

Zgodnie z przepisami ustawy o dostępie do informacji publicznej oraz Regulaminu Senatu, Kancelaria Senatu zapewnia transmisje z posiedzeń Senatu oraz komisji senackich, a także udostępnia zapisy stenograficzne z tych posiedzeń na senackiej stronie internetowej.

Sporządzanie zapisów stenograficznych (stenogramów) jest kilkuetapowe i obecnie bazuje w 100% na pracy ludzkiej (sekretarze nadzorujący przebieg posiedzeń i sporządzający listy mówców; stenotypiści dokonujący transkrypcji na podstawie nagrań audio; redaktorzy weryfikujący prawidłowość transkrypcji na podstawie nagrań audio, w razie potrzeby też audio-video, oraz wprowadzający poprawki językowo-merytoryczne). W sytuacji długotrwałych obrad i zbiegu dużej liczby posiedzeń komisji mogą powstać w ramach tego procesu utrudnienia i opóźnienia (szczególnie w przypadku stenogramów z posiedzeń komisji). Nagrania audio-video z obrad, udostępniane na stronie internetowej natychmiast po zarejestrowaniu, nie są skorelowane z pozostałą udostępnianą dokumentacją, co może utrudniać precyzyjne odnajdywanie określonych fragmentów obrad.

Zamawiający chce, dzięki częściowej automatyzacji poszczególnych etapów procesu, ułatwić i przyspieszyć pracę nad dokumentacją z posiedzeń Senatu i komisji senackich, wyeliminować tzw. błędy ludzkie oraz wprowadzić nowe funkcjonalności poprawiające dostęp do informacji.

Oczekiwana zmiana

Funkcja automatycznego rozpoznawania mówców na podstawie głosu, ma:

  1. usprawnić sporządzanie list mówców (w tym rozwiązać problem identyfikacji mówców odzywających się spontanicznie, z sali, których twarz jest niewidoczna) – sztuczna inteligencja ma przejąć większość pracy człowieka, w efekcie odciążyć pracowników merytorycznych oraz wyeliminować tzw. błędy ludzkie,
  2. wiązać automatycznie, dzięki metadanym dotyczącym czasu wypowiedzi, dane tekstowe z materiałem video – to umożliwi wzbogacenie stenogramów i bazy zapisów wypowiedzi senatorów w linki do konkretnego miejsca w nagraniu video, pozwoli też na stworzenie szczegółowych menu dla nagrań video, a w przyszłości także bazy z zaawansowanymi funkcjami wyszukiwania.

Funkcja automatycznej transkrypcji mowy na tekst ma umożliwić skrócenie czasu niezbędnego do przygotowania stenogramów z obrad, w szczególności komisji senackich.

Wymagania funkcjonalne

Aplikacja-system wspomagający pracę sekretarzy posiedzeń i stenotypistów/redaktorów, który pozwoli szybko i automatycznie identyfikować mówców na podstawie analizy dźwięku (głosu) i wspomagająco obrazu (nagrania video) oraz wykonywać transkrypcję mowy na tekst.

Kluczowe funkcje systemu:

  • rozpoznawanie mówcy na podstawie nagrania audio-video,
  • funkcja uczenia się na podstawie wprowadzanych na bieżąco i gromadzonych danych (aktualizacja modelu),
  • automatyczna transkrypcja mowy na tekst.

System jako dane wejściowe ma przyjmować nagrania audio-video i ma zwracać wynikowy plik w formacie XML/TXT o określonej strukturze (zawierający m.in. znaczniki czasu, dane rozpoznanego mówcy, treść wypowiedzi).

System powinien prawidłowo identyfikować mówców również w przypadku, gdy nie są oni widoczni na nagraniu video, czyli podstawowym źródłem identyfikacji mówcy powinien być dźwięk.

Użytkownicy i oczekiwana przez nich funkcjonalność podstawowa
Sekretarz
możliwość podglądu transmisji audio-video na żywo wraz z podglądem wyników działania Systemu (online), tj. danych rozpoznanego mówcy, jego wypowiedzi;

możliwość zatrzymania nagrania, cofnięcia go, powrotu do transmisji „na żywo”;

sygnalizowanie nierozpoznanych mówców i fragmentów wypowiedzi, możliwość poprawiania i uzupełniania wynikowych danych online;

wprowadzane przez użytkownika dane mają dynamicznie „uczyć” system i podnosić skuteczność dalszego rozpoznawania.
Stenotypista / Redaktor
możliwość podglądu transmisji audio-video offline wraz z podglądem wyników działania Systemu, tj. danych rozpoznanego mówcy, jego wypowiedzi;

możliwość nawigacji zarówno po nagraniu video, jak i po wykazie mówców ze znacznikami czasu, także po wypowiedziach;

sygnalizowanie nierozpoznanych mówców i nierozszyfrowanych fragmentów wypowiedzi, możliwość poprawiania i uzupełniania wynikowych danych;

wszystkie wprowadzane przez użytkownika dane mają dynamicznie „uczyć” system i podnosić skuteczność dalszego rozpoznawania.
Sposób wyboru najlepszego partnera do współpracy
Harmonogram
Zgłoszenia do 28.10.2019
Weryfikacja zgłoszeń do 04.11.2019
Przyjmowanie rozwiązań - I etap od 27.11.2019 do 28.11.2019
Ocena propozycji 12.12.2019
Przyjmowanie rozwiązań - II etap od 10.01.2020
Ogłoszenie wyników do 14.02.2020
Szczegóły I etapu konkursu

Zamawiający wymaga dostarczenia aplikacji (systemu) wraz z instrukcją jej uruchomienia najpóźniej do dnia 28.10.2019 godzina 15:00. Aplikacja powinna generować wynikowy plik w formacie XML/TXT zawierający przynajmniej znaczniki czasu (początek i koniec wypowiedzi), dane mówcy (imię i nazwisko lub oznaczenie osoby nieznanej), transkrypcję wypowiedzi oraz znaczniki miejsc wymagających interwencji użytkownika (niepewne rozpoznanie mówcy lub tekstu).

Zmawiający w celu wyrównania szans przewiduje jeden dzień na przygotowanie pracy konkursowej przez Uczestników zakwalifikowanych do konkursu. O godzinie 09:00 udostępniony zostanie odnośnik do nowego, nieudostępnionego wcześniej materiału audio-video, który należy przetworzyć w rozwiązaniach posiadanych przez Uczestników i przesłać jako Rozwiązanie w I Etapie. Wynik przetworzenia należy dostarczyć przed godziną 15:00 28.10.2019. Rozwiązania składane przed godziną 09:00 i po godzinie 15:00 nie będą brane pod uwagę.

Kryteria oceny I etapu
skuteczność identyfikacji mówcy - waga 30%
Przypisanie imienia i nazwiska lub wskazanie, że mówca nie został rozpoznany (oznaczenie osoby nieznanej) na podstawie wcześniej udostępnionych nagrań audio-video. WZÓR: (suma długości wypowiedzi prawidłowo rozpoznanych mówców / długość całego nagrania) x 30 pkt. Wymagana minimalna skuteczność 70%, rozwiązania o niższej skuteczności nie będą oceniane.
skuteczność rozpoznawania zmiany mówcy - waga 30%
Prawidłowo rozpoznana zmiana mówcy, oznaczona w nowym akapicie. WZÓR: (liczba prawidłowo rozpoznanych zmian / liczba zmian w całym nagraniu) x 30 pkt. Wymagana minimalna skuteczność 80%, rozwiązania o niższej skuteczności nie będą oceniane.
dokładność transkrypcji mowy - waga 40%
Transkrypcja mowy na tekst z nagrania audio-video (interpunkcja nie jest brana pod uwagę). WZÓR: (liczba prawidłowo rozpoznanych słów / liczba słów w całym nagraniu) x 40 pkt. Wymagana minimalna dokładność 70%, rozwiązania o niższej dokładności nie będą oceniane.
W pierwszym etapie autorzy najlepszych prac otrzymają nagrody finansowe oraz zaproszenie do złożenia prac w drugim etapie
1 miejsce: 12 500,00 PLN
2 miejsce: 7 500,00 PLN
3 miejsce: 5 000,00 PLN
4 miejsce: 3 000,00 PLN
5 miejsce: 2 000,00 PLN
Szczegóły II etapu konkursu

Zamawiający wymaga dostarczenia aplikacji (systemu) wraz z instrukcją jej uruchomienia. Aplikacja powinna generować wynikowy plik w formacie XML/TXT zawierający przynajmniej znaczniki czasu (początek i koniec wypowiedzi), dane mówcy (imię i nazwisko lub oznaczenie osoby nieznanej), transkrypcję wypowiedzi oraz znaczniki miejsc wymagających interwencji użytkownika (niepewne rozpoznanie mówcy lub tekstu).

W celu oceny złożonych Rozwiązań Zamawiający zorganizuje spotkanie, które odbędzie się w siedzibie Zamawiającego. Na spotkanie Uczestnik dostarczy sprzęt, który wymagany jest do uruchomienia jego Rozwiązań Konkursowych (aplikacji). Zamawiający na spotkaniu udostępni nagranie audio-video, którego poprawna analiza (rozpoznanie mówców oraz transkrypcja tekstu) w postaci wynikowego pliku w formacie XML/TXT stanowić będzie podstawę do oceny Rozwiązania.

Kryteria oceny II etapu
skuteczność identyfikacji mówcy - waga 30%
Przypisanie imienia i nazwiska lub wskazanie, że mówca nie został rozpoznany (oznaczenie osoby nieznanej) na podstawie wcześniej udostępnionych nagrań audiovideo. WZÓR: (suma długości wypowiedzi prawidłowo rozpoznanych mówców / długość całego nagrania) x 30 pkt. Wymagana minimalna skuteczność 90%, rozwiązania o niższej skuteczności nie będą oceniane.
skuteczność rozpoznawania zmiany mówcy - waga 30%
Prawidłowo rozpoznana zmiana mówcy, oznaczona w nowym akapicie. WZÓR: (liczba prawidłowo rozpoznanych zmian / liczba zmian w całym nagraniu) x 30 pkt. Wymagana minimalna skuteczność 90%, rozwiązania o niższej skuteczności nie będą oceniane.
dokładność transkrypcji mowy - waga 40%
Transkrypcja mowy na tekst z nagrania audio-video (interpunkcja nie jest brana pod uwagę). WZÓR: (liczba prawidłowo rozpoznanych słów / liczba słów w całym nagraniu) x 40 pkt. Wymagana minimalna dokładność 90%, rozwiązania o niższej dokładności nie będą oceniane.
Nagroda dla najlepszej pracy w II etapie
Nagrodą w II etapie jest zaproszenie do negocjacji umowy na wykonanie całości systemu (wykonanie uszczegółowienia pracy konkursowej)
Nagrody dla uczestników II etapu
Dla uczestników II etapu przewidziane zostały nagrody w wysokości 6 000,00 zł
Kluczowe zapisy umowy na uszczegółowienie rozwiązania
Zasady dotyczące praw autorskich majątkowych oraz licencji zwrotnej
Przyjęcie wszystkich praw majątkowych na wszystkich polach eksploatacji, tak by zamawiający miał prawo rozwoju rozwiązania w dowolnym kierunku oraz udzielenie licencji zwrotnej wykonawcy, tak by miał możliwość dalszego rozwijania we własnym zakresie. Uzyskanie kodów źródłowych.
Pozostałe zapisy mające wpływ na umowę

Wszelkie szczegóły dotyczące zakresu i warunków przeniesienia praw autorskich oraz udzielenia licencji oraz licencji zwrotnej na oprogramowanie zostaną uregulowane w umowie o udzielenie zamówienia publicznego zawartej w trybie z wolnej ręki ze Zwycięzcą Konkursu.

Umowa będzie zawierała również w odniesieniu do Systemu Docelowego wymogi zgodności z przepisami RODO i ustawy o ochronie danych osobowych oraz innymi przepisami dotyczącymi ochrony danych osobowych, uwzględnienia ochrony danych w fazie projektowania oraz domyślnej ochrony danych, zgodnie z art. 25 RODO, a także uwzględnienia stosownych rozwiązań zabezpieczających dane w nim przetwarzane przed dostępem osób nieuprawnionych oraz chroniących te dane przed naruszeniem ich poufności, integralności i dostępności.

Kontakt
Zamawiający udziela odpowiedzi pod warunkiem, że pytanie lub wniosek o wyjaśnienie zawartości Regulaminu wpłynie dwa dni przez terminem składania wniosku lub Rozwiązań. Jeżeli prośba o wyjaśnienie treści Regulaminu wpłynęła po upływie terminu lub dotyczy udzielonych już odpowiedzi i wyjaśnień, Zamawiający może udzielić wyjaśnień albo pozostawić takie pytania bez rozpoznania.
Komunikacja z uczestnikami prowadzona jest w formie elektronicznej, pocztą email lub przez Platformę Konkursową.
BPKO Biuro Prawne Kadr i Organizacji
tel.
bpko@senat.gov.pl
Pytania i odpowiedzi
Dokumentacja postępowania
TAGI
przetwarzanie dźwiękuprzetwarzanie obrazów