• Aktualności

Aktualności Instytutu Podstaw Informatyki PAN

Warsztat „Analiza danych parlamentarnych” w Sejmie RP




29 lutego 2024 r. odbył się w Sejmie RP zorganizowany przez Instytut Podstaw Informatyki PAN warsztat naukowy „Analiza danych parlamentarnych”, który stanowił podsumowanie zorganizowanego na jesieni ubiegłego roku konkursu na analizę stenogramów Sejmu i Senatu. Celem konkursu, adresowanego do studentów, doktorantów i młodych naukowców, było stworzenie oryginalnego opracowania ciekawego problemu badawczego z dowolnej dyscypliny nauki.

Korpus Dyskursu Parlamentarnego i korpus ParlaMint

Wydarzenie rozpoczęło wystąpienie prof. Macieja Ogrodniczuka z Instytutu Podstaw Informatyki PAN, który zaprezentował dwa wykorzystywane w konkursie zbiory danych parlamentarnych. Najważniejszym z nich jest polskojęzyczny Korpus Dyskursu Parlamentarnego (KDP), liczący ponad 800 mln słów zestaw stenogramów z posiedzeń plenarnych, sprawozdań z posiedzeń komisji oraz interpelacji, zapytań i odpowiedzi od roku 1919 aż do dnia dzisiejszego. Jego współczesną część (od roku 2015) zawiera natomiast wielojęzyczny korpus ParlaMint, gromadzący podobne dane z parlamentów prawie wszystkich krajów europejskich, a także ich tłumaczenia na język angielski.

Dane wykorzystywane w konkursie są dostępne bezpłatnie dla wszystkich. Co ważne – żeby z nich korzystać, nie trzeba umieć programować. Zarówno KDP, jak i ParlaMint zostały udostępnione w sieci w prostych w obsłudze interfejsach.

Czytaj więcej: Warsztat „Analiza danych parlamentarnych” w Sejmie RP

Nowa publikacja w IEEE Transactions on Reliability




31 stycznia b.r. w czasopiśmie IEEE Transactions on Reliability został opublikowany artykuł pracowników IPI PAN: prof. Wojciecha Penczka, dr Łukasza Maśko i mgr Teofila Sidoruka, napisany we współpracy z prof. Laure Petrucci, dr Carlosem Olarte i dr Jaime Ariasem z Université Sorbonne Paris Nord. Praca "Optimal Scheduling of Agents in ADTrees: Specialized Algorithm and Declarative Models" stanowi kontynuację wcześniejszej linii badań [1], w której zaproponowano reprezentowanie drzew ataku/obrony (ADTrees) jako systemów wieloagentowych. ADTrees są popularnym formalizmem, pozwalającym na analizowanie scenariuszy bezpieczeństwa, w których dwie grupy agentów próbują albo wykonać podzadania (poszczególne węzły drzewa) składające się na główny cel (korzeń drzewa), albo dążą do uniemożliwienia tego przeciwnej grupie. Dzięki translacji do formalizmu wieloagentowego, możliwe staje się rozważanie tych dwóch grup jako koalicji, charakteryzujących się nie tylko pewną liczbą agentów, ale również konkretnym ich przydziałem do poszczególnych podzadań. To z kolei determinuje zarówno możliwość skutecznego ataku lub obrony przeciwko drugiej koalicji, ale także wpływa na rozważane cechy kwantytatywne, np. czas ataku/obrony lub związany z nimi koszt finansowy.

Czytaj więcej: Nowa publikacja w IEEE Transactions on Reliability

Powstanie pierwszy polski otwarty wielki model językowy (PLLuM) i inteligentny asystent


Polski wielki model językowy PLLuM, wytrenowany na treściach głównie polskojęzycznych, oraz oparty na nim inteligentny asystent - powstaną w ramach współpracy sześciu polskich jednostek naukowych. “Nie stać nas na to, by zostawać w tyle”- komentują przedstawiciele projektu.

Konsorcjum PLLuM (Polish Large Language Universal Model) powstało 29 listopada br. (w przeddzień pierwszych urodzin chatGPT). Tworzy je sześć spośród wiodących w Polsce jednostek naukowych z obszaru sztucznej inteligencji i językoznawstwa: Politechnika Wrocławska (lider konsorcjum), Państwowy Instytut Badawczy NASK (PIB NASK), Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN. O powołaniu konsorcjum poinformowali w piątek w przesłanym PAP komunikacie przedstawiciele PIB NASK.

Od około roku wielkie językowe modele generatywne (LLMs) zachwycają niewyobrażalnymi dotychczas możliwościami sztucznej inteligencji. Te najbardziej znane modele, jak ChatGPT czy Google Bard, mają jednak swoje ograniczenia: są płatne, są zamknięte (nie można poznać ani modyfikować ich algorytmów) i zostały wytrenowane ze zbyt małym udziałem treści polskojęzycznych (dlatego w polskich odpowiedziach pojawia się więcej błędów niż w języku angielskim).

Stąd pomysł, aby stworzyć otwarty, darmowy model w większości wytrenowany na treściach polskojęzycznych, a także opracować wykorzystującego ten model inteligentnego asystenta. “Całość projektu ma być przeprowadzona zgodnie z dobrymi praktykami etycznej i odpowiedzialnej sztucznej inteligencji, w tym przy zachowaniu reprezentatywności, przejrzystości i sprawiedliwości danych” - zapewniają przedstawiciele projektu. Istotną rolę odegra tu Krajowe Centrum Doskonałości Danych z siedzibą w NASK-PIB.

Czytaj więcej: Powstanie pierwszy polski otwarty wielki model językowy (PLLuM) i inteligentny asystent (PAP)

Narodowe Centrum Nauki ogłosiło wyniki konkursów OPUS 25 i PRELUDIUM 22


Dwóch naukowców Instytutu Podstaw Informatyki PAN otrzyma finansowanie z Narodowego Centrum Nauki w ramach konkursu OPUS 25 na badania podstawowe.

Wśród 176 wniosków zakwalifikowanych do finansowania znalazły się wnioski

  • prof. Adama Przepiórkowskiego pt. "Koordynacja: symetryczna czy asymetryczna?" z grupy badań nad językoznawstwem, projekt najwyżej oceniony przez ekspertów w panelu dyscyplin HS2 - Kultura i twórczość kulturowa oraz,
  • dra Dariusza Kalocińskiego, pt.: "Obliczalna teoria modeli i filozofia strukturalizmu matematycznego" z grupy badań nad logiką, filozofią nauki oraz teoretycznymi podstawami informatyki, oceniany w panelu HS1 - Fundamentalne pytania o naturę człowieka i otaczającej go rzeczywistości.

Czytaj więcej: Narodowe Centrum Nauki ogłosiło wyniki konkursów OPUS 25 i PRELUDIUM 22

Nowe metody klasyfikacji dla danych z niepełną obserwowalnością


Zespół Analizy i Modelowania Statystycznego osiągnął istotne wyniki dotyczące dwóch nowych metod uczenia maszynowego dla danych z niepełną dostępnością etykiet (dane typu Positive Unlabeled) w istotnym dla zastosowań przypadku, gdy ich dostępność jest zależna od charakterystyk badanych jednostek. W pierwszej zaproponowanej metodzie badano nowy parametryczny model generacji tego typu danych i iteracyjną procedurę estymacji jego parametrów. Druga metoda bazuje na koncepcji wariacyjnych autoenkoderów w połączeniu z technikami wykrywania obserwacji odstających. Poza teoretycznym uzasadnieniem metod, pokazano eksperymentalnie istotnie lepszą jakość wynikowych klasyfikatorów dla danych tabularycznych i obrazowych.

Obie metody zostały przedstawione na międzynarodowej konferencji European Conference on Artificial Intelligence, ECAI 2023, która odbyła się w Krakowie w dniach 30.09-04.10.2023.

Czytaj więcej: Nowe metody klasyfikacji dla danych z niepełną obserwowalnością


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności