Das Jahr 2024 brachte zahlreiche spannende Konferenzen – eine davon war die ICML (International Conference on Machine Learning) in Wien. In diesem Beitrag teilt Noah Pütz, Doktorand am IDE+A Institut, seine Eindrücke von der Konferenz, spannende Forschungshighlights und persönliche Erfahrungen aus der Welt des maschinellen Lernens.

Die ICML ist einer der drei größten und wichtigsten Machine Learning Konferenzen der Welt. 2024 fand sie in Wien auf dem Messegelände statt. Nachdem es am Sonntag (21. Juli) und Montag mit Tutorial Sessions begann, ging am Dienstag dann die eigentliche Konferenz mit Poster Sessions, Keynotes und Oral Presentations los. Zum Abschluss folgte am Freitag und am Samstag noch ganztägige Workshops. Um einen Überblick zu bekommen lohnt sich ein Blick auf die Zahlen (die Slides stammen aus einer Präsentation der Organisatoren der ICML):

Gerade die 39% Students fühlten sich in Realität eher nach 80% an. Das wurde auch dadurch deutlich, dass viele Oral Presentations mit dem Satz endeten:
„I recently finished my PhD and i am looking for a job, so please feel free to connect!“.
Die meisten Nicht-Studenten waren in meiner Wahrnehmung meist Mitarbeiter aus dem Big Tech Sektor oder kleineren AI-Startups.
Insgesamt wurden 9473 Paper eingereicht wovon 2610 angenommen wurden (27,55% Acceptance Rate). Diese wurden dann in 6 Poster Sessions von Dienstag bis Donnerstag vorgestellt, 191 von diesen wurden nochmal als „Spotlight Poster“ hervorgehoben und 144 wurden zusätzlich ein einer der Oral Sessions vorgestellt. Zum ersten mal in der Geschichte der ICML wurden Position Paper zur Einreichung zugelassen. 286 solcher Paper wurden eingereicht, wovon 75 angenommen wurden (26% Acceptance Rate). Auch davon wurden welche als Spotlight Poster (11 Stück) und in Oral Sessions (15 Stück) speziell hervorgehoben (alle Zahlen sind bereits inkludiert mit den gesamt eingereichten Paper). Abseits von der Konferenz habe ich oft mitbekommen, dass gerade diese Position Paper kontrovers diskutiert werden. Viele meinten, dass man spüren würde, dass das Peer-Review System bereits am ächzen ist unter der schieren Masse an Einreichungen und dass man es nicht leichter machen würde wenn man eine zusätzliche Kategorie zulassen würde. Auch wenn ich dem zustimme, habe ich dennoch beobachtet, dass gerade in Poster Sessions die Position Paper oft die meisten Menschentrauben um sich hatten. Eine solche Konferenz soll auch den Austausch innerhalb der Wissenschaft fördern und meines Achtens nach wurde das gerade durch die Position Paper als Conversationstarter geschafft. Freitag und Samstag fanden dann noch insgesamt 30 Workshops statt, welche aus 145 vorgeschlagenen Workshops ausgesucht wurden.
Es wurden 44% mehr Paper eingereicht als noch letztes Jahr und mehr als doppelt so viele Paper angenommen wie noch im Jahr 2022. Die Frage wo diese Reise hingehen kann und wann das Limit irgendwann erreicht ist und ob es nicht bereits erreicht ist, fühlt sich schon berechtigt an. Das Plateau von 2020 bis 2022 lässt sich laut dem Speaker mit Covid erklären.

Am Mittwoch wurde in der Oral Session das Paper [Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews](https://arxiv.org/pdf/2403.07183) vorgestellt. Die Autoren dieses Papers haben das Nutzen von ChatGPT bei Reviewer untersucht. Ich hatte noch nicht Zeit, dass ganze Paper zu lesen, wollte aber dennoch die Hauptpunkte des Talks teilen:

Für mich war vor Allem der Kontrast der Reviews zwischen den Machine Learning Konferenz und dem Nature Journal interessant (zu sehen unten links in Figure 4). Außerdem ist interessant, dass das Nutzerverhalten von ChatGPT steigt je knapper die Review vor der Deadline eingereicht wurde (im Paper beschrieben als „Deadline Effect“). Das Paper lohnt sich nicht nur wegen der Ergebnisse sondern auch wegen der Art und Weise wie die Autoren die Analyse durchgeführt haben.
Die weiteren allgemeinen Informationen zur Konferenz habe ich in einer Abbildung noch zusammengefasst:

Thematische Einordnung
Thematisch wurde die ICML mit wenig Überraschung von Natural Language Processing und Large Language Models dominiert. Wirft man eine Blick auf die Paper Keywords, sieht der Unterschied zwischen „large language model“ (circa 600 Nennungen) und „reinforcement learning“ (circa 500 Nennungen) gar nicht groß aus, aber die keywords „llm“ (circa 200 Nennungen) und „language model“ (circa 100 Nennungen) werden separat geführt. Auf Platz 3 und 4 folgen dann thematisch Graph Neural Networks (circa 300 Nennungen) und Diffusion Models (circa 250 Nennungen). Außerdem wurde viel im Bereich Erklärbarkeit und Robustheit vorgestellt. Keywords dazu sind dann: „Robustness“, „Interpretability“, „Explainability“, „Adversarial Attacks“, „Alignment“ und man kann manche Paper aus dem Bereich „Privacy“ und „Differential Privacy“ hinzuzählen. Gerade wegen der Größe und der Bedeutung der ICML kann diese Grafik einen guten Überblick geben in welche Richtung sich das Machine Learning Feld und die Wissensschafts Community bewegt.
Awards
Best Paper Awards
+ Florian Tramer; Gautam Kamath; Nicholas Carlini. Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining
+ Akbir Khan; John Hughes; Dan Valentine; Laura Ruis; Kshitij Sachan; Ansh Radhakrishnan; Edward Grefenstette; Samuel R. Bowman; Tim Rocktaschel; Ethan Perez. Debating with More Persuasive LLMs Leads to More Truthful Answers
+ Jake Bruce; Michael D Dennis; Ashley Edwards; Jack Parker-Holder; Yuge Shi; Edward Hughes; Matthew Lai; Aditi Mavalankar; Richie Steigerwald; Chris Apps; Yusuf Aytar; Sarah Maria Elisabeth Bechtle; Feryal Behbahani; Stephanie C.Y. Chan; Nicolas Heess; Lucy Gonzalez; Simon Osindero; Sherjil Ozair; Scott Reed; Jingwei Zhang; Konrad Zolna; Jeff Clune; Nando de Freitas; Satinder Singh; Tim Rocktäschel. Genie: Generative Interactive Environments
+ Dan Kondratyuk; Lijun Yu; Xiuye Gu; Jose Lezama; Jonathan Huang; Grant Schindler; Rachel Hornung; Vighnesh Birodkar; Jimmy Yan; Ming-Chang Chiu; Krishna Somandepalli; Hassan Akbari; Yair Alon; Yong Cheng; Joshua V. Dillon; Agrim Gupta; Meera Hahn; Anja Hauth; David Hendon; Alonso Martinez; David Minnen; Mikhail Sirotenko; Kihyuk Sohn; Xuan Yang; Hartwig Adam; Ming-Hsuan Yang; Irfan Essa; Huisheng Wang; David A Ross; Bryan Seybold; Lu Jiang. VideoPoet: A Large Language Model for Zero-Shot Video Generation
+ Aaron Lou; Chenlin Meng; Stefano Ermon. Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution, Patrick Esser; Sumith Kulal; Andreas Blattmann; Rahim Entezari; Jonas Müller; Harry Saini; Yam Levi; Dominik Lorenz; Axel Sauer; Frederic Boesel; Dustin Podell; Tim Dockhorn; Zion English; Robin Rombach. Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
+ Stephen Zhao; Rob Brekelmans; Alireza Makhzani; Roger Baker Grosse. Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo
+ Dora Zhao; Jerone Andrews; Orestis Papakyriakopoulos; Alice Xiang. Position: Measure Dataset Diversity, Don’t Just Claim It.
+ Nicholas Carlini; Daniel Paleka; Krishnamurthy Dj Dvijotham; Thomas Steinke; Jonathan Hayase; A. Feder Cooper; Katherine Lee; Matthew Jagielski; Milad Nasr; Arthur Conmy; Eric Wallace; David Rolnick; Florian Tramer. Stealing Part of a Production Language Model
+ Idan Attias; Gintare Karolina Dziugaite; Mahdi Haghifam; Roi Livni; Daniel M. Roy. Information Complexity of Stochastic Convex Optimization: Applications to Generalization and Memorization
Test of Time Award
Den Test of Time Award gewann das Paper: „DeCAF: a deep convolutional activation feature for generic visual recognition“ von Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, und Trevor Darrell. Am Donnerstag hielt Trevor Darrell, Professor an der Universität Kaliforniens, einen Talk über das Paper. Was damals noch als „activation feature“ bezeichnet wurde, würde man heute eher als foundation model betiteln. In dem DeCAF Paper wurde das damalige State-of-the-Art Model für Computer Vision „AlexNet“ genommen und bis auf die letzten Ebene komplett eingefroren (alle Gewichte blieben im vortrainierten Status). Danach hat man im supervised learning setting die letzten Ebenen für eine neue Aufgabe nachtrainiert. Das Ergebnis war, dass man bereits mit dem Trainieren der letzten Ebenen auf das gleiche Leistungsniveau kommt, wie wenn man ein Modell komplett neu trainiert. Dies scheint heute plausibel, war aber damals ziemlich neu und wurde Trevor Darrell zu Folge von anderen 2014 auch sehr skeptisch beäugt. Das DeCAF Paper gilt als die Geburtsstunde des Pretrainings.

*Einer der Slides aus dem 2014 Talk*