Перейти к содержимому
Advertisement

GPT-5.5 matches heavily hyped Mythos Preview in new cybersecurity tests

New results suggest Mythos' cyber threat isn't "a breakthrough specific to one model."

schedule 15:32 visibility 55 просмотров
GPT-5.5 matches heavily hyped Mythos Preview in new cybersecurity tests
Источник: Ars Technica

Last month, Anthropic made a big deal about the supposedly outsize cybersecurity threat represented by its Mythos Preview model, leading the company to restrict the initial release to “critical industry partners.” But new research from the UK's AI Security Institute (AISI) suggests that OpenAI's GPT-5.5, which launched publicly last week, reached "a similar level of performance on our cyber evaluations" as Mythos Preview, which the group evaluated last month.

Since 2023, the AISI has run a variety of frontier AI models through 95 different Capture the Flag challenges designed to test capabilities on cybersecurity tasks, such as reverse engineering, web exploitation, and cryptography. On the highest-level "Expert" tasks, GPT-5.5 passed an average of 71.4 percent, slightly higher than the 68.6 percent achieved by Mythos Preview (though within the margin of error). In one particularly difficult task that involved building a disassembler to decode a Rust binary, AISI notes that "GPT-5.5 solved the challenge in 10 minutes and 22 seconds with no human assistance at a cost of $1.73" in API calls.

GPT-5.5 also matched Mythos Preview in its progress on "The Last Ones" (TLO), an AISI test range set up to simulate a 32-step data extraction attack on a corporate network. GPT-5.5 succeeded in 3 of 10 attempts on TLO, compared to 2 of 10 for Mythos Preview—no previous model had ever succeeded at the test even once. But GPT-5.5 still fails at AISI's more difficult "Cooling Tower" simulation of an attempted disruption of the control software for a power plant, as every previously tested AI model also has.

Read full article

Comments

newspaper

Опубликовано на

Ars Technica

open_in_new Читать полную статью

Похожие статьи

Apple: Мессенджер "Макс" удален из App Store из-за санкций
Технологии

Apple: Мессенджер "Макс" удален из App Store из-за санкций

Компания Apple сообщила Русской службе BBC, что удалила российский госмессенджер "Макс" из своего магазина приложений, поскольку соблюдает санкции. О каких именно санкциях идет речь, в комментарии не уточняется.

DW Russian
Ferrari представила свой первый электромобиль
Технологии

Ferrari представила свой первый электромобиль

Ferrari представила свой первый электрический автомобиль с дизайном от бывшего главного дизайнера Apple. Luce разгоняется до 100 км/ч за 2,5 секунды и развивает скорость до 310 км/ч. Стоимость новинки - 550 тысяч евро.

DW Russian
Маск против Альтмана: Суд отклонил громкий иск против OpenAI
Технологии

Маск против Альтмана: Суд отклонил громкий иск против OpenAI

Федеральный суд в Окленде пришел к выводу, что Илон Маск слишком затянул с подачей иска против OpenAI и ее руководства в лице Сэма Альтмана. Судья присоединилась к выводам присяжных. Маск направит апелляцию.

DW Russian

Читать далее

Зумеры против ИИ? Нападения на дом создателя ChatGPT вызвали дискуссию о кризисе доверия к искусственному интеллекту
Технологии

Зумеры против ИИ? Нападения на дом создателя ChatGPT вызвали дискуссию о кризисе доверия к искусственному интеллекту

20-летний техасец обвиняется в покушении на жизнь главы ИИ-компании OpenAI, которая создала ChatGPT, Сэма Альтмана. Би-би-си поговорила с экспертами о том, что эти нападения говорят об отношение общества к ИИ и его создателям.

BBC Russian
Российский мессенджер Max признали шпионским приложением
Технологии

Российский мессенджер Max признали шпионским приложением

Крупнейший хостинг-провайдер Cloudflare пометил домен российского "национального" мессенджера Max как шпионское программное обеспечение. Ранее так же пометили приложение "Телега", после чего его удалили из App Store.

DW Russian
Много продаж, мало инноваций. Почему Apple решилась на смену гендиректора
Технологии

Много продаж, мало инноваций. Почему Apple решилась на смену гендиректора

Тим Кук, 15 лет назад возглавивший Apple после отставки Стива Джобса, уходит с поста гендиректора. С 1 сентября его место займет Джон Тернус, вице-президент по разработке аппаратного обеспечения. Последнее время Apple часто критикуют за отсутствие...

BBC Russian
Тим Кук уходит с поста гендиректора Apple и возглавит совет компании
Технологии

Тим Кук уходит с поста гендиректора Apple и возглавит совет компании

С 1 сентября новым гендиректором Apple станет Джон Тернус. Тим Кук, который возглавлял компанию на протяжении 15 лет, займет пост председателя совета директоров компании и продолжит курировать отношения с властями США.

DW Russian