Inteligência de dados generativa

Transformadores de visão quântica

Data:

El Amine Cherrat1, Iordanis Kerenidis1,2, Nathansh Mathur1,2, Jonas Landmann3,2, Martin Strahm4e Yun Yvonna Li4

1IRIF, CNRS – Université Paris Cité, França
2QC Ware, Palo Alto, EUA e Paris, França
3Escola de Informática, Universidade de Edimburgo, Escócia, Reino Unido
4F. Hoffmann La Roche AG

Acha este artigo interessante ou deseja discutir? Scite ou deixe um comentário no SciRate.

Sumário

Neste trabalho, transformadores quânticos são projetados e analisados ​​detalhadamente, estendendo as arquiteturas de redes neurais de transformadores clássicos de última geração, conhecidas por terem muito desempenho em processamento de linguagem natural e análise de imagens. Com base no trabalho anterior, que utiliza circuitos quânticos parametrizados para carregamento de dados e camadas neurais ortogonais, introduzimos três tipos de transformadores quânticos para treinamento e inferência, incluindo um transformador quântico baseado em matrizes compostas, que garante uma vantagem teórica do mecanismo de atenção quântica em comparação com sua contraparte clássica, tanto em termos de tempo de execução assintótico quanto em número de parâmetros do modelo. Essas arquiteturas quânticas podem ser construídas usando circuitos quânticos superficiais e produzir modelos de classificação qualitativamente diferentes. As três camadas de atenção quântica propostas variam no espectro entre seguir de perto os transformadores clássicos e exibir mais características quânticas. Como blocos de construção do transformador quântico, propomos um novo método para carregar uma matriz como estados quânticos, bem como duas novas camadas ortogonais quânticas treináveis, adaptáveis ​​a diferentes níveis de conectividade e qualidade de computadores quânticos. Realizamos extensas simulações dos transformadores quânticos em conjuntos de dados de imagens médicas padrão que mostraram desempenho competitivo e, às vezes, melhor em comparação com os benchmarks clássicos, incluindo os melhores transformadores de visão clássicos da categoria. Os transformadores quânticos que treinamos nesses conjuntos de dados de pequena escala exigem menos parâmetros em comparação com os benchmarks clássicos padrão. Finalmente, implementamos nossos transformadores quânticos em computadores quânticos supercondutores e obtivemos resultados encorajadores para até seis experimentos de qubit.

Neste estudo, exploramos o potencial da computação quântica para aprimorar arquiteturas de redes neurais, com foco em transformadores, conhecidos por sua eficácia em tarefas como processamento de linguagem e análise de imagens. Apresentamos três tipos de transformadores quânticos, aproveitando circuitos quânticos parametrizados e camadas neurais ortogonais. Esses transformadores quânticos, sob algumas suposições (por exemplo, conectividade de hardware), poderiam teoricamente fornecer vantagens sobre os equivalentes clássicos em termos de tempo de execução e parâmetros do modelo. Para criar esses circuitos quânticos, apresentamos um novo método para carregar matrizes como estados quânticos e introduzimos duas camadas ortogonais quânticas treináveis, adaptáveis ​​a diferentes capacidades do computador quântico. Eles exigem circuitos quânticos superficiais e podem ajudar a criar modelos de classificação com características únicas. Simulações extensas em conjuntos de dados de imagens médicas demonstram desempenho competitivo em comparação com benchmarks clássicos, mesmo com menos parâmetros. Além disso, experimentos em computadores quânticos supercondutores produzem resultados promissores.

► dados BibTeX

► Referências

[1] Jacob Biamonte, Peter Wittek, Nicola Pancotti, Patrick Rebentrost, Nathan Wiebe e Seth Lloyd. “Aprendizado de máquina quântica”. Natureza 549, 195–202 (2017).
https: / / doi.org/ 10.1038 / nature23474

[2] Iris Cong, Soonwon Choi e Mikhail D Lukin. “Redes neurais convolucionais quânticas”. Nature Physics 15, 1273–1278 (2019).
https:/​/​doi.org/​10.1038/​s41567-019-0648-8

[3] Kishor Bharti, Alba Cervera-Lierta, Thi Ha Kyaw, Tobias Haug, Sumner Alperin-Lea, Abhinav Anand, Matthias Degroote, Hermanni Heimonen, Jakob S Kottmann, Tim Menke, et al. “Algoritmos quânticos ruidosos de escala intermediária”. Resenhas de Física Moderna 94, 015004 (2022).
https: / / doi.org/ 10.1103 / RevModPhys.94.015004

[4] Marco Cerezo, Andrew Arrasmith, Ryan Babbush, Simon C Benjamin, Suguru Endo, Keisuke Fujii, Jarrod R McClean, Kosuke Mitarai, Xiao Yuan, Lukasz Cincio, et al. “Algoritmos quânticos variacionais”. Nature Reviews Physics 3, 625–644 (2021).
https:/​/​doi.org/​10.1038/​s42254-021-00348-9

[5] Jonas Landman, Natansh Mathur, Yun Yvonna Li, Martin Strahm, Skander Kazdaghli, Anupam Prakash e Iordanis Kerenidis. “Métodos quânticos para redes neurais e aplicação à classificação de imagens médicas”. Quântico 6, 881 (2022).
https:/​/​doi.org/​10.22331/​q-2022-12-22-881

[6] Bobak Kiani, Randall Balestriero, Yann LeCun e Seth Lloyd. “projunn: Método eficiente para treinamento de redes profundas com matrizes unitárias”. Avanços em Sistemas de Processamento de Informação Neural 35, 14448–14463 (2022).

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin. “Atenção é tudo que você precisa”. Avanços em sistemas de processamento de informações neurais 30 (2017).

[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova. “Bert: Pré-treinamento de transformadores bidirecionais profundos para compreensão de linguagem” (2018).

[9] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit e Neil Houlsby. “Uma imagem vale 16×16 palavras: Transformadores para reconhecimento de imagens em escala”. Conferência Internacional sobre Representações de Aprendizagem (2021). url: openreview.net/​forum?id=YicbFdNTTy.
https://​/​openreview.net/​forum?id=YicbFdNTTy

[10] Yi Tay, Mostafa Dehghani, Dara Bahri e Donald Metzler. “Transformadores eficientes: uma pesquisa”. Pesquisas de Computação ACM (CSUR) (2020).
https: / / doi.org/ 10.1145 / 3530811

[11] Dzmitry Bahdanau, Kyunghyun Cho e Yoshua Bengio. “Tradução automática neural por aprendizagem conjunta para alinhar e traduzir” (2016). arXiv:1409.0473 [cs, estatística].
arXiv: 1409.0473

[12] J. Schmidhuber. “Reduzindo a relação entre complexidade de aprendizagem e número de variáveis ​​que variam no tempo em redes totalmente recorrentes”. Em Stan Gielen e Bert Kappen, editores, ICANN '93. Páginas 460–463. Londres (1993). Springer.
https:/​/​doi.org/​10.1007/​978-1-4471-2063-6_110

[13] Jurgen Schmidhuber. “Aprendendo a controlar memórias de peso rápido: uma alternativa para redes dinâmicas recorrentes”. Computação Neural 4, 131–139 (1992).
https://​/​doi.org/​10.1162/​neco.1992.4.1.131

[14] Peter Cha, Paul Ginsparg, Felix Wu, Juan Carrasquilla, Peter L McMahon e Eun-Ah Kim. “Tomografia quântica baseada na atenção”. Aprendizado de Máquina: Ciência e Tecnologia 3, 01LT01 (2021).
https://​/​doi.org/​10.1088/​2632-2153/​ac362b

[15] Riccardo Di Sipio, Jia-Hong Huang, Samuel Yen-Chi Chen, Stefano Mangini e Marcel Worring. “O alvorecer do processamento quântico de linguagem natural”. Na ICASSP 2022-2022 Conferência Internacional IEEE sobre Acústica, Fala e Processamento de Sinais (ICASSP). Páginas 8612–8616. IEEE (2022).
https://​/​doi.org/​10.1109/​ICASSP43922.2022.9747675

[16] Guangxi Li, Xuanqiang Zhao e Xin Wang. “Redes neurais quânticas de autoatenção para classificação de texto” (2022).

[17] Fabio Sanches, Sean Weinberg, Takanori Ide e Kazumitsu Kamiya. “Circuitos quânticos curtos em políticas de aprendizagem por reforço para o problema de roteamento de veículos”. Revisão Física A 105, 062403 (2022).
https: / / doi.org/ 10.1103 / PhysRevA.105.062403

[18] Yuan Fu Yang e Min Sun. “Detecção de defeitos em semicondutores por aprendizado profundo híbrido clássico-quântico”. CVRP páginas 2313–2322 (2022).
https://​/​doi.org/​10.1109/​CVPR52688.2022.00236

[19] Maxwell Henderson, Samriddhi Shakya, Shashindra Pradhan e Tristan Cook. “Redes neurais quanvolucionais: potencializando o reconhecimento de imagens com circuitos quânticos”. Inteligência de Máquina Quântica 2, 1–9 (2020).
https: / / doi.org/ 10.1007 / s42484-020-00012-y

[20] Edward Farhi e Hartmut Neven. “Classificação com redes neurais quânticas em processadores de curto prazo” (2018). URL: doi.org/​10.48550/​arXiv.1802.06002.
https://​/​doi.org/​10.48550/​arXiv.1802.06002

[21] Kosuke Mitarai, Makoto Negoro, Masahiro Kitagawa e Keisuke Fujii. “Aprendizado de circuitos quânticos”. Physical Review A 98, 032309 (2018).
https: / / doi.org/ 10.1103 / PhysRevA.98.032309

[22] Kui Jia, Shuai Li, Yuxin Wen, Tongliang Liu e Dacheng Tao. “Redes neurais profundas ortogonais”. Transações IEEE em análise de padrões e inteligência de máquina (2019).
https: / / doi.org/ 10.1109 / TPAMI.2019.2948352

[23] Roger A Horn e Charles R Johnson. “Análise matricial”. Cambridge University Press. (2012).
https: / / doi.org/ 10.1017 / CBO9780511810817

[24] Iordanis Kerenidis e Anupam Prakash. “Aprendizado de máquina quântica com estados subespaciais” (2022).

[25] Brooks Foxen, Charles Neill, Andrew Dunsworth, Pedram Roushan, Ben Chiaro, Anthony Megrant, Julian Kelly, Zijun Chen, Kevin Satzinger, Rami Barends, e outros. “Demonstrando um conjunto contínuo de portas de dois qubits para algoritmos quânticos de curto prazo”. Cartas de Revisão Física 125, 120504 (2020).
https: / / doi.org/ 10.1103 / PhysRevLett.125.120504

[26] Sonika Johri, Shantanu Debnath, Avinash Mocherla, Alexandros Singk, Anupam Prakash, Jungsang Kim e Iordanis Kerenidis. “Classificação do centróide mais próximo em um computador quântico de íons aprisionados”. npj Informação Quântica 7, 122 (2021).
https:/​/​doi.org/​10.1038/​s41534-021-00456-5

[27] James W Cooley e John W Tukey. “Um algoritmo para o cálculo automático de séries complexas de Fourier”. Matemática da computação 19, 297–301 (1965).
https:/​/​doi.org/​10.1090/​S0025-5718-1965-0178586-1

[28] Li Jing, Yichen Shen, Tena Dubcek, John Peurifoy, Scott A. Skirlo, Yann LeCun, Max Tegmark e Marin Soljacic. “Redes neurais unitárias eficientes sintonizáveis ​​(eunn) e sua aplicação a rnns”. Na Conferência Internacional sobre Aprendizado de Máquina. (2016). URL: api.semanticscholar.org/​CorpusID:5287947.
https://​/​api.semanticscholar.org/​CorpusID:5287947

[29] Léo Monbroussou, Jonas Landman, Alex B. Grilo, Romain Kukla e Elham Kashefi. “Treinabilidade e expressividade de circuitos quânticos com preservação de peso de Hamming para aprendizado de máquina” (2023). arXiv:2309.15547.
arXiv: 2309.15547

[30] Enrico Fontana, Dylan Herman, Shouvanik Chakrabarti, Niraj Kumar, Romina Yalovetzky, Jamie Heredge, Shree Hari Sureshbabu e Marco Pistoia. “O adjunto é tudo que você precisa: Caracterizando platôs estéreis em pesquisa quântica” (2023). arXiv:2309.07902.
arXiv: 2309.07902

[31] Michael Ragone, Bojko N. Bakalov, Frédéric Sauvage, Alexander F. Kemper, Carlos Ortiz Marrero, Martin Larocca e M. Cerezo. “Uma teoria unificada de platôs áridos para circuitos quânticos parametrizados profundos” (2023). arXiv:2309.09342.
arXiv: 2309.09342

[32] Xuchen Você e Xiaodi Wu. “Exponencialmente muitos mínimos locais em redes neurais quânticas”. Na Conferência Internacional sobre Aprendizado de Máquina. Páginas 12144–12155. PMLR (2021).

[33] Eric R. Anschuetz e Bobak Toussi Kiani. “Algoritmos variacionais quânticos estão inundados de armadilhas”. Comunicações da Natureza 13 (2022).
https:/​/​doi.org/​10.1038/​s41467-022-35364-5

[34] Ilya O. Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic e Alexey Dosovitskiy. “Mlp-mixer: Uma arquitetura totalmente mlp para visão”. Em NeurIPS. (2021).

[35] Jiancheng Yang, Rui Shi e Bingbing Ni. “Decatlo de classificação medmnista: um benchmark automl leve para análise de imagens médicas” (2020).
https://​/​doi.org/​10.1109/​ISBI48211.2021.9434062

[36] Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister e Bingbing Ni. “Medmnist v2 - um benchmark leve em grande escala para classificação de imagens biomédicas 2D e 3D”. Dados Científicos 10, 41 (2023).
https:/​/​doi.org/​10.1038/​s41597-022-01721-8

[37] Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas e François Fleuret. “Transformadores são rnns: Transformadores autorregressivos rápidos com atenção linear”. Na Conferência Internacional sobre Aprendizado de Máquina. Páginas 5156–5165. PMLR (2020).

[38] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne e Qiao Zhang. “JAX: transformações combináveis ​​de programas Python+NumPy”. GitHub (2018). url: http://​/​github.com/​google/​jax.
http://​/​github.com/​google/​jax

[39] Diederik P. Kingma e Jimmy Ba. “Adam: Um método para otimização estocástica”. CoRR abs/​1412.6980 (2015).

[40] Hyeonwoo Noh, Tackgeun You, Jonghwan Mun e Bohyung Han. “Regularizando redes neurais profundas por ruído: sua interpretação e otimização”. NeuroIPS (2017).

[41] Xue Ying. “Uma visão geral do overfitting e suas soluções”. No Journal of Physics: Série de Conferências. Volume 1168, página 022022. Publicação IOP (2019).
https:/​/​doi.org/​10.1088/​1742-6596/​1168/​2/​022022

Citado por

[1] David Peral García, Juan Cruz-Benito e Francisco José García-Peñalvo, “Revisão Sistemática da Literatura: Aprendizado de Máquina Quântica e suas aplicações”, arXiv: 2201.04093, (2022).

[2] El Amine Cherrat, Snehal Raj, Iordanis Kerenidis, Abhishek Shekhar, Ben Wood, Jon Dee, Shouvanik Chakrabarti, Richard Chen, Dylan Herman, Shaohan Hu, Pierre Minssen, Ruslan Shaydulin, Yue Sun, Romina Yalovetzky e Marco Pistoia, “Hedge Quântico Profundo”, Quântico 7, 1191 (2023).

[3] Léo Monbroussou, Jonas Landman, Alex B. Grilo, Romain Kukla e Elham Kashefi, “Trainabilidade e expressividade de circuitos quânticos com preservação de peso de Hamming para aprendizado de máquina”, arXiv: 2309.15547, (2023).

[4] Sohum Thakkar, Skander Kazdaghli, Natansh Mathur, Iordanis Kerenidis, André J. Ferreira-Martins e Samurai Brito, “Melhoria da previsão financeira via Quantum Machine Learning”, arXiv: 2306.12965, (2023).

[5] Jason Iaconis e Sonika Johri, “Carregamento eficiente de imagens quânticas baseado em rede tensor”, arXiv: 2310.05897, (2023).

[6] Nishant Jain, Jonas Landman, Natansh Mathur e Iordanis Kerenidis, “Redes Quânticas de Fourier para Resolver PDEs Paramétricos”, arXiv: 2306.15415, (2023).

[7] Daniel Mastropietro, Georgios Korpas, Vyacheslav Kungurtsev e Jakub Marecek, “Fleming-Viot ajuda a acelerar algoritmos quânticos variacionais na presença de platôs estéreis”, arXiv: 2311.18090, (2023).

[8] Aliza U. Siddiqui, Kaitlin Gili e Chris Ballance, “Estressando o hardware quântico moderno: avaliação de desempenho e insights de execução”, arXiv: 2401.13793, (2024).

As citações acima são de SAO / NASA ADS (última atualização com êxito 2024-02-22 13:37:43). A lista pode estar incompleta, pois nem todos os editores fornecem dados de citação adequados e completos.

Não foi possível buscar Dados citados por referência cruzada durante a última tentativa 2024-02-22 13:37:41: Não foi possível buscar os dados citados por 10.22331 / q-2024-02-22-1265 do Crossref. Isso é normal se o DOI foi registrado recentemente.

local_img

Inteligência mais recente

local_img