Skip to content

For updates follow @pommedeterre33 on Twitter

transformer-deploy by Lefebvre Dalloz

QDQAlbert

Initializing search

ELS-RD/transformer-deploy/

transformer-deploy by Lefebvre Dalloz

ELS-RD/transformer-deploy/

Getting started
Installation (local or Docker only)
Run (1 command)
Which tool to choose for your inference?
How ONNX conversion works?
Understanding model optimization
Direct use TensorRT in Python script (no server)
GPU quantization for X2 speed-up
GPU quantization for X2 speed-up
From optimization to deployment: end to end demo
Accelerate text generation with GPT-2
Accelerate text generation with T5
Benchmarks run on AWS GPU instances
FAQ
API
API
- Convert
- QDQModels
  QDQModels
  - QDQAlbert QDQAlbert
    Table of contents
    
    src.transformer_deploy.QDQModels.QDQAlbert
  - QDQBert
  - QDQDeberta
  - QDQDistilbert
  - QDQElectra
  - QDQRoberta
  - Ast operator patch
  - Ast utils
  - Calibration utils
  - Patch
- Backends
  Backends
- Benchmarks
  Benchmarks
  - Utils
- Triton
  Triton
- Utils
  Utils

Table of contents

src.transformer_deploy.QDQModels.QDQAlbert

QDQAlbert

This module add quantization support to all Albert architecture based models.

Previous Convert

Copyright © 2020 - 2021 Lefebvre Dalloz