# InternVL2 시리즈 평가 다양한 작업에 걸쳐 InternVL2 시리즈의 성능을 평가하려면 각 특정 데이터 세트에 대한 지침을 따르십시오. 지정된 대로 적절한 수의 GPU가 할당되었는지 확인하십시오. > 1⃣️ 모델 평가를 위해 InternVL 및 VLMEvalKit 저장소를 동시에 사용합니다. 특히 DocVQA, ChartQA, InfoVQA, TextVQA, MME, AI2D, MMBench, CCBench, MMVet 및 SEED-Image에 대해 보고된 결과는 InternVL 저장소를 사용하여 테스트되었습니다. OCRBench, RealWorldQA, HallBench 및 MathVista는 VLMEvalKit을 사용하여 평가되었습니다. > 2⃣️ InternVL 및 VLMEvalKit과 같은 서로 다른 테스트 툴킷을 사용하여 동일한 모델을 평가하면 약간의 차이가 발생할 수 있으며 이는 정상입니다. 코드 버전 업데이트 및 환경과 하드웨어의 변화 또한 결과에 약간의 차이를 유발할 수 있습니다. > 3⃣️️ 참고, 데이터 세트 설명은 GPT-4에 의해 생성되었으며 오류가 포함될 수 있습니다. ## 모델 준비 | 모델 이름 | 유형 | 파라미터 | 다운로드 | 크기 | | -------------------- | ---- | ----- | ------------------------------------------------------------------- | :----: | | InternVL2-1B | MLLM | 0.9B | 🤗 [HF 링크](https://huggingface.co/OpenGVLab/InternVL2-1B) | 1.8 GB | | InternVL2-2B | MLLM | 2.2B | 🤗 [HF 링크](https://huggingface.co/OpenGVLab/InternVL2-2B) | 4.2 GB | | InternVL2-4B | MLLM | 4.2B | 🤗 [HF 링크](https://huggingface.co/OpenGVLab/InternVL2-4B) | 7.8 GB | | InternVL2-8B | MLLM | 8.1B | 🤗 [HF 링크](https://huggingface.co/OpenGVLab/InternVL2-8B) | 16 GB | | InternVL2-26B | MLLM | 25.5B | 🤗 [HF 링크](https://huggingface.co/OpenGVLab/InternVL2-26B) | 48 GB | | InternVL2-40B | MLLM | 40.1B | 🤗 [HF 링크](https://huggingface.co/OpenGVLab/InternVL2-40B) | 75 GB | | InternVL2-Llama3-76B | MLLM | 76.3B | 🤗 [HF 링크](https://huggingface.co/OpenGVLab/InternVL2-Llama3-76B) | 143 GB | 평가하기 전에 제공된 학습된 모델을 다운로드하십시오. ```sh cd pretrained/ # pip install -U huggingface_hub # OpenGVLab/InternVL2-1B 다운로드 huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-1B --local-dir InternVL2-1B # OpenGVLab/InternVL2-2B 다운로드 huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-2B --local-dir InternVL2-2B # OpenGVLab/InternVL2-4B 다운로드 huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-4B --local-dir InternVL2-4B # OpenGVLab/InternVL2-8B 다운로드 huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-8B --local-dir InternVL2-8B # OpenGVLab/InternVL2-26B 다운로드 huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-26B --local-dir InternVL2-26B # OpenGVLab/InternVL2-40B 다운로드 huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-40B --local-dir InternVL2-40B # OpenGVLab/InternVL2-Llama3-76B 다운로드 huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-Llama3-76B --local-dir InternVL2-Llama3-76B ``` 디렉토리 구조는 다음과 같습니다. ```sh pretrained ├── InternVL2-1B ├── InternVL2-2B ├── InternVL2-4B ├── InternVL2-8B ├── InternVL2-26B ├── InternVL2-40B └── InternVL2-Llama3-76B ``` ## InternVL 코드베이스를 사용한 평가 ### 데이터 준비 [여기에 제공된 지침](../get_started/eval_data_preparation.md)에 따라 평가 데이터를 준비하십시오. ### MME MME는 다중 모드 대규모 언어 모델(MLLM)을 평가하기 위해 설계된 포괄적인 벤치마크로, 14개의 서로 다른 하위 작업에 걸쳐 인식 및 인지 능력을 모두 평가하여 이러한 모델에 대한 강력하고 다양한 테스트를 보장합니다. `````{tabs} ````{tab} 1B 1개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=1 sh evaluate.sh pretrained/InternVL2-1B mme --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` =========== 인식 =========== 총점: 1346.1990796318528 존재 점수: 175.0 개수 점수: 113.33333333333334 위치 점수: 135.0 색상 점수: 138.33333333333331 포스터 점수: 116.32653061224491 유명인 점수: 144.70588235294116 장면 점수: 143.25 랜드마크 점수: 128.5 예술작품 점수: 141.75 OCR 점수: 110.0 =========== 인지 =========== 총점: 448.2142857142857 상식적 추론 점수: 95.71428571428571 수치 계산 점수: 57.5 텍스트 번역 점수: 177.5 코드 추론 점수: 117.5 ``` ```` ````{tab} 2B 1개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=1 sh evaluate.sh pretrained/InternVL2-2B mme --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` =========== 인식 =========== 총점: 1439.6688675470189 존재 점수: 200.0 개수 점수: 128.33333333333334 위치 점수: 145.0 색상 점수: 163.33333333333334 포스터 점수: 131.97278911564626 유명인 점수: 118.52941176470588 장면 점수: 157.0 랜드마크 점수: 154.0 예술작품 점수: 146.5 OCR 점수: 95.0 =========== 인지 =========== 총점: 437.1428571428571 상식적 추론 점수: 112.14285714285714 수치 계산 점수: 45.0 텍스트 번역 점수: 177.5 코드 추론 점수: 102.5 ``` ```` ````{tab} 4B 1개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=1 sh evaluate.sh pretrained/InternVL2-4B mme --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` =========== 인식 =========== 총점: 1532.31662665066 존재 점수: 200.0 개수 점수: 123.33333333333333 위치 점수: 148.33333333333331 색상 점수: 165.0 포스터 점수: 155.78231292517006 유명인 점수: 124.11764705882354 장면 점수: 158.75 랜드마크 점수: 165.0 예술작품 점수: 144.5 OCR 점수: 147.5 =========== 인지 =========== 총점: 531.7857142857142 상식적 추론 점수: 129.28571428571428 수치 계산 점수: 115.0 텍스트 번역 점수: 170.0 코드 추론 점수: 117.5 ``` ```` ````{tab} 8B 1개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=1 sh evaluate.sh pretrained/InternVL2-8B mme --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` =========== 인식 =========== 총점: 1648.1331532613044 존재 점수: 190.0 개수 점수: 158.33333333333331 위치 점수: 163.33333333333334 색상 점수: 175.0 포스터 점수: 167.68707482993196 유명인 점수: 148.52941176470586 장면 점수: 152.5 랜드마크 점수: 176.5 예술작품 점수: 153.75 OCR 점수: 162.5 =========== 인지 =========== 총점: 562.1428571428571 상식적 추론 점수: 147.14285714285714 수치 계산 점수: 87.5 텍스트 번역 점수: 192.5 코드 추론 점수: 135.0 ``` ```` ````{tab} 26B 1개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=1 sh evaluate.sh pretrained/InternVL2-26B mme --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` =========== 인식 =========== 총점: 1720.0325130052022 존재 점수: 195.0 개수 점수: 170.0 위치 점수: 176.66666666666669 색상 점수: 168.33333333333331 포스터 점수: 176.87074829931973 유명인 점수: 159.41176470588235 장면 점수: 154.0 랜드마크 점수: 179.5 예술작품 점수: 162.75 OCR 점수: 177.5 =========== 인지 =========== 총점: 540.7142857142858 상식적 추론 점수: 145.71428571428572 수치 계산 점수: 95.0 텍스트 번역 점수: 185.0 코드 추론 점수: 115.0 ``` ```` ````{tab} 40B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-40B mme --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` =========== 인식 =========== 총점: 1715.390456182473 존재 점수: 185.0 개수 점수: 175.0 위치 점수: 158.33333333333331 색상 점수: 188.33333333333331 포스터 점수: 187.41496598639458 유명인 점수: 162.05882352941177 장면 점수: 152.5 랜드마크 점수: 180.25 예술작품 점수: 171.5 OCR 점수: 155.0 =========== 인지 =========== 총점: 599.6428571428571 상식적 추론 점수: 152.14285714285714 수치 계산 점수: 125.0 텍스트 번역 점수: 177.5 코드 추론 점수: 145.0 ``` ```` ````{tab} 76B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-Llama3-76B mme --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` =========== 인식 =========== 총점: 1731.095538215286 존재 점수: 200.0 개수 점수: 175.0 위치 점수: 168.33333333333331 색상 점수: 185.0 포스터 점수: 186.39455782312925 유명인 점수: 169.11764705882354 장면 점수: 152.0 랜드마크 점수: 182.0 예술작품 점수: 173.25 OCR 점수: 140.0 =========== 인지 =========== 총점: 683.5714285714286 상식적 추론 점수: 158.57142857142856 수치 계산 점수: 185.0 텍스트 번역 점수: 177.5 코드 추론 점수: 162.5 ``` ```` ````` ### OKVQA OKVQA (Outside Knowledge Visual Question Answering)는 이미지에 보이는 것 이상의 외부 지식을 요구하는 시각적 질문 답변 작업을 위해 설계된 데이터 세트로, AI 모델의 추론 능력을 평가하기 위한 14,000개 이상의 질문을 제공합니다. `````{tabs} ````{tab} 1B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-1B vqa-okvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` okvqa_val 0.48513674197383483 ``` ```` ````{tab} 2B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-2B vqa-okvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` okvqa_val 0.5316290130796605 ``` ```` ````{tab} 4B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-4B vqa-okvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` okvqa_val 0.6007530717399846 ``` ```` ````{tab} 8B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-8B vqa-okvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` okvqa_val 0.6289734443123187 ``` ```` ````{tab} 26B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-26B vqa-okvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` okvqa_val 0.6594530321046287 ``` ```` ````{tab} 40B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-40B vqa-okvqa-val --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` okvqa_val 0.664288545382473 ``` ```` ````{tab} 76B 8개의 GPU로 테스트를 수행하려면 다음 명령을 사용하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-Llama3-76B vqa-okvqa-val --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` okvqa_val 0.683432421720166 ``` ```` ````` ### TextVQA TextVQA는 이미지 내에 존재하는 텍스트를 읽고 추론해야 하는 시각적 질문 답변 모델을 평가하기 위해 설계된 데이터 세트로, OpenImages 데이터 세트에서 가져온 28,408개의 이미지에 대한 45,336개의 질문을 포함합니다. TextVQA 데이터 세트는 공식 OCR 결과, 특히 Rosetta OCR 토큰을 제공합니다. InstructBLIP 및 LLaVA 1.5로 테스트할 때 OCR 결과는 LLM에 프롬프트로 입력됩니다. Rosetta OCR 토큰을 입력하려면 다음 명령을 사용하십시오. `````{tabs} ````{tab} 1B Rosetta OCR 토큰을 사용하지 않으려면 이 명령을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-1B vqa-textvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` textvqa_val 0.7052400000000033 ``` ```` ````{tab} 2B Rosetta OCR 토큰을 사용하지 않으려면 이 명령을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-2B vqa-textvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` textvqa_val 0.7335600000000035 ``` ```` ````{tab} 4B Rosetta OCR 토큰을 사용하지 않으려면 이 명령을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-4B vqa-textvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` textvqa_val 0.7437000000000039 ``` ```` ````{tab} 8B Rosetta OCR 토큰을 사용하지 않으려면 이 명령을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-8B vqa-textvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` textvqa_val 0.773740000000004 ``` ```` ````{tab} 26B Rosetta OCR 토큰을 사용하지 않으려면 이 명령을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-26B vqa-textvqa-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` textvqa_val 0.8228200000000048 ``` ```` ````{tab} 40B Rosetta OCR 토큰을 사용하지 않으려면 이 명령을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-40B vqa-textvqa-val --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` textvqa_val 0.8301600000000046 ``` ```` ````{tab} 76B Rosetta OCR 토큰을 사용하지 않으려면 이 명령을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-Llama3-76B vqa-textvqa-val --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` textvqa_val 0.844100000000004 ``` ```` ````` ### VizWiz VizWiz VQA 데이터 세트는 시각 장애인이 제기한 시각적 질문에 답하는 데 도움이 되도록 만들어진 시각적 질문 답변 데이터 세트입니다. 사용자가 휴대폰을 사용하여 사진을 찍고 그것에 대한 음성 질문을 녹음한 31,000개 이상의 시각적 질문을 포함합니다. 각 질문에는 10개의 크라우드 소싱 답변이 제공됩니다. 이 데이터 세트는 시각적 질문에 대한 답변을 예측하고 시각적 질문에 답할 수 있는지 여부를 결정하는 등의 작업을 다룹니다. `````{tabs} ````{tab} 1B 유효성 검사 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-1B vqa-vizwiz-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` vizwiz_val 0.5306783977772626 ``` 테스트 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-1B vqa-vizwiz-test --dynamic ``` 테스트 세트의 경우 결과를 [평가 서버](https://eval.ai/web/challenges/challenge-page/2185/overview)에 제출하십시오. ```` ````{tab} 2B 유효성 검사 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-2B vqa-vizwiz-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` vizwiz_val 0.47376707571196724 ``` 테스트 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-2B vqa-vizwiz-test --dynamic ``` 테스트 세트의 경우 결과를 [평가 서버](https://eval.ai/web/challenges/challenge-page/2185/overview)에 제출하십시오. ```` ````{tab} 4B 유효성 검사 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-4B vqa-vizwiz-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` vizwiz_val 0.622088446399631 ``` 테스트 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-4B vqa-vizwiz-test --dynamic ``` 테스트 세트의 경우 결과를 [평가 서버](https://eval.ai/web/challenges/challenge-page/2185/overview)에 제출하십시오. ```` ````{tab} 8B 유효성 검사 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-8B vqa-vizwiz-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` vizwiz_val 0.6290808057420708 ``` 테스트 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-8B vqa-vizwiz-test --dynamic ``` 테스트 세트의 경우 결과를 [평가 서버](https://eval.ai/web/challenges/challenge-page/2185/overview)에 제출하십시오. ```` ````{tab} 26B 유효성 검사 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-26B vqa-vizwiz-val --dynamic ``` 예상되는 테스트 결과는 다음과 같습니다. ``` vizwiz_val 0.6839083121092873 ``` 테스트 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-26B vqa-vizwiz-test --dynamic ``` 테스트 세트의 경우 결과를 [평가 서버](https://eval.ai/web/challenges/challenge-page/2185/overview)에 제출하십시오. ```` ````{tab} 40B 유효성 검사 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-40B vqa-vizwiz-val --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` vizwiz_val 0.6521880064829846 ``` 테스트 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-40B vqa-vizwiz-test --dynamic --auto ``` 테스트 세트의 경우 결과를 [평가 서버](https://eval.ai/web/challenges/challenge-page/2185/overview)에 제출하십시오. ```` ````{tab} 76B 유효성 검사 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-Llama3-76B vqa-vizwiz-val --dynamic --auto ``` 예상되는 테스트 결과는 다음과 같습니다. ``` vizwiz_val 0.6767075711970381 ``` 테스트 세트의 경우 다음을 실행하십시오. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-Llama3-76B vqa-vizwiz-test --dynamic --auto ``` 테스트 세트의 경우 결과를 [평가 서버](https://eval.ai/web/challenges/challenge-page/2185/overview)에 제출하십시오. ```` ````` ### ChartQA ChartQA 데이터 세트는 차트에 대한 질문에 답변하기 위한 포괄적인 벤치마크로, 시각적 및 논리적 추론을 모두 포함합니다. 9.6K개의 사람이 작성한 질문과 차트 요약에서 파생된 23.1K개의 기계 생성 질문이 혼합되어 있습니다. 이 데이터 세트는 복잡한 질문에 답변하기 위해 차트를 이해하고 분석할 수 있는 모델을 평가하기 위해 설계되었으며, 종종 여러 논리적 및 산술 연산과 차트의 시각적 특징을 참조해야 합니다. `````{tabs} ````{tab} 1B ChartQA 데이터 세트에는 `chartqa_test_human` 및 `chartqa_test_augmented`의 두 가지 테스트 세트가 있습니다. 모델 평가를 위한 최종 점수는 이 두 테스트 세트의 점수 평균으로 계산됩니다. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-1B vqa-chartqa-test --dynamic --max-num 12 ``` 예상되는 테스트 결과는 다음과 같습니다. ``` ['chartqa_test_human', {'relaxed_accuracy': 0.5392}] ['chartqa_test_augmented', {'relaxed_accuracy': 0.9184}] result = (53.92 + 91.84) / 2 = 72.88 ``` ```` ````{tab} 2B ChartQA 데이터 세트에는 `chartqa_test_human` 및 `chartqa_test_augmented`의 두 가지 테스트 세트가 있습니다. 모델 평가를 위한 최종 점수는 이 두 테스트 세트의 점수 평균으로 계산됩니다. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-2B vqa-chartqa-test --dynamic --max-num 12 ``` 예상되는 테스트 결과는 다음과 같습니다. ``` ['chartqa_test_human', {'relaxed_accuracy': 0.5952}] ['chartqa_test_augmented', {'relaxed_accuracy': 0.9296}] result = (59.52 + 92.96) / 2 = 76.24 ``` ```` ````{tab} 4B ChartQA 데이터 세트에는 `chartqa_test_human` 및 `chartqa_test_augmented`의 두 가지 테스트 세트가 있습니다. 모델 평가를 위한 최종 점수는 이 두 테스트 세트의 점수 평균으로 계산됩니다. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-4B vqa-chartqa-test --dynamic --max-num 12 ``` 예상되는 테스트 결과는 다음과 같습니다. ``` ['chartqa_test_human', {'relaxed_accuracy': 0.6992}] ['chartqa_test_augmented', {'relaxed_accuracy': 0.9304}] result = (69.92 + 93.04) / 2 = 81.48 ``` ```` ````{tab} 8B ChartQA 데이터 세트에는 `chartqa_test_human` 및 `chartqa_test_augmented`의 두 가지 테스트 세트가 있습니다. 모델 평가를 위한 최종 점수는 이 두 테스트 세트의 점수 평균으로 계산됩니다. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-8B vqa-chartqa-test --dynamic --max-num 12 ``` 예상되는 테스트 결과는 다음과 같습니다. ``` ['chartqa_test_human', {'relaxed_accuracy': 0.7288}] ['chartqa_test_augmented', {'relaxed_accuracy': 0.9368}] result = (72.88 + 93.68) / 2 = 83.28 ``` ```` ````{tab} 26B ChartQA 데이터 세트에는 `chartqa_test_human` 및 `chartqa_test_augmented`의 두 가지 테스트 세트가 있습니다. 모델 평가를 위한 최종 점수는 이 두 테스트 세트의 점수 평균으로 계산됩니다. ```bash GPUS=8 sh evaluate.sh pretrained/InternVL2-26B vqa-chartqa-test --dynamic --max-num 12 ``` 예상되는 테스트 결과는 다음과 같습니다. ``` ['chartqa_test_human', {'relaxed_accuracy': 0.7528}] ['chartqa_test_augmented', {'relaxed_accuracy': 0.9448}] result = (75.28 + 94.48) / 2 = 84.88 ``` ```` ````{tab} 40B ChartQA 데이터 세트에는 `chartqa_test_