InternVL2 시리즈 평가

다양한 작업에 걸쳐 InternVL2 시리즈의 성능을 평가하려면 각 특정 데이터 세트에 대한 지침을 따르십시오. 지정된 대로 적절한 수의 GPU가 할당되었는지 확인하십시오.

1⃣️ 모델 평가를 위해 InternVL 및 VLMEvalKit 저장소를 동시에 사용합니다. 특히 DocVQA, ChartQA, InfoVQA, TextVQA, MME, AI2D, MMBench, CCBench, MMVet 및 SEED-Image에 대해 보고된 결과는 InternVL 저장소를 사용하여 테스트되었습니다. OCRBench, RealWorldQA, HallBench 및 MathVista는 VLMEvalKit을 사용하여 평가되었습니다.

2⃣️ InternVL 및 VLMEvalKit과 같은 서로 다른 테스트 툴킷을 사용하여 동일한 모델을 평가하면 약간의 차이가 발생할 수 있으며 이는 정상입니다. 코드 버전 업데이트 및 환경과 하드웨어의 변화 또한 결과에 약간의 차이를 유발할 수 있습니다.

3⃣️️ 참고, 데이터 세트 설명은 GPT-4에 의해 생성되었으며 오류가 포함될 수 있습니다.

모델 준비

모델 이름	유형	파라미터	다운로드	크기
InternVL2-1B	MLLM	0.9B	🤗 HF 링크	1.8 GB
InternVL2-2B	MLLM	2.2B	🤗 HF 링크	4.2 GB
InternVL2-4B	MLLM	4.2B	🤗 HF 링크	7.8 GB
InternVL2-8B	MLLM	8.1B	🤗 HF 링크	16 GB
InternVL2-26B	MLLM	25.5B	🤗 HF 링크	48 GB
InternVL2-40B	MLLM	40.1B	🤗 HF 링크	75 GB
InternVL2-Llama3-76B	MLLM	76.3B	🤗 HF 링크	143 GB

평가하기 전에 제공된 학습된 모델을 다운로드하십시오.

cd pretrained/
# pip install -U huggingface_hub
# OpenGVLab/InternVL2-1B 다운로드
huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-1B --local-dir InternVL2-1B
# OpenGVLab/InternVL2-2B 다운로드
huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-2B --local-dir InternVL2-2B
# OpenGVLab/InternVL2-4B 다운로드
huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-4B --local-dir InternVL2-4B
# OpenGVLab/InternVL2-8B 다운로드
huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-8B --local-dir InternVL2-8B
# OpenGVLab/InternVL2-26B 다운로드
huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-26B --local-dir InternVL2-26B
# OpenGVLab/InternVL2-40B 다운로드
huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-40B --local-dir InternVL2-40B
# OpenGVLab/InternVL2-Llama3-76B 다운로드
huggingface-cli download --resume-download --local-dir-use-symlinks False OpenGVLab/InternVL2-Llama3-76B --local-dir InternVL2-Llama3-76B

디렉토리 구조는 다음과 같습니다.

pretrained
├── InternVL2-1B
├── InternVL2-2B
├── InternVL2-4B
├── InternVL2-8B
├── InternVL2-26B
├── InternVL2-40B
└── InternVL2-Llama3-76B

InternVL 코드베이스를 사용한 평가

데이터 준비

여기에 제공된 지침에 따라 평가 데이터를 준비하십시오.

MME

MME는 다중 모드 대규모 언어 모델(MLLM)을 평가하기 위해 설계된 포괄적인 벤치마크로, 14개의 서로 다른 하위 작업에 걸쳐 인식 및 인지 능력을 모두 평가하여 이러한 모델에 대한 강력하고 다양한 테스트를 보장합니다.

OKVQA

OKVQA (Outside Knowledge Visual Question Answering)는 이미지에 보이는 것 이상의 외부 지식을 요구하는 시각적 질문 답변 작업을 위해 설계된 데이터 세트로, AI 모델의 추론 능력을 평가하기 위한 14,000개 이상의 질문을 제공합니다.

TextVQA

TextVQA는 이미지 내에 존재하는 텍스트를 읽고 추론해야 하는 시각적 질문 답변 모델을 평가하기 위해 설계된 데이터 세트로, OpenImages 데이터 세트에서 가져온 28,408개의 이미지에 대한 45,336개의 질문을 포함합니다.

TextVQA 데이터 세트는 공식 OCR 결과, 특히 Rosetta OCR 토큰을 제공합니다. InstructBLIP 및 LLaVA 1.5로 테스트할 때 OCR 결과는 LLM에 프롬프트로 입력됩니다. Rosetta OCR 토큰을 입력하려면 다음 명령을 사용하십시오.

VizWiz

VizWiz VQA 데이터 세트는 시각 장애인이 제기한 시각적 질문에 답하는 데 도움이 되도록 만들어진 시각적 질문 답변 데이터 세트입니다. 사용자가 휴대폰을 사용하여 사진을 찍고 그것에 대한 음성 질문을 녹음한 31,000개 이상의 시각적 질문을 포함합니다. 각 질문에는 10개의 크라우드 소싱 답변이 제공됩니다. 이 데이터 세트는 시각적 질문에 대한 답변을 예측하고 시각적 질문에 답할 수 있는지 여부를 결정하는 등의 작업을 다룹니다.

ChartQA

ChartQA 데이터 세트는 차트에 대한 질문에 답변하기 위한 포괄적인 벤치마크로, 시각적 및 논리적 추론을 모두 포함합니다. 9.6K개의 사람이 작성한 질문과 차트 요약에서 파생된 23.1K개의 기계 생성 질문이 혼합되어 있습니다. 이 데이터 세트는 복잡한 질문에 답변하기 위해 차트를 이해하고 분석할 수 있는 모델을 평가하기 위해 설계되었으며, 종종 여러 논리적 및 산술 연산과 차트의 시각적 특징을 참조해야 합니다.