Researchmultimodal llmtraditional chinese medicineclip vitllama 7b

TongueVLM Achieves Multimodal Tongue Diagnosis Accuracy

|March 12, 2026|By LDS Team

7.3

Relevance Score

TongueVLM Achieves Multimodal Tongue Diagnosis Accuracy — Photo: asset.jmir.pub · rights & takedowns

Researchers from Hefei University of Technology and collaborators developed TongueVLM, a multimodal large model for traditional Chinese medicine tongue-image diagnosis, published in JMIR Medical Informatics (2026). The LLaMA-based 7B-parameter model uses CLIP-ViT visual encoding and modal fusion, evaluated on three test datasets (3,000 samples each) and achieved 79.8%, 78.6%, and 60.7% accuracy, outperforming baseline VLMs.

Key Points

1Develops TongueVLM, a 7B-parameter multimodal model aligning tongue images with TCM terminology
2Demonstrates superior accuracy versus LLaVA-OneVision across three tasks, improving by up to 9.1%
3Enables automated tongue description, constitution reasoning, and potential integration into TCM diagnostic systems

Scoring Rationale

Strong peer-reviewed evaluation and clear empirical gains drive the score, but niche TCM focus limits wider impact.

Sources

Public references used for this report.

1 source

01medinform.jmir.orgApplication of a Large Visual Language Model on Tongue Image Description Generation and Physical Constitution Reasoning in Traditional Chinese Medicine (TongueVLM): Model Development and Validation St

Practice with real Ad Tech data

90 SQL & Python problems · 15 industry datasets

Used by DS/ML engineers at top companies

Active Search Campaigns by BudgetEasy

High CPC Clicks & Poor Landing PagesMedium

Campaign ROAS by Attribution ModelHard

250 free problems · No credit card

See all Ad Tech problems

Researchmultimodal llmtraditional chinese medicineclip vitllama 7b

TongueVLM Achieves Multimodal Tongue Diagnosis Accuracy

|March 12, 2026|By LDS Team

7.3

Relevance Score

Key Points

1Develops TongueVLM, a 7B-parameter multimodal model aligning tongue images with TCM terminology
2Demonstrates superior accuracy versus LLaVA-OneVision across three tasks, improving by up to 9.1%
3Enables automated tongue description, constitution reasoning, and potential integration into TCM diagnostic systems

Scoring Rationale

Strong peer-reviewed evaluation and clear empirical gains drive the score, but niche TCM focus limits wider impact.

Sources

Public references used for this report.

1 source

Practice with real Ad Tech data

90 SQL & Python problems · 15 industry datasets

Used by DS/ML engineers at top companies

Active Search Campaigns by BudgetEasy

High CPC Clicks & Poor Landing PagesMedium

Campaign ROAS by Attribution ModelHard

250 free problems · No credit card

See all Ad Tech problems

TongueVLM Achieves Multimodal Tongue Diagnosis Accuracy

Key Points

Scoring Rationale

Sources

More AI & Data Science News

Google Expands Gemini Ad Agents In India

MLCommons Adds Agentic Inference Benchmark To MLPerf

PLoS Computational Biology Reviews Two Decades of Systems Biology

Markey Unveils AI Accountability Agenda For Federal Oversight

TongueVLM Achieves Multimodal Tongue Diagnosis Accuracy

Key Points

Scoring Rationale

Sources

More AI & Data Science News

Google Expands Gemini Ad Agents In India

MLCommons Adds Agentic Inference Benchmark To MLPerf

PLoS Computational Biology Reviews Two Decades of Systems Biology

Markey Unveils AI Accountability Agenda For Federal Oversight