ソースコードの配布は「 https://github.com/aegisfleet/hugging-face-trending-to-bluesky 」で行っています。
GitHubトレンド: @dailygithubtrends.bsky.social
Zennトレンド: @dailyzenntrends.bsky.social
stepfun-ai/Step-3.5-Flash
このリポジトリは、Step 3.5 Flashという高性能なオープンソース基盤モデルに関するものです。
1960億パラメータを持ちながら、MoEアーキテクチャにより効率的に推論・応答を実現します。
高度な推論能力、コーディング能力、エージェント能力を備え、商用モデルと同等の性能を目指しています。
stepfun-ai/Step-3.5-Flash
このリポジトリは、Step 3.5 Flashという高性能なオープンソース基盤モデルに関するものです。
1960億パラメータを持ちながら、MoEアーキテクチャにより効率的に推論・応答を実現します。
高度な推論能力、コーディング能力、エージェント能力を備え、商用モデルと同等の性能を目指しています。
Qwen/Qwen3-ASR-1.7B
このリポジトリは、Qwen3-ASRモデル群を公開するものです。
Qwen3-ASR-1.7Bと0.6Bは、52の言語・方言に対応した音声認識と言語識別を行います。
大規模な音声データで学習されており、オープンソースモデル中では最高水準の性能を示します。
オフライン/ストリーミング推論、多様な音声タイプに対応可能です。
Qwen/Qwen3-ASR-1.7B
このリポジトリは、Qwen3-ASRモデル群を公開するものです。
Qwen3-ASR-1.7Bと0.6Bは、52の言語・方言に対応した音声認識と言語識別を行います。
大規模な音声データで学習されており、オープンソースモデル中では最高水準の性能を示します。
オフライン/ストリーミング推論、多様な音声タイプに対応可能です。
nvidia/personaplex-7b-v1
このリポジトリは、NVIDIAが開発したリアルタイム音声対話モデルPersonaPlexに関するものです。
PersonaPlexは、音声とテキストのプロンプトにより、特定の声と役割を持つ対話エージェントを実現します。
連続音声入力に対し、同時ストリーミングで理解と生成を行い、自然な会話(割り込みなど)を可能にするのが特徴です。
nvidia/personaplex-7b-v1
このリポジトリは、NVIDIAが開発したリアルタイム音声対話モデルPersonaPlexに関するものです。
PersonaPlexは、音声とテキストのプロンプトにより、特定の声と役割を持つ対話エージェントを実現します。
連続音声入力に対し、同時ストリーミングで理解と生成を行い、自然な会話(割り込みなど)を可能にするのが特徴です。
deepseek-ai/DeepSeek-OCR-2
DeepSeek-OCR 2モデルの利用を目的としたリポジトリ。
画像からテキストを抽出、またはドキュメントをMarkdown形式に変換する推論処理をHuggingface transformersを用いて行う。
vLLMによる高速化やPDF処理のガイドも提供。
deepseek-ai/DeepSeek-OCR-2
DeepSeek-OCR 2モデルの利用を目的としたリポジトリ。
画像からテキストを抽出、またはドキュメントをMarkdown形式に変換する推論処理をHuggingface transformersを用いて行う。
vLLMによる高速化やPDF処理のガイドも提供。
Tongyi-MAI/Z-Image
Z-Imageは高品質な画像生成を目的とした基盤モデルです。
多様なスタイルに対応し、プロンプトへの正確な追従性を持ちます。
クリエイター、研究者、開発者向けに、高い創造性を実現するバックボーンとなることを目指しています。
diffusersライブラリを使用。
Tongyi-MAI/Z-Image
Z-Imageは高品質な画像生成を目的とした基盤モデルです。
多様なスタイルに対応し、プロンプトへの正確な追従性を持ちます。
クリエイター、研究者、開発者向けに、高い創造性を実現するバックボーンとなることを目指しています。
diffusersライブラリを使用。
microsoft/VibeVoice-ASR
このリポジトリは、最長60分間の長尺音声に対応した音声認識モデルVibeVoice-ASRに関するものです。
話者、時間、内容を構造化して書き起こし、カスタムホットワードや50以上の言語に対応します。
従来の音声認識モデルが苦手としていた長尺音声の文脈を維持し、高精度な認識を実現します。
microsoft/VibeVoice-ASR
このリポジトリは、最長60分間の長尺音声に対応した音声認識モデルVibeVoice-ASRに関するものです。
話者、時間、内容を構造化して書き起こし、カスタムホットワードや50以上の言語に対応します。
従来の音声認識モデルが苦手としていた長尺音声の文脈を維持し、高精度な認識を実現します。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、Danbooru形式のタグや自然言語によるプロンプトに対応しています。
学習データは主にアニメ画像で、イラストや芸術的な画像の生成を目的としています。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、Danbooru形式のタグや自然言語によるプロンプトに対応しています。
学習データは主にアニメ画像で、イラストや芸術的な画像の生成を目的としています。
PaddlePaddle/PaddleOCR-VL-1.5
PaddleOCR-VL-1.5は、PaddleOCRを基盤とした0.9BのVLM(Vision-Language Model)です。
主に、現実世界のドキュメント解析タスクを堅牢に行うことを目的としています。
BaiduのERNIE-4.5-0.3B-Paddleモデルをベースに構築されています。
PaddlePaddle/PaddleOCR-VL-1.5
PaddleOCR-VL-1.5は、PaddleOCRを基盤とした0.9BのVLM(Vision-Language Model)です。
主に、現実世界のドキュメント解析タスクを堅牢に行うことを目的としています。
BaiduのERNIE-4.5-0.3B-Paddleモデルをベースに構築されています。
tencent/HunyuanImage-3.0-Instruct
HunyuanImage-3.0は、テキストと画像を統合した高性能な画像生成モデルです。
テキストから画像、または画像から画像を生成でき、既存のクローズドソースモデルと同等またはそれ以上の性能を発揮します。
PyTorchと関連ライブラリのインストールが必要です。
高速化のための最適化も利用可能です。
tencent/HunyuanImage-3.0-Instruct
HunyuanImage-3.0は、テキストと画像を統合した高性能な画像生成モデルです。
テキストから画像、または画像から画像を生成でき、既存のクローズドソースモデルと同等またはそれ以上の性能を発揮します。
PyTorchと関連ライブラリのインストールが必要です。
高速化のための最適化も利用可能です。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
Qwen/Qwen3-ASR-1.7B
このリポジトリは、Qwen3-ASRモデル群を公開するものです。
Qwen3-ASR-1.7Bと0.6Bは、52の言語・方言に対応した音声認識と言語識別を行います。
大規模な音声データで学習されており、オープンソースモデル中では最高水準の性能を示します。
オフライン/ストリーミング推論、多様な音声タイプに対応可能です。
Qwen/Qwen3-ASR-1.7B
このリポジトリは、Qwen3-ASRモデル群を公開するものです。
Qwen3-ASR-1.7Bと0.6Bは、52の言語・方言に対応した音声認識と言語識別を行います。
大規模な音声データで学習されており、オープンソースモデル中では最高水準の性能を示します。
オフライン/ストリーミング推論、多様な音声タイプに対応可能です。
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTSは、10言語に対応したテキスト読み上げ(TTS)モデルを提供するリポジトリです。
多様な声質プロファイル、文脈理解、ノイズへの耐性を特徴とし、音声設計、スタイル制御、高速ボイスクローンなどの機能を提供します。
モデルのダウンロード情報も含まれています。
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTSは、10言語に対応したテキスト読み上げ(TTS)モデルを提供するリポジトリです。
多様な声質プロファイル、文脈理解、ノイズへの耐性を特徴とし、音声設計、スタイル制御、高速ボイスクローンなどの機能を提供します。
モデルのダウンロード情報も含まれています。
deepseek-ai/DeepSeek-OCR-2
DeepSeek-OCR 2モデルの利用を目的としたリポジトリ。
画像からテキストを抽出、またはドキュメントをMarkdown形式に変換する推論処理を、Hugging Face transformersを用いてNVIDIA GPU上で行うための環境構築とサンプルコードを提供する。
vLLMによる高速化もサポート。
deepseek-ai/DeepSeek-OCR-2
DeepSeek-OCR 2モデルの利用を目的としたリポジトリ。
画像からテキストを抽出、またはドキュメントをMarkdown形式に変換する推論処理を、Hugging Face transformersを用いてNVIDIA GPU上で行うための環境構築とサンプルコードを提供する。
vLLMによる高速化もサポート。
nvidia/personaplex-7b-v1
このリポジトリは、リアルタイム双方向会話音声モデル「PersonaPlex」に関するものです。
音声と役割を制御し、継続的な音声からテキストと音声を同時に予測して自然な会話を実現します。
音声プロンプトとテキストプロンプトでモデルの会話特性を定義します。
nvidia/personaplex-7b-v1
このリポジトリは、リアルタイム双方向会話音声モデル「PersonaPlex」に関するものです。
音声と役割を制御し、継続的な音声からテキストと音声を同時に予測して自然な会話を実現します。
音声プロンプトとテキストプロンプトでモデルの会話特性を定義します。
Tongyi-MAI/Z-Image
Z-Imageは高品質、多様性、広範なスタイル、正確なプロンプト対応を特徴とする画像生成基盤モデルです。
クリエイター、研究者、開発者向けに設計された、高い創造性を必要とする用途を想定しています。
diffusersライブラリを使用し、テキストから画像を生成します。
Tongyi-MAI/Z-Image
Z-Imageは高品質、多様性、広範なスタイル、正確なプロンプト対応を特徴とする画像生成基盤モデルです。
クリエイター、研究者、開発者向けに設計された、高い創造性を必要とする用途を想定しています。
diffusersライブラリを使用し、テキストから画像を生成します。
lightonai/LightOnOCR-2-1B
このリポジトリは、ドキュメント(PDF、スキャン画像など)を自然な順序のテキストに変換するOCRモデルLightOnOCR-2-1Bとその派生モデルを提供します。
従来のOCRパイプラインに頼らず、高い精度と効率を実現し、特にフランス語やarXiv文書、スキャン画像に優れています。
lightonai/LightOnOCR-2-1B
このリポジトリは、ドキュメント(PDF、スキャン画像など)を自然な順序のテキストに変換するOCRモデルLightOnOCR-2-1Bとその派生モデルを提供します。
従来のOCRパイプラインに頼らず、高い精度と効率を実現し、特にフランス語やarXiv文書、スキャン画像に優れています。
PaddlePaddle/PaddleOCR-VL-1.5
PaddleOCR-VL-1.5は、PaddleOCRを基盤とした0.9BのVLM(Vision-Language Model)です。
主に、現実世界のドキュメント解析タスクを堅牢に行うことを目的としています。
BaiduのERNIE-4.5-0.3B-Paddleモデルをベースに構築されています。
PaddlePaddle/PaddleOCR-VL-1.5
PaddleOCR-VL-1.5は、PaddleOCRを基盤とした0.9BのVLM(Vision-Language Model)です。
主に、現実世界のドキュメント解析タスクを堅牢に行うことを目的としています。
BaiduのERNIE-4.5-0.3B-Paddleモデルをベースに構築されています。
microsoft/VibeVoice-ASR
このリポジトリは、最長60分間の長尺音声に対応した音声認識モデルVibeVoice-ASRに関するものです。
話者、時間、内容を構造化して書き起こし、カスタムホットワードや50以上の言語に対応します。
従来の音声認識モデルが苦手としていた長尺音声の文脈を維持し、高精度な認識を実現します。
microsoft/VibeVoice-ASR
このリポジトリは、最長60分間の長尺音声に対応した音声認識モデルVibeVoice-ASRに関するものです。
話者、時間、内容を構造化して書き起こし、カスタムホットワードや50以上の言語に対応します。
従来の音声認識モデルが苦手としていた長尺音声の文脈を維持し、高精度な認識を実現します。
tencent/HunyuanImage-3.0-Instruct
HunyuanImage-3.0は、テキストと画像を統合した高性能な画像生成モデルです。
テキストから画像、または画像から画像を生成でき、既存のクローズドソースモデルと同等またはそれ以上の性能を発揮します。
PyTorchと関連ライブラリのインストールが必要です。
高速化のための最適化も利用可能です。
tencent/HunyuanImage-3.0-Instruct
HunyuanImage-3.0は、テキストと画像を統合した高性能な画像生成モデルです。
テキストから画像、または画像から画像を生成でき、既存のクローズドソースモデルと同等またはそれ以上の性能を発揮します。
PyTorchと関連ライブラリのインストールが必要です。
高速化のための最適化も利用可能です。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
zai-org/GLM-4.7-Flash
GLM-4.7-Flashは30BパラメータのMoEモデルで、軽量なデプロイメントと性能のバランスを重視しています。
テキスト生成に特化し、様々なベンチマークで高い性能を示しています。
ローカル環境での推論も可能です。
zai-org/GLM-4.7-Flash
GLM-4.7-Flashは30BパラメータのMoEモデルで、軽量なデプロイメントと性能のバランスを重視しています。
テキスト生成に特化し、様々なベンチマークで高い性能を示しています。
ローカル環境での推論も可能です。
deepseek-ai/DeepSeek-OCR-2
DeepSeek-OCR 2モデルの利用を目的としたリポジトリ。
画像からテキストを抽出、またはドキュメントをMarkdown形式に変換する推論処理をHuggingface transformersを用いて行う。
vLLMによる高速化やPDF処理のガイドも提供。
deepseek-ai/DeepSeek-OCR-2
DeepSeek-OCR 2モデルの利用を目的としたリポジトリ。
画像からテキストを抽出、またはドキュメントをMarkdown形式に変換する推論処理をHuggingface transformersを用いて行う。
vLLMによる高速化やPDF処理のガイドも提供。
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTSは、10言語に対応したテキスト読み上げ(TTS)モデルを提供するリポジトリです。
多様な声質プロファイル、文脈理解、ノイズへの耐性を特徴とし、音声設計、スタイル制御、高速ボイスクローンなどの機能を提供します。
モデルのダウンロード情報も含まれています。
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTSは、10言語に対応したテキスト読み上げ(TTS)モデルを提供するリポジトリです。
多様な声質プロファイル、文脈理解、ノイズへの耐性を特徴とし、音声設計、スタイル制御、高速ボイスクローンなどの機能を提供します。
モデルのダウンロード情報も含まれています。
Tongyi-MAI/Z-Image
Z-Imageは高品質な画像生成を目的とした基盤モデルです。
多様なスタイルに対応し、プロンプトへの正確な追従性を持ちます。
クリエイター、研究者、開発者向けに、高い創造性を実現するバックボーンとなることを目指しています。
diffusersライブラリを使用。
Tongyi-MAI/Z-Image
Z-Imageは高品質な画像生成を目的とした基盤モデルです。
多様なスタイルに対応し、プロンプトへの正確な追従性を持ちます。
クリエイター、研究者、開発者向けに、高い創造性を実現するバックボーンとなることを目指しています。
diffusersライブラリを使用。
nvidia/personaplex-7b-v1
このリポジトリは、リアルタイム双方向会話音声モデル「PersonaPlex」に関するものです。
音声と役割を制御し、継続的な音声からテキストと音声を同時に予測して自然な会話を実現します。
音声プロンプトとテキストプロンプトでモデルの会話特性を定義します。
nvidia/personaplex-7b-v1
このリポジトリは、リアルタイム双方向会話音声モデル「PersonaPlex」に関するものです。
音声と役割を制御し、継続的な音声からテキストと音声を同時に予測して自然な会話を実現します。
音声プロンプトとテキストプロンプトでモデルの会話特性を定義します。