MurMur(ムルムル)— オーディオブリッジ/文字起こし/翻訳

MurMur(ムルムル)は、システム音声をリアルタイムでルーティング・文字起こし・英語翻訳・録音できる軽量デスクトップアプリです。クラウドに依存せず、すべてローカルで処理されます。

シンプルな2ペインのUIで、音声入力を自動的に認識し、ほぼリアルタイムでテキストとして表示します。オプションで同時に英語翻訳も生成できます。

さらに、BlackHoleLoopbackなどの仮想デバイスを利用してデスクトップ音声を自在にルーティングし、バーチャルゲインで音量を調整し、録音をMP3として直接書き出すことが可能です。ユニークな活用例として、Shazam for Macと組み合わせることで、PC上で再生している楽曲を周囲の雑音なしで正確に特定できます。

すべての処理はローカルで実行されるため、データの安全性低遅延を両立します。

月めぐり時計

年と月を文字盤に見立てたブラウザ型の時計。外周にすべての日付(毎週月曜を強調)、内側に12か月を配置。新月(黒)と満月(白)を当月内に小さな円で表示し、100年分のデータセットに基づいています。

軽量な HTML5 Canvas 実装で、日針・月針が連続的に動きます。

SRT字幕翻訳ツール

SRT Translator は、.srt 字幕を正確に翻訳するための GUI と CLI を備えたデスクトップツールです。

対応エンジンは3種類です。NLLB(Meta「No Language Left Behind」)は動作要件が低く品質は堅実。SeamlessM4T(Meta)は中程度のリソースでより高品質。さらに、Ollama 経由のローカルLLMを使う実験的モードもあり、最高レベルの品質を狙えますが、必要なハードウェア要件も最も高くなります。

Ollama モードを使うには、Ollama をインストールしてサービスを起動しておく必要があります。上級ユーザーは Python ファイル内のプロンプトを直接調整できます。

(NLLB: arXiv 2207.04672;SeamlessM4T: arXiv 2308.11596;Ollama: 公式リポジトリ) 

YouTubeサマライザー

このデスクトップツールを使えば、YouTube動画を数クリックで自動的に文字起こし・要約し、さまざまな言語に翻訳できます。すべてローカルで処理され、プライバシーも守られます。主な機能は以下の通りです。

このツールはAIによる自動化と使いやすいインターフェースを融合し、YouTube動画から効率的に情報を抽出・整理したい方に大きな価値を提供します。

無限の音 (タバーンジェネレーター)

無限の音は、Stable Audioを使用してテキスト入力に基づいて任意の音を生成する無限音楽生成ツールです。このアプリケーションは、キーワードの入力、音量の制御、録音の管理のためのミニマリストなユーザーインターフェースを提供します。オーディオスニペットは常に生成され、クロスフェードで重ね合わされ、「録音」モードを有効にすることでローカルに保存されます。

技術的には、このプログラムはPyTorch、Stable Audio Tools、PyWebViewに基づいており、CPUおよびGPUアクセラレーション(CUDA/MPS)をサポートしています。生成に必要なAIモデルは、初回起動時にHugging Faceからダウンロードされ、無料のアクセスとAPIトークンが必要です。

SD 3Dモデルジェネレーター


SD 3Dモデルジェネレーターは、シンプルなテキスト入力と完全に作成された3Dアセットの間のギャップを埋める革新的なクリエイティブツールです。従来のStable Diffusion(SD)フロントエンドとは異なり、このアプリケーションは、先進的な大規模言語モデル(LLM)の統合により、全体のワークフローを加速します:
プロンプトが自動的に最適化され、 シームレスな(テーマに適した)環境マップが生成され、オブジェクトやキャラクターの画像が生成され、高品質の3Dモデルに変換されます – すべてが直感的なインターフェース内で行われ、画像と3Dモデルを環境マップと共に表示できます。

このツールの特徴は何ですか?


機能とユーザーエクスペリエンス



技術的概要


SD 3Dモデルジェネレーターは、アイデアから完成したアセットへの道を根本的に簡素化します。LLM、Stable Diffusion、そして自動化された3Dワークフローを結びつけることで、アーティスト、デザイナー、開発者は高品質のビジュアルをより迅速、柔軟、創造的に生成、管理、再利用できます。

オートギット

オートギットは、Gitリポジトリを自動的に監視・管理し、LLMを使用してコミットメッセージやドキュメント/READMEを作成するクロスプラットフォームのElectronアプリです。

すべての機能 – 継続的な自動コミットの作成からGiteaへの完全自動プッシュおよびリポジトリ設定まで – は、開発者の日常を楽にするために設計されています: コードに集中し続ける一方で、オートギットはバックグラウンドでコミット履歴、ドキュメント、リモートリポジトリを常に最新の状態に保ちます。

仮想次元間霊テレポーテーション装置

「仮想次元間霊テレポーテーション装置」は、日本の神話のキャラクターをブラウザ上に表示するインタラクティブな3Dウェブアプリケーションです。デジタル「メルカバ」を通じて、これらの存在が仮想世界にテレポートされ、観察され、クリックすることで情報ボックスオーバーレイで探求できます。
このポートフォリオプロジェクトの目的は、日本の神話についてドイツ語で学び、文化的な架け橋を築くことです。

フロントエンド: Three.js
バックエンド: Node.js, Express, Websocket
3Dモデル: Hunyuan3D-2, Blenderでの編集
情報テキスト: ChatGPT

すべての3D環境、モデル、テクスチャを含む、1200px x 900pxの樹冠テクスチャとHDRI環境マップを含め、全コードは500キロバイト未満です。3Dモデルは動的にロードされ、クライアントはサーバーが「プッシュ」するまでそれらに関する情報を持ちません。サーバーとの通信とスポーン機能はスピナー(メルカバ)に統合されています。
モバイル表示はデスクトップ版よりも計算負荷が少なく、アダプティブ・フィデリティ・システムも導入されています。

書籍印刷準備スクリプト

本のページが正しい順序になるためには、少し数学が必要です。「サイン」(層)を正しく印刷するためには、通常は有料のソフトウェアが必要ですが、代わりにそれを行うスクリプトを提供します。

それはPDFを処理し、新しいPDFを生成します。これを使って、両面のデュプレックス印刷(1枚の用紙に4ページ – 表2ページ、裏2ページ)を直接印刷できます。
1層あたり何枚の用紙を束ねたいかを簡単に指定でき、スクリプトはすべてを適切に準備します。

また、「マンガ」モードも備えており、西洋の基準で「後ろから前へ」読む書籍を印刷のために準備し、ページの余白をトリミングするためのパラメータもあります。

スマートふりがな

漢字の一日は「いちにち」(「一日中」)または「ついたち」(「月の初日」)と読むことができます。
文脈によっては、いくつかの漢字の読み方が異なります。

振り仮名は日本の読み助けです。これは、漢字の横または上に書かれ、その発音を示すためのひらがな文字です。

従来の振り仮名ソフトウェアは、テキストの全体的な意味や文脈を認識できず、日本の読者が実際にテキストを読むように振り仮名を正しく表示できないことがあります。

しかし、AIを使えばそれが可能になったため、このソフトウェアをプログラムしました。
「スマート振り」は、文脈、口調などを分析して、テキストに適切な読みを振り仮名として追加します – 漢字の読み方を間違って学ぶのではなく、日本の人がテキストを(前)読むかのように学べるようにします。

プライバシーポリシー Keks

クッキーが保存されました。名前は「lang」、サイズは6バイト、保存期間は3日間で、どの言語を希望するかを記憶するために技術的に必要です。優しくしてね!