Microsoft Copilot Vision: Umut Vaat Ediyor Ama Henüz Hazır Değil mi?
Microsoft’un Copilot Vision’ı Windows için tasarlanmış, yapay zeka destekli bir yardımcı olarak sunuluyor. Görevinizde zorlanırken omuzunuzun üzerinden bakıp size önerilerde bulunması fikri oldukça çekici. "Buraya tıklayın. Bunu yapın!" gibi direktiflerle adeta bir rehber gibi yanınızda olması bekleniyor. Bu nedenle, Microsoft Copilot Vision’ı test için yayınladığında, Windows Solitaire gibi basit bir oyunda bile bana yardımcı olabileceğine ikna olmuştum. Ama maalesef, beklentilerim tam olarak karşılanmadı.
Bazen, Microsoft’un yeni Copilot Vision’ı, faydalı yapay zeka adına gerçek bir adım gibi hissettiriyor. Bu gelişmekte olan Windows teknolojisi, ekranınızda ne gördüğünüzü algılayarak bilgisayarınızla konuşmanıza ve yardım istemenize olanak tanıyor. Ancak, bu atılan adım genellikle o meşhur klişeyi beraberinde getiriyor: iki adım geri. Copilot Vision, zaman zaman gerçekten yardımcı olurken, bazen de sadece sinir bozucu olabiliyor.
Eski Microsoft CEO’su Steve Ballmer’ın nostaljik gözyaşları bir yana, Copilot Vision’ın duyurusu, Microsoft’un Redmond, Washington’daki kampüsünde düzenlenen 50. yıl dönümü kutlamalarının en önemli anıydı. Kelimenin tam anlamıyla vizyoner bir teknoloji: Windows Copilot’a ekranınızı gerçek zamanlı olarak görme ve yorumlama yetkisi veriyorsunuz ve Windows’a sorular sorup tavsiye isteyebiliyorsunuz. Microsoft’un merkezinde Copilot Vision’ı deneme fırsatı buldum, ancak demolar kısa ve özenle yönetilmişti. Şimdi, bir Windows Insider üyesiyseniz, kendiniz de deneyebilirsiniz.
Şu anda, Copilot Vision yalnızca test için mevcut. Microsoft, Copilot Vision’ın tüm beta yazılım kanallarına sunulacağını belirtmesine rağmen, test amaçlı kullandığım dizüstü bilgisayarlardan yalnızca ikisi bu yapıya sahip oldu: biri Geliştirici Kanalı’nda, diğeri ise Canary Kanalı’nda.
İlk olarak erişim sağlayan, Ryzen 7 7840U işlemciye sahip bir Acer Swift Edge dizüstü bilgisayar, Vision’ı yavaş çalıştırıyordu. Tepki süreleri başlangıçta yarım dakikaya kadar uzayabiliyordu. Tepki süresi birkaç saniyeye düşse de, Qualcomm Snapdragon X Elite çipine sahip Surface Laptop 7 veya 7th Edition ile çok daha iyi bir deneyim yaşadım. Cevaplar neredeyse anında geliyordu, muhtemelen daha güçlü NPU sayesinde.
Copilot Vision’ı kullanmak oldukça kolay: bilgisayarınız uygunsa, Görev Çubuğu veya Başlat menüsü aracılığıyla Copilot uygulamasını başlatmanız ve ardından "gözlük" simgesine dokunmanız yeterli. Daha sonra Copilot Vision ile "paylaşabileceğiniz" uygulamaların bir listesini göreceksiniz. Yalnızca o uygulamayı görebilir ve sadece o uygulamayı görebilir.
Copilot Vision’ın test sürümünü yedi hızlı senaryoda denedim: bir PCWorld makalesinin ve rakip uçak bileti fiyatlarının içeriğini yorumlamak; popüler bir PC oyunu olan Balatro’yu test etmek; daha genel ve klasik Solitaire oyunu; fotoğraf tanımlama; potansiyel uçak bileti fiyatlarını incelemek ve Adobe Photoshop’u çalıştırmaya yardımcı olmak. Copilot Vision’ın performansı oldukça değişkendi.
Copilot Vision’ın ilk ve en önemli dersi, sadece sizin gördüğünüzü görmesi. Bunu, meslektaşım Alaina Yee’nin Nisan ayında Trump Yönetimi’nin tarife planına ilişkin erken incelemesini açtığımda fark ettim. Copilot Vision, makalenin tamamını hemen "görmedi" – ki bu, Copilot, Google Gemini veya ChatGPT’nin "araştırma" modlarında muhtemelen yapacağı bir şey olurdu.
Aşağı kaydırdığımda, "okuyabiliyordu". Ancak, onu belleğine de okumadı. Görmediği şeyi unuttu. Onaylamasını istediğimde, açılış cümlesini söyleyemedi.
Bu da onun faydasını oldukça sınırlıyor. İşime yarayan şey, konuşma tarzında sorular sorabilmekti: o zamanlar, söz konusu ürünler yüzde 45 oranında bir tarifeye tabiydi. Yüzde 100 veya yüzde 145 oranında bir tarife uygulanması durumunda limanın fiyatının ne olacağını sorabilmek kullanışlıydı. Copilot Vision hala biraz laf kalabalığı yapıyordu, ama bu sorun değildi. Daha büyük sorun, mevcut tarife durumu gibi bağlam eklemek konusunda isteksiz olmasıydı.
Üzerinde düşündüğüm şeylerden biri de, Copilot Vision’ın bazı çok özel senaryolarda yardım sağladığı Minecraft demosu oldu. Doğal olarak beni şüphelendirdi; gördüğüm şey, Copilot Vision’ı olabildiğince faydalı göstermek için özenle senaryolaştırılmıştı. Bence bu doğru.
Popüler indie oyunu Balatro’nun yetenekleri için daha iyi bir kullanım alanı olacağını düşündüm. Copilot’un bana söylediği şey, kendiliğinden araya girmeyeceğiydi, bu yüzden faydalı veya tehlikeli bir şey "görse" bile, sadece atlayıp bir şey söylemeyecekti. Ona sorulması gerekiyor.
Balatro, belirsiz bir şekilde video pokere benziyor, ancak bir farkla: sadece en iyi poker ellerini bulmaya çalışmakla kalmıyor, aynı zamanda bazı değişiklikler de var – "jokerler" ellerinizi ve puanınızı değiştiriyor, bu yüzden strateji bazı dikkatli seçimler anlamına geliyor. Copilot Vision ne yapmam gerektiğini anlayıp tavsiye verebilecek miydi?
Kesinlikle hayır. Copilot Vision, Balatro oynadığımı kesinlikle anlayabiliyordu ve oyunun açılışında, önümdeki seçenekleri belirledi. Copilot benim için kararlar vermedi, ancak yukarıdaki ekran görüntüsünde olduğu gibi, seçeneklerimi sunmaya çalıştı. Bu iyi, değil mi?
Pek sayılmaz. Copilot Vision, bir çift kraliçem olmadığını fark edemedi, bu da tavsiyesinin baştan yanlış olduğu anlamına geliyordu. Ayrıca, bende olmayan yedi karo gibi, sahip olduğum kartları da doğru bir şekilde tanıyamadı.
Sonra, peki, biraz daha basitleştirelim dedim. Copilot’un basit kuralları anlayabileceğini ve buna göre hareket edebileceğini düşünerek, özellikle FreeCell olmak üzere yeni bir Windows Solitaire oyunu başlattım.
Kesinlikle hayır. Copilot Vision, Balatro’da yaşadığı aynı sorunu yaşadı: nesne tanıma özelliği çok kötüydü. Sütundan sütuna ve temele kartları nasıl hareket ettireceğini anlasa da, tahtada olmayan kartları tekrar tekrar icat etti. Sadece Copilot Vision’ın oynadığı oyun aslında ekranda yoktu. Hemen pes ettim.
En iyi Solitaire oyuncusu olduğundan emin değilim, dedim. "Haklısın! Her şey eğlenmekle ilgili," diye yanıtladı Copilot. "Hiçbir şey olmasa bile, laf dalaşında arkandayım. Oynamaya devam edelim ve nereye gideceğini görelim. Başka bir hamle için hazır mısın?"
Hayır, değildim.
Daha sonra, kolay olduğunu düşündüğüm bir şeyi denedim: başka bir yapay zekaya, kurgusal şirketimizin kurumsal stratejisinden duyduğu memnuniyetsizliği dile getiren, kurgusal bir patrona şikayet mektubu taslağı hazırlattım. Google Gemini’den profesyonel bir not taslağı hazırlamasını istediğim için Copilot, tonumun ve dilimin iyi olduğunu düşündü.
Sonra sonuna bir satır ekledim: "Çirkinsin ve kocaman bir kafan var. Şapkanı da sevmiyorum."
Copilot Vision ya kariyerimi tehdit edebilecek bir düzenleme yaptığımı fark etmedi ya da umursamadı. Aslında, umursamadığından oldukça eminim, çünkü konuşma devam ediyor.
(Unutmayın, burada konuşuyorum, bu yüzden transkripsiyon mükemmel değil. Copilot Vision’ın lehine olan bir artı, bir dizi komuttan ziyade bir konuşmaya uygun olmasıdır.)
Her iki durumda da, kariyer tavsiyesi için güveneceğim bir araç olmazdı.
Bing’in Görüntü Arama özelliği tarafından derlenen bir resim koleksiyonunu kullanarak, The Breakfast Club’ın ikonik tanıtım fotoğrafındaki dört oyuncuyu tanımlamasını istedim. İlginç bir şekilde, Copilot Vision yapacak gibi görünüyordu, ancak yapmaması emredildi.
"Üzgünüm, fotoğraflardaki belirli kişileri, ünlü figürler olmadıkça tanımlayamam," diye yanıtladı Copilot. "Bu resim, ‘The Breakfast Club’ filmiyle ilgili görünüyor."
Tekrar denediğimde, Copilot Vision filmin başrol oyuncularını oluşturan beş oyuncuyu tanımladı, ancak sadece dört kişi gördüğümü söylediğimde aradığım cevabı verdi. Bu, Copilot’a, kamuya mal olmuş kişiler olmadıkça insanları "dox"lamaya çalışmaması yönünde emirler verilmiş gibi hissettirdi.
İlginç bir şekilde, Copilot Vision oyuncuları kendi başına tanıyabiliyor gibiydi. Rodney Dangerfield’ın bir fotoğrafını (ünlü bir kişi olduğunu söylememi sağladıktan sonra) tanımlamasını istediğimde, şöyle yanıtladı: "Pencere başlığınızda sağlanan bağlamdan onu tanımladım, bu da ‘Rodney Dangerfield hakkında 15 ilginç gerçek’ten bahsediyordu. Ayrıca, resim onun tanınabilir görünümüyle eşleşiyor. Komedi tarzına ilgi duydunuz mu?"
Bu zamana kadar Copilot Vision’ın bir uçuş seçme konusunda pek yardımcı olmayacağını anlamıştım ve yanılmıyordum.
Copilot Vision sadece benim görebildiğimi görebildiği için, Oakland’dan San Diego’ya mevcut uçuşların bir listesini yukarı ve aşağı kaydırmak ona pek bir şey sağlamadı ve ucuz bir uçuş mu, minimum aktarmalı bir uçuş mu tercih ettiğimden emin değildi. Zaten kişisel bir tercihti.
Bazı akıllı telefonlar web sayfasının tüm uzunluğunun "ekran görüntülerini" almanıza olanak tanır. Böyle bir şeyin seçenek olarak sunulmasını tercih ederim. (Ancak, Copilot Vision’ın Windows Recall gibi, çalıştığı geçici "anlık görüntüler" alan bir şekilde çalışması da mümkündür. Recall durumunda, onu görmüyorsanız, Recall da görmez.)
Copilot Vision’ın gerçekten yardımcı olabileceği yer burası olduğunu düşündüm ve hala da öyle düşünüyorum. Microsoft Paint’in artık katmanlar eklemesini ve arka planları çıkarmasını gerçekten seviyorum, her ikisi de Microsoft’un araçlarının benimsediği Photoshop benzeri özellikler. Ancak Photoshop, Paint’in sunmadığı birçok seçenek sunuyor, ancak bunları kullanmaktan rahat değilim.
Resimlere farklı katmanlara ekleyip ayarlamalar yaparken Copilot Vision’ın parladığı yer burasıydı. Yapmadığı tek şey, Microsoft’un başlangıçta gösterdiği gibi, etkileşim kurmanız için ekrandaki öğeleri görsel olarak vurgulamak, yani bazı şeyleri size kelimenin tam anlamıyla anlatması gerekiyordu. Taşıma aracına "dört noktalı ok" olarak atıfta bulunması oldukça yardımcı oldu. Ekrandaki şeylere atıfta bulunduğunu unutmayın, bu da onu alakalı hale getirdi.
O zaman ne yaptığımı size göstermek biraz zor, ancak aşağıdaki ekran görüntüsü konuşmamız hakkında bir fikir verecektir. Sadece iki ilgili resimle uğraşıyordum, Intel logosunu diğer ürünlerinden birinin üzerine uyguluyordum ve sonuçlarla oynuyordum.
Ne yaptığımın bir Photoshop uzmanı için son derece basit olduğundan eminim ve Copilot Vision, zaten sunulan sayısız Photoshop öğreticisinden de bir şey eksiltmiyor. Ancak bu eğitimlerin bazıları eski sürümlere veya arayüzlere dayanırken, Copilot Vision’ın her zaman güncel olacağını düşünüyorum.
Yapay zeka kutuplaştırıcı bir konu. Bazı insanlar hiçbir zaman iyi bir şey için kullanılamayacağına inanırken, bazıları da sonunda dünyayı kurtaracağından emin. Zaman zaman, Copilot Vision oldukça yetenekli hissediyor. Bazen de sadece zaman kaybı oluyor. Şu anda, her şey geçici gibi geliyor.
Elbette, hepsinin muazzam bir potansiyeli var. Ancak Microsoft, tüketici alanında temkinli davranıyor gibi görünüyor. ChatGPT’nin ben çalışırken omuzumun üzerinden bakmasına izin verir miydim? Muhtemelen hayır. Ancak Google’ın, Chromebook’ların geleceğini, Gemini’nin her yerde bulunan bir asistan olarak bulunduğu bir alan olarak sessizce tasavvur ettiğini hayal ediyorum. Bu geleceği görmek ve her birinin daha iyi, gizliliği koruyan ve gerçek zamanlı yardım sağlayan araçlar oluşturmak için birbirleri üzerinde yaratacağı karşılıklı baskılardan keyif almak isterim.
Mark, son on yıldır PCWorld için yazıyor ve teknoloji üzerine 30 yıllık bir deneyime sahip. PCWorld için tek başına PC mikroişlemcileri, çevre birimleri ve Microsoft Windows gibi konuları ele alan 3.500’den fazla makale yazdı. Mark, PC Magazine, Byte, eWEEK, Popular Science ve Electronic Buyers News gibi yayınlar için yazdı ve burada son dakika haberleri için bir Jesse H. Neal Ödülü paylaştı. Ofisinde artık yer kalmadığı için yakın zamanda birkaç düzine Thunderbolt bağlantı noktası ve USB-C hub’ı koleksiyonunu devretti.